基于层次聚类的跨文本中文人名消歧研究

张菲菲; 李宗海; 周晓辉; 李晓戈

首页> 中文期刊> 《计算机工程与应用》 >基于层次聚类的跨文本中文人名消歧研究

基于层次聚类的跨文本中文人名消歧研究

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

人名消歧已经成为自然语言处理和信息抽取应用中亟待解决的重要问题。运用中文自然语言处理和信息抽取系统识别命名实体和实体关系，生成实体信息对象（Entity Profile），采用实体信息对象（EP）中的个人信息特征，实体关系和上下文相关信息在Hadoop平台上基于凝聚的层次聚类方法解决了实体消歧问题。采用哈尔滨工业大学整理的全网新闻语料作为人名消歧训练和测试数据，着重研究了中文人名消歧特征的选取，参数的确定和验证，在训练集和测试集上分别取得了91.33%和88.73%的F值。说明提出的方法具有较好的可行性。%Cross-document entity disambiguation is the problem of identifying whether mentions from different documents refer to the same or distinct entities. This paper describes a Chinese information extraction system which involves both document-level IE and corpus-level IE, a pipeline and multi-level modular approach to name entity and Entity Profile extrac-tion. It introduces novel features based on document-level entity profiles and study on the influence of feature selection, parameter selection, parameter validation and analysis on results. Disambiguation is performed based on agglomerative hier-archical clustering using Hadoop. Experiments show that F-measure of training set is 91.33% and testing set is 88.73%, using the whole network news corpus dataset from Harbin Institute of Technology.

著录项

来源
《计算机工程与应用》 |2014年第6期|106-111|共6页
作者
张菲菲; 李宗海; 周晓辉; 李晓戈;
展开▼
作者单位

西安邮电大学;

西安 710121;

济南中林信息科技有限公司;

济南 250100;

西安邮电大学;

西安 710121;

西安邮电大学;

西安 710121;

济南中林信息科技有限公司;

济南 250100;

展开▼
原文格式 PDF
正文语种 chi
中图分类 TP391.12;
关键词
人名消歧; 信息抽取; 相似度; 层次聚类;

相似文献

中文文献
外文文献
专利

1. 融合句义分析的跨文本人名消歧 [J] . 张晗 ,罗森林 ,邹丽丽 . 浙江大学学报（工学版） . 2015,第004期
2. 基于融合特征的中文图书作者人名消歧方法研究 [J] . 李孟亚 . 电脑知识与技术 . 2018,第011期
3. 基于句义结构分析的中文人名消歧 [J] . 熊李艳 ,赵毅 ,黄卫春 . 计算机应用研究 . 2016,第010期
4. 基于网页文本依存特征的人名消歧 [J] . 杨欣欣 ,李培峰 ,朱巧明 . 计算机工程 . 2012,第019期
5. 聚类集成技术在中文人名消歧中的应用研究 [J] . 陈君涛 ,展金梅 . 信息系统工程 . 2020,第004期
6. 基于层次聚类算法的中文人名消歧研究 [C] . 章顺瑞 ,游宏梁 . 第二十四届全国计算机信息管理学术研讨会 . 2010
7. 结合共指消解的跨文档中文人名消歧研究 [A] . 刘杰 . 2013

基于层次聚类的跨文本中文人名消歧研究

摘要

著录项

相似文献

相关主题

期刊订阅