中文实体集合自动扩展技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

中文实体集合自动扩展技术的研究已经从传统的限定类别、限定领域的任务发展到开放类别、开放领域的自动抽取。科研领域和应用领域的需求,给实体集合扩展提出了更多的要求。目前主流的方法都是模版法,由于种子存在一词多义和语义模糊的特性,而模版法仅仅使用上下文信息会导致结果含有大量的噪音。最重要的是,模板仅仅是使用了种子的环境特征,而没有加入语义特征。因此,急需研究一种高效、低复杂度且融合语义信息的实体集合扩展法,以便能够快速、准确地从大语料中获得更多该语义类的实体,从而满足科研领域和应用领域的需求。本文的研究工作如下:
　　在模版的基础上,使用了直角坐标系、四边形面积与语境相似度,对候选集合进行过滤,期望得到高质量的数据。通过实验证明,算法的复杂度较低,算法比较有效。
　　由于传统方法没有加入语义信息,因此,不能完整刻画种子的全部特性。本文使用百度百科的词条标签作为种子的语义特征,并结合相似度过滤候选集合,希望可以得到高质量的候选集合。通过实验证明,算法复杂度偏低,数据的准确率、召回率、F值都较高。
　　最后,本文总结现有的研究工作,并指出日后的研究方向。

著录项

作者
刘鑫;
展开▼
作者单位

西北师范大学;

展开▼
授予单位西北师范大学;
学科计算机技术
授予学位硕士
导师姓名张志昌;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
中文实体集合自动扩展; 语义特征; 直角坐标系; 语境相似度; 模拟实验;

相似文献

中文文献
外文文献
专利

1. 一种融合实体语义知识的实体集合扩展方法 [J] . 齐振宇 ,刘康 ,赵军 . 中文信息学报 . 2013,第002期
2. 基于集合论的中文问答系统查询扩展 [J] . 贾可亮 ,庞秀玲 ,林培光 . 江西师范大学学报（自然科学版） . 2008,第002期
3. 基于变长编码集合扩展的中文文本压缩算法 [J] . 刘来旸 ,樊孝忠 ,李淑芳 . 北京理工大学学报 . 2001,第4期
4. 一种基于集合符号的自动推理扩展方法 [J] . 刘全 ,伏玉琛 ,孙吉贵 . 计算机研究与发展 . 2007,第008期
5. 应用扩展实体数据开发明细表自动生成系统 [J] . 蓝晓民 . 辽宁石油化工大学学报 . 2010,第003期
6. 中文命名实体识别系统的领域扩展 [C] . 徐薇 ,付滨 ,刘柳 . 第九届全国计算语言学学术会议 . 2007
7. 中文命名实体及实体关系的自动抽取研究 [A] . 刘亚军 . 2019

中文实体集合自动扩展技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅