首页> 中文学位 >中文实体集合自动扩展技术研究
【6h】

中文实体集合自动扩展技术研究

代理获取

目录

封面

声明

目录

中文摘要

英文摘要

1绪论

1.1中文实体集合扩展技术的概述

1.2研究背景及意义

1.3国内外研究现状

1.4研究的难点和问题

1.5论文的组织结构

2实体集合扩展相关技术的研究

2.1实体集合扩展技术概述

2.2实体集合扩展技术的分类

2.3基于最大相似上下文的模版

2.4经典的过滤噪音的方法

2.5孤立点分析

2.6本章小结

3直角坐标系面积法

3.1基于包装器的扩展法

3.2基于图游走的打分排序法

3.3直角坐标系特性

3.4难点概述

3.5直角坐标系面积算法描述

3.6融合语境相似度

3.7实验结果及分析

3.8本章小结

4融合语义信息的实体集合扩展法

4.1维基百科(Wikipedia)概述

4.2维基百科的特点

4.3百度百科及其包含的语义知识

4.4基于模版的扩展法

4.5语义过滤算法的描述

4.6实验数据及分析

4.7本章小结

5总结与展望

5.1总结

5.2展望

参考文献

致谢

展开▼

摘要

中文实体集合自动扩展技术的研究已经从传统的限定类别、限定领域的任务发展到开放类别、开放领域的自动抽取。科研领域和应用领域的需求,给实体集合扩展提出了更多的要求。目前主流的方法都是模版法,由于种子存在一词多义和语义模糊的特性,而模版法仅仅使用上下文信息会导致结果含有大量的噪音。最重要的是,模板仅仅是使用了种子的环境特征,而没有加入语义特征。因此,急需研究一种高效、低复杂度且融合语义信息的实体集合扩展法,以便能够快速、准确地从大语料中获得更多该语义类的实体,从而满足科研领域和应用领域的需求。本文的研究工作如下:
  在模版的基础上,使用了直角坐标系、四边形面积与语境相似度,对候选集合进行过滤,期望得到高质量的数据。通过实验证明,算法的复杂度较低,算法比较有效。
  由于传统方法没有加入语义信息,因此,不能完整刻画种子的全部特性。本文使用百度百科的词条标签作为种子的语义特征,并结合相似度过滤候选集合,希望可以得到高质量的候选集合。通过实验证明,算法复杂度偏低,数据的准确率、召回率、F值都较高。
  最后,本文总结现有的研究工作,并指出日后的研究方向。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号