首页> 中文学位 >基于维基百科构建语义知识库及其在文本分类领域的应用研究
【6h】

基于维基百科构建语义知识库及其在文本分类领域的应用研究

代理获取

目录

文摘

英文文摘

声明

第一章 绪论

1.1课题研究的目的和意义

1.2国内外研究现状

1.3课题研究的难点及突出问题

1.4本文工作及内容安排

第二章 相关技术研究

2.1维基百科简介

2.2知识的定义及来源简介

2.3知识的表示方法研究

2.3.1谓词逻辑表示方法

2.3.2基于规则的表示方法

2.3.3框架表示方法

2.3.4面向对象表示方法

2.4知识库的构建方法研究

2.4.1 WordNet知识库构建方法

2.4.2 HowNet知识库构建方法

2.4.3 FrameNet知识库构建方法

2.5文本分类方法

2.5.1朴素贝叶斯分类方法

2.5.2 SVM分类方法

2.6文本分类评价方法

第三章 基于维基百科语义知识库构建方法

3.1语义知识的表示方法

3.2语义知识库构建方法流程

3.2.1语义标签选取方法

3.2.2相关概念抽取方法

3.2.3贡献度计算方法

第四章 基于维基百科语义知识库的设计与实现

4.1维基百科语料的选取

4.2维基百科语料的预处理

4.2.1标题筛选

4.2.2繁简转换

4.2.3去除冗余链接

4.3相关信息的抽取

4.4相关概念的确定

4.5贡献度的确定

4.6语义知识库分析

第五章 基于维基百科语义知识库的文本分类

5.1对传统文本分类模型存在问题的解决方法

5.1.1词义消歧

5.1.2同义词识别

5.1.3潜在的语义信息挖掘

5.2基于语义知识库进行文本分类的步骤

5.2.1语义标签抽取

5.2.2文本信息扩充

5.2.3相似度计算

5.3文本分类语料选取

5.4文本分类实验方案及步骤

5.5文本分类对比实验结果及分析

第六章 总结与展望

6.1论文内容总结

6.2进一步的研究工作

参考文献

在校期间参与课题、发表论文情况

致 谢

展开▼

摘要

随着计算机技术的不断发展和互联网的迅速普及,越来越多的人们开始使用互联网进行信息获取。在如今信息发达的时代,如何从海量的文本信息中获取其丰富的语义知识、如何利用这些语义知识为现有的自然语言处理提供可靠的服务,成为了一个非常重要的研究课题。
   研究发现目前语义知识的来源大致可以分为两类:一类是人工构造的语义知识库(如Hownet);另一类是大规模的真实文本,包括互联网上的海量文本、各种离线文本集合(如各种规模的语料库),各种百科知识库(如维基百科等)。研究表明:人工构造的语义知识库已经很难满足日益增长的网络信息处理的需求。因此,本文提出了从一定规模的维基百科语料库中自动构建知识库的方法。本文的主要工作包含以下几个方面:
   ⑴本文在知识的形式化表示方面采用了以语义标签为指代,语义指纹来刻画语义的方法。该表示方法认为每一个概念(词条)都是有一定的背景信息作为支撑,并且提出了以概率公式来量化语义指纹对语义标签的贡献度。该表示方法借鉴了人工知识库显式表征语义知识的策略,并引入了概率信息,从而更精准的描述语义,并且可以很方便的融入到现有的文本计算模型中去。
   ⑵本文利用所提出的语义标签、语义指纹形式化表示知识单元的方法,针对一定规模的维基百科语料库进行了预处理、语义标签选取、相关概念抽取、贡献度值的确定等操作,对维基百科页面之间的丰富链接关系进行挖掘,建立起了一个维基百科语义知识库。
   ⑶为了证明该语义知识库的有效性。结合之前对中文文本分类的研究,本文提出了利用该语义知识库对文本词条进行扩充从而提高文本分类精度的方法。并且利用该方法与传统的文本分类方法进行了对比实验证明知识库的有效性。
   实验结果表明,本文所构造的语义知识库在文本分类领域确实能提高分类精度,证明了语义知识库的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号