基于维基百科构建语义知识库及其在文本分类领域的应用研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着计算机技术的不断发展和互联网的迅速普及，越来越多的人们开始使用互联网进行信息获取。在如今信息发达的时代，如何从海量的文本信息中获取其丰富的语义知识、如何利用这些语义知识为现有的自然语言处理提供可靠的服务，成为了一个非常重要的研究课题。
　　研究发现目前语义知识的来源大致可以分为两类：一类是人工构造的语义知识库(如Hownet)；另一类是大规模的真实文本，包括互联网上的海量文本、各种离线文本集合(如各种规模的语料库)，各种百科知识库(如维基百科等)。研究表明：人工构造的语义知识库已经很难满足日益增长的网络信息处理的需求。因此，本文提出了从一定规模的维基百科语料库中自动构建知识库的方法。本文的主要工作包含以下几个方面：
　　 ⑴本文在知识的形式化表示方面采用了以语义标签为指代，语义指纹来刻画语义的方法。该表示方法认为每一个概念(词条)都是有一定的背景信息作为支撑，并且提出了以概率公式来量化语义指纹对语义标签的贡献度。该表示方法借鉴了人工知识库显式表征语义知识的策略，并引入了概率信息，从而更精准的描述语义，并且可以很方便的融入到现有的文本计算模型中去。
　　 ⑵本文利用所提出的语义标签、语义指纹形式化表示知识单元的方法，针对一定规模的维基百科语料库进行了预处理、语义标签选取、相关概念抽取、贡献度值的确定等操作，对维基百科页面之间的丰富链接关系进行挖掘，建立起了一个维基百科语义知识库。
　　 ⑶为了证明该语义知识库的有效性。结合之前对中文文本分类的研究，本文提出了利用该语义知识库对文本词条进行扩充从而提高文本分类精度的方法。并且利用该方法与传统的文本分类方法进行了对比实验证明知识库的有效性。
　　实验结果表明，本文所构造的语义知识库在文本分类领域确实能提高分类精度，证明了语义知识库的有效性。

著录项

作者
苏小康;
展开▼
作者单位

华中师范大学;

展开▼
授予单位华中师范大学;
学科计算机应用技术
授予学位硕士
导师姓名何婷婷;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
计算机网络; 网络服务; 数据挖掘; 文本分类;

相似文献

中文文献
外文文献
专利

1. 基于维基百科的领域概念语义知识库的自动构建方法 [J] . 张巧燕 ,林民 ,张树钧 . 计算机应用研究 . 2018,第001期
2. 基于维基百科的语义知识库及其构建方法研究 [J] . 张海粟 ,马大明 ,邓智龙 . 计算机应用研究 . 2011,第008期
3. 基于维基百科网络技术的概念语义网络构建 [J] . 杨建萍 ,年梅 . 计算机与现代化 . 2016,第001期
4. 基于双维度中文语义分析的食品领域知识库问答 [J] . 左敏 ,徐泽龙 ,张青川 . 郑州大学学报（工学版） . 2020,第003期
5. 基于领域语义知识库的疾病辅助诊断方法 [J] . 陈德彦 ,赵宏 ,张霞 . 软件学报 . 2020,第010期
6. 构建语义Web服务的多领域知识库方法探析 [C] . 刘磊 ,王兰成 . 第二十四届全国计算机信息管理学术研讨会 . 2010
7. 基于分众分类法和维基百科的移动应用语义知识库构建 [A] . 金凡 . 2012

基于维基百科构建语义知识库及其在文本分类领域的应用研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅