面向文档过滤的语言模型平滑方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

丰富的网络资源中蕴含着海量的数据信息，帮助用户从中快速、准确的找到所需的信息是一项极具价值的任务。但是海量的数据规模以及自然语言表达带来的语义歧义性和多样性，给信息系检索带来了巨大的挑战。为了帮助用户获取有价值的信息，其中一个非常关键的问题就是如何准确地评价文档资源和用户需求之间的相关性。而传统的基于语言模型的评分方法中，只考虑单词的频率信息，缺乏语义性分析，使得单词不匹配但语义相关的文档不能被检索到，降低了检索系统的性能。因此，帮助信息系统从语义角度衡量文档和查询语句的相关性是一个亟待解决的问题。为了衡量查询语句与文档之间的语义相关性，提出基于实体的语言模型平滑方法。实体比单词拥有更良好的定义。知识库中包含了实体较为全面的信息，而文档的语义主题可以用文档中的实体以及它们之间的关系来表示，所以这些实体在知识库中的背景知识信息较为全面的覆盖了文档主题相关信息。因此，以实体为桥梁，以维基百科中的实体信息为内容，提出了符合文档语义主题下单词概率分布的实体语义语言模型。然后提出两层次的平滑方法，结合文档无关的全局语料库信息源和文档主题相关的实体语义语言模型信息源来对原始文档语言模型进行平滑，使得平滑后的语言模型能够很好的衡量查询语句和文档之间的语义相关性，提高了检索系统的性能。在ClueWeb09B公开数据集上进行测试。实验结果表明，相对于传统的基于的语言模型平滑方法，基于实体的语言模型方法平均能够提高10.18%的检索性能，尤其是能够检索到在单词不匹配的情况下的与查询语句相关的文档。

著录项

作者
田泽亮;
展开▼
作者单位

华中科技大学;

展开▼
授予单位华中科技大学;
学科计算机应用技术
授予学位硕士
导师姓名赵峰;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算技术、计算机技术;信息与知识传播;
关键词
文档过滤; 语言模型; 平滑;

相似文献

中文文献
外文文献
专利

1. 面向哈萨克语LVCSR的语言模型构建方法研究 [J] . 达吾勒·阿布都哈依尔 ,努尔买买提·尤鲁瓦斯 ,刘艳 . 计算机工程与应用 . 2016,第024期
2. 面向垃圾短信过滤的亚文档集成学习 [J] . 刘伍颖 ,王琳 . 郑州大学学报（理学版） . 2017,第003期
3. 面向压缩XML文档的数据快速过滤与片断分发方法 [J] . 吴泠 ,杨冬青 ,唐世渭 . 计算机科学 . 2005,第011期
4. 面向机器学习的流式文档逻辑结构标注方法研究 [J] . 刘倩 ,李宁 ,田英爱 . 中文信息学报 . 2019,第009期
5. 面向海量地质文档的表格信息快速抽取方法研究 [J] . 李杨 ,朱月琴 ,李朝奎 . 中国矿业 . 2017,第009期
6. 面向服装企业的文档知识主动共享方法研究 [C] . CHEN Liang ,陈亮 ,HU Kang . 2016年第四届全国现代制造集成技术学术会议 . -1
7. 面向神经语言模型中softmax层改进方法研究 [A] . 张艳春 . 2020

面向文档过滤的语言模型平滑方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅