首页> 中文学位 >面向文档过滤的语言模型平滑方法研究
【6h】

面向文档过滤的语言模型平滑方法研究

代理获取

目录

第一个书签之前

展开▼

摘要

丰富的网络资源中蕴含着海量的数据信息,帮助用户从中快速、准确的找到所需的信息是一项极具价值的任务。但是海量的数据规模以及自然语言表达带来的语义歧义性和多样性,给信息系检索带来了巨大的挑战。为了帮助用户获取有价值的信息,其中一个非常关键的问题就是如何准确地评价文档资源和用户需求之间的相关性。而传统的基于语言模型的评分方法中,只考虑单词的频率信息,缺乏语义性分析,使得单词不匹配但语义相关的文档不能被检索到,降低了检索系统的性能。因此,帮助信息系统从语义角度衡量文档和查询语句的相关性是一个亟待解决的问题。 为了衡量查询语句与文档之间的语义相关性,提出基于实体的语言模型平滑方法。实体比单词拥有更良好的定义。知识库中包含了实体较为全面的信息,而文档的语义主题可以用文档中的实体以及它们之间的关系来表示,所以这些实体在知识库中的背景知识信息较为全面的覆盖了文档主题相关信息。因此,以实体为桥梁,以维基百科中的实体信息为内容,提出了符合文档语义主题下单词概率分布的实体语义语言模型。然后提出两层次的平滑方法,结合文档无关的全局语料库信息源和文档主题相关的实体语义语言模型信息源来对原始文档语言模型进行平滑,使得平滑后的语言模型能够很好的衡量查询语句和文档之间的语义相关性,提高了检索系统的性能。 在ClueWeb09B公开数据集上进行测试。实验结果表明,相对于传统的基于的语言模型平滑方法,基于实体的语言模型方法平均能够提高10.18%的检索性能,尤其是能够检索到在单词不匹配的情况下的与查询语句相关的文档。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号