首页> 中文学位 >基于查询词聚类的信息检索系统排序模型
【6h】

基于查询词聚类的信息检索系统排序模型

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1研究背景与目的

1.2研究现状

1.2.1信息检索

1.2.2数据挖掘

1.3本文结构

第二章信息检索技术理论基础

2.1信息检索系统的评价方法概述

2.2聚类算法

2.2.1聚类算法简介

2.2.2 K-means聚类算法

2.3支持向量机

2.3.1支持向量机简介

2.3.2分类基本原理分析

2.3.3核方法

2.3.4支持向量机小结

第三章算法模型设计

3.1基于伪相关反馈的查询词聚类算法设计

3.1.1伪相关反馈

3.1.2查询词聚类算法设计

3.2信息检索系统排序模型设计

3.2.1结构化支持向量机模型

3.2.2排序模型设计

3.2.3排序模型小结

3.3分而治之的信息检索系统排序模型框架设计

3.3.1分治策略

3.3.2分而治之的排序模型框架设计

第四章实验设计与结果分析

4.1实验数据

4.1.1显相关反馈数据

4.1.2隐相关反馈数据

4.1.3 OHSUMED数据集描述

4.1.4实验数据预处理

4.1.5特征抽取

4.2实验设计

4.2.1单一模型实验

4.2.2随机模型实验

4.2.3长度划分模型实验

4.2.4预聚类模型实验

4.3实验结果与分析

4.3.1评价标准

4.3.2实验结果

4.3.3结果分析

第五章总结与展望

参考文献

发表论文和参加科研情况说明

致 谢

展开▼

摘要

随着万维网信息的急速膨胀,人们需要在以几何速度增长的冗繁信息中寻找自己所需要的信息。搜索引擎逐渐成为人们日常生活中网络搜索的必备工具,而且用户越来越关注网络搜索引擎的搜索性能和反馈结果。为了提高信息检索系统的整体性能,研究者需要完善和研究信息检索系统的评价方法和排序模型,使得信息检索系统反馈给用户文档更为相关。
   排序学习理论(Learning to Rank,LETOR)是结合信息检索技术和机器学习理论的一种新领域。LETOR理论目的是利用机器学习理论通过对训练集的自我学习,建立一个文档集相关度的排序模型。目前存在的几种信息检索系统排序方法都采用单一训练模型,其排序结果在几种传统的评估准则下表现出的性能还有待提高。针对这个问题,本文提出一种基于伪相关反馈扩展的查询词聚类算法,和基于查询词关键字的聚类算法相比,能够更好地解决查询词的简短性和模糊性影响聚类效果的问题。该算法可以获得更加可靠的查询词之间的潜在联系,基于这种潜在联系,本文进而提出一种新颖的基于查询词聚类的信息检索系统排序模型,并对查询词采用分而治之的训练方法,其要点是将查询词分为多个训练模型分别进行排序学习。使用该排序模型在OHSUMED公开数据集上做了四种模型的实验,结果表明,这种分而治之的信息检索排序模型显著地提高了信息检索系统的反馈性能,较基本的排序算法在Precision@K和nDCG@K的评价指标上有了近5%-10%的提高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号