首页> 中文学位 >搜索引擎中倒排列表距离约束求交算法研究
【6h】

搜索引擎中倒排列表距离约束求交算法研究

代理获取

目录

声明

摘要

第一章 绪论

第一节 引言

第二节 搜索引擎简介

1.2.1 搜索引擎发展史

1.2.2 搜索引擎体系结构

第三节 研究内容和创新点

第四节 论文组织结构

第二章 搜索引擎求交及相关算法

第一节 倒排索引简介

2.1.1 倒排索引相关概念

2.1.2 倒排索引数据组织

2.1.3 倒排索引结构扩展

第二节 倒排索引求交算法

2.2.1 倒排索引处理机制

2.2.2 倒排索引求交策略

第三节 搜索结果算分及排序算法

2.3.1 检索模型分类

2.3.2 BM25算分方法

2.3.3 Top-k和提前停止算法

第四节 引入距离因素的相关算法研究现状

第三章 距离约束检索算法设计

第一节 混合索引结构设计

3.1.1 64位索引结构设计

3.1.2 32位索引结构设计

3.1.3 查询集数据整理

第二节 混合索引提前筛选算法

3.2.1 混合索引数据分析

3.2.2 混合索引求交算法

3.2.3 混合结构算分方法

第三节 SIMD并行检索算法

3.3.1 SIMD技术简介

3.3.2 SIMD并行求交算法

第四章 距离约束检索算法实验

第一节 实验平台及数据集

第二节 混合索引检索算法实验

4.2.1 算法性能对比

4.2.2 结果数量及质量对比

第五章 总结

第一节 研究成果总结

第二节 未来工作展望

参考文献

致谢

个人简历 在学期间发表的学术论文与研究成果

展开▼

摘要

随着互联网技术的飞速发展,网络信息呈爆炸式增长,导致信息过载问题越来越严重,大量无关的冗余信息增加了用户获取准确信息的难度。而搜索引擎作为一种有效解决信息过载的手段,能够帮助用户高效收集和过滤可用信息,因此始终在互联网中占据重要地位。目前主流搜索引擎发展到以用户需求为中心、贴近用户意图的精确搜索阶段,开发者们不断研究新技术来试图获取需求信息。另一方面用户查询需求越来越多样化,除了传统文本搜索之外,图片搜索、语音搜索也有很大的需求空间。这些都对倒排索引结构带来了很大的挑战。作为查询请求处理更细化、更准确化的一个例子,本文主要研究距离约束条件在索引求交中的作用,即请求处理时不仅考虑多个查询词在文档中共同出现,同时考虑根据查询词间的距离赋予结果文档不同的分数,满足用户不同需求。
  本文一方面通过设计新的倒排索引结构,研究在新数据结构下,既能高效地计算满足距离限制的结果文档,又能计算忽略距离限制的结果文档的方法,方便获得更多结果,赋予不同优先级,满足用户不同需求,进而减轻紧密度筛选等后续计算的压力,增大有效数据的吞吐量,提高查询结果的质量;另一方面希望通过使用并行技术等手段,对带紧密度分数计算的检索过程进行优化,提高查询处理的速度。此外,参考传统倒排索引结构下的请求处理对算法进行优化,例如在考虑距离限制的前提下,结合倒排列表长度,调整倒排列表的计算次序和计算条件,降低布尔运算复杂度等等。实验表明,本文提出的新数据结构和相关算法在带距离限制的求交算法上具备一定优势,提高了整体检索速度,同时,优化了返回结果,使更小更优的结果集参与后续计算。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号