首页> 中文学位 >基于Lucene网页排名改进的分布式搜索系统
【6h】

基于Lucene网页排名改进的分布式搜索系统

代理获取

目录

封面

声明

中文摘要

英文摘要

插图索引

表格索引

符号对照表

缩略语对照表

目录

第一章 绪论

1.1 课题背景

1.2 课题研究意义

1.3 国内外研究现状

1.4 本文研究内容及章节安排

第二章 分布式搜索相关介绍

2.1 Heritrix网络爬虫

2.2 Lucene技术

2.3 中文分词技术

2.4 Hadoop平台

2.5 分布式搜素引擎

2.6 本章小结

第三章 系统优化策略与评分机制改进

3.1 系统优化策略

3.2 网页评分机制改进

3.3 本章小结

第四章 分布式搜索系统设计与实现

4.1 系统总体介绍

4.2 单节点子系统设计与实现

4.3 多节点集群系统构建

4.4系统的准确率分析

4.5 本章小结

第五章 总结与展望

5.1 研究结论

5.2 展望

参考文献

致谢

作者简介

展开▼

摘要

近年来,互联网信息量日益庞大,如何从海量数据中高效准确定位到目标信息成为搜索引擎的一大挑战。构建大规模集群实现对目标信息的分布式并行搜索是应对上述问题的重要途径,这为分布式搜索领域的高速发展提供了土壤,许多与此相关的技术很快出现,如Hadoop、Spark等,与此同时,对信息进行准确筛选与过滤显得尤为重要,这便要求完善信息评判机制,以实现对信息的有效甄别。
  在上述前提下,本文深入分析了搜索引擎的相关原理和实现机制,详细介绍了Hadoop相关技术和开源工具Lucene相关技术,并在此基础上展开了构建高性能搜索引擎的研究工作。首先,为实现信息采集过程中URL高效过滤与去重,本文采用嵌入式数据库BerkeleyDB记录已处理链接队列,BerkeleyDB与调用程序共享内存空间保证了访问的快捷性。其次,本文采用追加方式进行索引更新,针对新加入数据不必重建整个索引,而是为新数据单独生成索引文件,并且可以独立访问。当追加索引文件个数达到阈值时引发合并操作,本文通过实验选取了最优阈值大大提高了构建索引的效率。然后,分析了已有的几种网页评分算法的优缺点,基于Lucene固有的网页评分算法做出了改进,提出了基于词频位置加权和文档新鲜度的网页评分算法,本算法不单是关注查询关键词在网页中出现的次数,还将查询词在网页中出现的位置以及网页的新鲜程度作为网页得分的重要影响因子,这种方式能够更加全面地评判网页的优劣程度。
  最后,本文先基于开源Java工具包Lucene构建出单节点搜索子系统,子系统具备完整搜索引擎的各个组件,能够独立提供搜索服务,在此基础上,利用Hadoop技术建立了由三个单节点子系统构成的小型集群服务系统,实现了数据的分布式冗余存储和索引构建的高效并行,并将改进后的网页评分算法应用于分布式系统上,对改进前后搜索结果的正确率做了比较,实际实验证明新算法优于Lucene固有算法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号