首页> 中文学位 >搜索引擎缓存替换与容错检索技术研究
【6h】

搜索引擎缓存替换与容错检索技术研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景

1.2 搜索引擎的关键技术概述

1.3 搜索引擎的缓存层级综述

1.4 搜索引擎中拼音纠错技术研究综述

1.5 论文主要工作

1.6 论文组织结构

第二章 搜索引擎缓存层级——缓存替换算法研究

2.1 引言

2.2 相关性研究

2.3 LCV算法模型

2.3.1 LCV算法关联因子

2.3.2 LCV算法步骤

2.4 LCV算法的最优解与近似解

2.4.1 LCV算法的最优解

2.4.2 LCV的优化算法及其数据结构

2.5 LCV驻留价值的计算策略

2.6 实验结果

2.6.1 实验环境

2.6.2 实验结果

2.7 总结语

第三章 搜索引擎检索层——检索系统的容错设计

3.1 引言

3.2 相关性研究

3.3 同音模糊音纠错模块设计

3.3.1 概述

3.3.2 模块设计意义与目标

3.3.3 模块数据结构设计

3.3.4 模块算法设计

3.4 拼音流切分技术

3.4.1 概述

3.4.2 模块设计目标及特点

3.4.3 拼音流检测技术设计

3.5 拼音纠错技术

3.5.1 概述

3.5.2 模块设计目标及特点

3.5.3 纠错模块的设计

3.6 总结语

第四章 结论与未来工作

4.1 结论

4.2 未来工作

致谢

攻硕期间从事的科研工作及取得的研究成果

参考文献

附表A 汉语拼音表(共410种)

展开▼

摘要

随着信息技术的不断发展,互联网信息正在以爆炸式速度增长,搜索引擎作为用户在互联网海量数据中获取需求信息最重要方式之一,已经引起业界的普遍关注与广泛研究。在提高搜索引擎的查全率、查准率以及实时响应等性能上,缓存替换以及容错检索技术起到重要的作用。
   随着人们对搜索引擎实时响应需求的日益提升,各类缓存替换算法正受到更多的研究与关注。本文面向搜索引擎领域给出使缓存驻留价值最大化的替换算法,称为“最小驻留价值(Least Cache Value,LCV)”替换算法。LCV算法充分考虑被请求对象的访问概率与字节数等因素,通过优先替换最小驻留价值的缓存对象,将从低速存储介质上读取的字节数降至最低,进而使系统平均延迟时间达到最低。同时,本文通过将替换问题转化为经典的0-1背包问题,为LCV算法求得最优解。为满足算法实际使用效果,本文进而给出LCV算法在现实应用中的一种快速近似解法与其数据结构。实验结果表明,LCV算法在多种条件下,字节命中率优于前期提出的各类替换算法。
   容错式检索作为自然语言处理的一个重要分支,在提高搜索引擎的查询准确率上起到至关重要的作用。容错式检索是指有效识别用户输入的包含不同类型错误的字符串,将其转化为正确的字符串后,获取并返回其检索结果。纠错方式会因错误类型的不同而各异。本文首先分析搜索引擎中常见的错误类型,其次,针对方言差异等原因而引起的模糊音错误,设计一种基于模糊音纠错的数据结构,并给出其纠错流程。再次,针对输入疏忽等原因引起的吞音、添音、错音等情况,设计纠错系统的数据结构及其算法,采用正反向三叉搜索树存储词库中的所有词条以提高检索速度。最后,本文还设计一种基于字典的拼音流切分算法,算法采用双数组数据结构以匹配汉语中的拼音串,从而切分用户输入检索字符串,算法可以识别检索字符串中的错误字符。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号