首页> 中文学位 >海量多结构数据智能检索中的存取方法研究
【6h】

海量多结构数据智能检索中的存取方法研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1 绪论

1.1 研究背景及意义

1.2 国内外相关工作

1.3 论文的主要工作

1.4 论文的组织结构

2 语义检索系统总体设计

2.1 基于语义和内容特征的存取和检索

2.2 系统架构

2.3 功能划分

2.4 本章小结

3 文件及特征存取组织策略

3.1 数据组织分析

3.2 数据组织策略

3.3 文件及特征处理的实现

3.4 本章小结

4 智能检索的实现和优化

4.1 检索方式

4.2 shuffle优化

4.3 分布式检索和优化的实现

4.4 本章小结

5 实验与分析

5.1 实验环境

5.2 实验目标

5.3 实验过程与结果分析

5.4 本章小结

6 总结与展望

6.1 本文总结

6.2 工作展望

致谢

参考文献

附录 攻读学位期间参与的科研项目

展开▼

摘要

随着互联网的快速发展,数据信息也呈现出指数级增长,特别是在智能检索方面,传统的单机模式的处理方式已经不能很好地适应目前海量数据的处理。随着Hadoop分布式文件系统以及MapReduce分布式并行处理的出现,对海量信息特别是现代多结构化数据的处理方式逐渐转变为分布式并行处理方式。在对海量信息的智能检索方面,利用MapReduce技术也能进行高效的处理。
  在分析了Hadoop和MapReduce分布式并行处理环境对海量数据存储以及检索的可行性基础上,结合智能检索的海量数据语义特征的需求和内容特征的需求,提出了针对多结构化数据智能检索的数据组织策略和存取方法。针对Lucene全文检索技术的特点,设计出对海量数据的特征文本文件建立倒排索引和正排索引。在Hbase分布式数据库能很好地适应多结构化数据特点的基础上,设计出海量多结构化文件的高维特征(包括语义特征和内容特征)库。在海量信息的分布式处理方面,针对海量大文件的处理效率较高,结合分布式文件系统特点和小文件的特点,提出并实现了用大文件方式处理海量小文件的存取方法。基于以上的海量数据的存取方式,设计并实现了对这些海量存储数据的智能语义检索,包括单模态以及多模态的相似性检索和聚类检索,并且在其实现中对其检索机制进行了缓存优化处理。在MapReduce分布式处理方面,提出并实现了一种对其Shuffle阶段进行优化的方法。经过大量的实验表明,所实现的智能检索原型系统在存取和检索方面,具有较强的实用性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号