海量多结构数据智能检索中的存取方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的快速发展,数据信息也呈现出指数级增长,特别是在智能检索方面,传统的单机模式的处理方式已经不能很好地适应目前海量数据的处理。随着Hadoop分布式文件系统以及MapReduce分布式并行处理的出现,对海量信息特别是现代多结构化数据的处理方式逐渐转变为分布式并行处理方式。在对海量信息的智能检索方面,利用MapReduce技术也能进行高效的处理。
　　在分析了Hadoop和MapReduce分布式并行处理环境对海量数据存储以及检索的可行性基础上,结合智能检索的海量数据语义特征的需求和内容特征的需求,提出了针对多结构化数据智能检索的数据组织策略和存取方法。针对Lucene全文检索技术的特点,设计出对海量数据的特征文本文件建立倒排索引和正排索引。在Hbase分布式数据库能很好地适应多结构化数据特点的基础上,设计出海量多结构化文件的高维特征(包括语义特征和内容特征)库。在海量信息的分布式处理方面,针对海量大文件的处理效率较高,结合分布式文件系统特点和小文件的特点,提出并实现了用大文件方式处理海量小文件的存取方法。基于以上的海量数据的存取方式,设计并实现了对这些海量存储数据的智能语义检索,包括单模态以及多模态的相似性检索和聚类检索,并且在其实现中对其检索机制进行了缓存优化处理。在MapReduce分布式处理方面,提出并实现了一种对其Shuffle阶段进行优化的方法。经过大量的实验表明,所实现的智能检索原型系统在存取和检索方面,具有较强的实用性。

著录项

作者
王子健;
展开▼
作者单位

华中科技大学;

展开▼
授予单位华中科技大学;
学科计算机技术
授予学位硕士
导师姓名潘鹏;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类程序语言、算法语言;
关键词
多结构化数据; 海量信息; 智能检索; MapReduce技术; 语义特征; 分布式并行处理;

相似文献

中文文献
外文文献
专利

1. 多格式海量数据统一存取的索引结构 [J] . 冯亚丽 ,丁良奎 ,刘永江 . 计算机应用研究 . 2013,第006期
2. 在C#中存取Oracle数据库表中BLOB数据的方法研究 [J] . 黄胜忠 . 电脑知识与技术 . 2009,第032期
3. 在Oracle数据表中存取BLOB数据的方法研究 [J] . 郝世艳 . 信息系统工程 . 2014,第009期
4. 海量样本数据集中小文件的存取优化研究 [J] . 马振 ,哈力旦·阿布都热依木 ,李希彤 . 计算机工程与应用 . 2018,第022期
5. 基于Mongodb以及GIS的海量探地雷达数据存取研究 [J] . 郑睿博 ,潘雅静 . 城市勘测 . 2018,第0z1期
6. 基于Mongodb以及GIS的海量探地雷达数据存取研究 [C] . Zheng Ruibo ,郑睿博 ,Pan Yajing . 中国城市规划协会地下管线专业委员会2018年年会 . 2018
7. 基于NoSQL海量数据存取策略研究 [A] . 刘涛 . 2014

海量多结构数据智能检索中的存取方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅