首页> 中文学位 >基于Hadoop框架的专题信息存储及多维分析系统构建研究
【6h】

基于Hadoop框架的专题信息存储及多维分析系统构建研究

代理获取

目录

声明

摘要

1绪论

1.1研究背景与研究意义

1.2研究思路

1.3主要研究内容

1.4论文组织结构

2相关理论及关键技术基础

2.1 Hadoop技术框架

2.1.1 Hadoop生态系统

2.1.2 Hadoop关键技术

2.1.3 Hadoop应用研究

2.2专题信息服务

2.2.1专题信息服务发展

2.2.2大数据与专题信息服务

2.3文本分析相关技术研究

2.3.1专题信息文本挖掘

2.3.2专题信息文本处理

2.3.3 LDA主题模型

2.4信息可视化技术发展

3系统总体框架与存储方案

3.1专题信息资源特征

3.1.1大数据时代信息资源基本特征

3.1.2大数据时代专题信息资源特征

3.2系统需求设计与功能分析

3.2.1系统需求和目标

3.2.2系统功能分析

3.2.3系统模块分析

3.3基于HBase的专题信息资源存储方案设计

3.3.2HBase与关系型数据库的异同

3.3.3专题信息存储方案设计

3.4本章小结

4专题信息多维分析系统方案设计

4.1基于文本统计特征的资源分布分析

4.1.1统计分布分析方案设计

4.1.2期刊信息资源分布分析

4.1.3专利信息资源分布分析

4.1.4网页信息资源分布分析

4.2基于文本内容特征的资源主题分析

4.2.1资源预处理

4.2.2文本特征权重计算

4.2.3特征词选择

4.2.4文本向量化

4.2.5基于LDA的主题分析

4.3分析结果可视化

4.3.1统计分布分析结果展示

4.3.2主题分析结果展示

4.4本章小结

5专题信息多维分析系统开发与实现

5.1开发平台搭建与环境部署

5.1.1开发与运行环境准备

5.1.2 Hadoop的安装部署

5.1.3 HBase及相关组件部署

5.2数据存储实现

5.3统计分布分析实现

5.4主题分析实现

5.4.1文本预处理

5.4.2主题发现

5.4.3主题演化

5.5系统性能测试

5.5.1主题分析功能测试

5.5.2主题分析性能测试

5.6本章小结

6总结与展望

6.1论文主要工作概述

6.2研究创新

6.3研究局限与展望

致谢

参考文献

附录

展开▼

摘要

针对单纯依靠传统信息处理方式无法应对大数据时代专题信息资源数据量大、变化迅速的情况,提出基于Hadoop平台的专题信息资源存储与多维分析系统构建设计本研究课题。本课题深入研究该系统的服务模式、服务对象、技术体系等方面,从系统构建与应用的角度分析构建系统涉及的关键技术,在此基础上设计并实现了基于Hadoop框架的专题信息存储与多维分析系统。该系统可以存储不同来源的专题信息,帮助用户高效的分析专题信息资源,并展示分析结果。该系统可以有效的存储不同来源的专题信息资源,同时可以实现领域主题热点提取、热点演化分析等功能,从而进一步提高专题信息资源存储、处理和知识组织方式,进而帮助信息分析工作者提高信息分析和利用的效率。 本文的主要工作主要体现在以下四个方面: (1)针对专题信息资源分析工作中面临的多种异构数据的存储、加工处理问题,本课题设计了不同来源的专题信息采取不同的获取策略。通过将获取到的数据按照一定的规则设计数据存储结构,并基于HBase数据库特有的列存储结构,对专题信息存储的实际存储过程进行实证研究。 (2)针对专题信息资源中文本流数据存在的分析问题,设计了基于MapReduce方式的文本处理方案。主要通过MapReduce方式的分词处理,进行文本特征化提取、TF-IDF特征词加权、文本向量空间生成,从而为后续的聚类做好准备。在进行文本分词时,通过网络搜集领域专业术语扩充分词词典,提高分词质量。 (3)针对专题信息资源的统计分布分析与主题分析需求,从专题信息资源宏观分析角度出发,利用LDA主题模型,对数据集进行了主题分析,并将分析结果以可视化方式进行展示。该分析可以帮助使用者发现领域研究重点及其转移等知识。 (4)对上述功能需求进行融合,利用Java语言开发了基于Hadoop框架的专题信息存储与多维分析系统。实证结果表明,从实际生产需求出发,基于Hadoop框架设计并实现了专题信息存储与多维分析系统。该系统可以实现专题信息资源存储、资源加工和分析等功能,通过功能测试,验证了本系统的可用性,具有一定的实践意义。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号