首页> 中文学位 >Efficient Performance of Heterogeneous Data Processing Using HBASE in Big Data
【6h】

Efficient Performance of Heterogeneous Data Processing Using HBASE in Big Data

代理获取

目录

声明

Chapter 1Introduction

1.1 Background

1.2 Big Data

1.3 Aim and Objectives

1.4 Motivation

1.5 Organization

1.6Problem Description

Chapter 2Related Works

2.1Related work/Literature review

2.2Big Data Characteristics

2.3Background of Data Heterogeneity

2.4Big Data Processing

2.5Big Data Analysis and Mining

2.6 HBase

2.7 HBase VS HDFS

Chapter 3System Design

3.1Proposed System

3.2 Illustrations

3.3Data Model

3.4 Components of HBASE

3.5 Write Mechanism

3.6 Read Mechanism

3.7 Memstore

3.8 Knowledge Based Extraction

Chapter 4Algorithms and Experiments

4.1The Proposed System

4.2 Implementation

4.3Algorithm One

4.4 Algorithm Two

4.5 Algorithm Three

4.6Result Discussion

Conclusion

参考文献

致谢

展开▼

摘要

云计算是一种能够让我们直接感受到成本缩减的方法,它能够将一个资本密集型的数据中心转变成一个成本配置灵活的运行环境。这个环境要求网络可以连接到一个可配置计算机资源的共享池,该计算机资源应当包括网络、服务器、存储器和应用程序等,其中服务器可以快速配置和发布以最小的服务单元以供提供者交互。云计算的出现使需求的应用程序具有了动态的灵活性。随着云计算的快速发展,信息的快速增长,廉价的云存储和计算能力加速了大数据的开发,使大数据信息收集和信息检索成为必要。今天,我们正处在大数据时代的台阶上。随着信息和通讯技术的飞速发展,我们的社会呈现出一种完全不同的风格。越来越多的人正在享受从历史和实时数据集中提取的价值。典型的例子是天气预报,股票投资,智能医疗诊断,社会互动等等。
  然而,在过去的十年里,数据量急剧增加,我们称之为“大数据”。随着协同框架的大量增长,尤其是网络服务、物联网、移动应用程序和企业流程的数字化导致大量异构数据的产生。分布式文件系统和各种系统应用程序是解决大数据和数据异构问题的主要方法。近几年,存储和处理异构大数据和大数据的分析变得非常具有挑战性。该研究的目的是开发一个框架,用于处理不同的大数据,这些数据可以是结构化的、半结构化的和非结构化的(异构数据集)。这项工作将为管理数据异质性提供一种高效的算法。这项工作将利用这些算法在数据处理中执行不同的数据集结构条件。如果我们想要一个有效地储存目前大数据的混合格式,我们的研究需要解决以下的挑战:
  1.非结构化数据转化为结构化数据
  2.半结构化数据转化为结构化数据格式
  3.集中式结构化数据转化为分布式结构化数据
  结构化数据具有易于输入、存储、查询和分析的优点。同时,由于高成本和存储、处理性能的限制,关系型数据库和使用结构化数据的电子表成为有效管理数据的唯一方法。本文方案将尝试解决大数据行业的挑战问题之一,即完成非结构化数据向结构化数据的转换。因为,如果不能很好的对这些数据进行管理,那么信息过载问题会导致。
  我们不能及时找到所需信息,尤其是在医疗数据方面。本文将会在实时的原型实验上,完成性能的评估,并在特定的医疗数据场景下完成性能的评估,包括读写的内存消耗和请求。非结构化数据由文本、视频、图像和音频组成,这些数据不能填充到关系数据库中的行和列。这些数据以文档、电源点、即时消息、电子邮件、社交媒体帖子等形式出现。在医疗保健行业,医疗记录主要由非结构化数据组成,这些数据以医生的病历和诊断扫描的形式出现。但在我们的工作中,我们只会依赖医疗行业的医疗数据。我们提出的系统的计算结果表明,在处理大规模数据的过程中,处理时间减少,很清楚的展示了该方法的有效性。这将提高数据存储的总体性能,尤其是那些不能直接由标准的关系型数据库管理系统或其他大数据分布式文件管理系统处理的混合格式数据集。虽然结构化数据可能对跟踪趋势很重要,但非结构化数据解释了这些趋势发生的原因。例如,社交媒体对话中的评论揭示了客户决策背后的情感,以及他们对你的产品和服务的想法。为了利用这些见解,我们需要能够组织非结构化数据的存储,以便能够快速访问它。最后,为了衡量我们提出方法的效率,我们设计了一个基于Hadoop实现不同的操作和流程的分布式文件系统并分析了它的不同表现。以受限于数据的结构化形式的 H-Base为例,用分布式文件管理系统为基础来处理数据的异构性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号