首页> 中文学位 >基于Storm的数据迁移工具的设计与实现
【6h】

基于Storm的数据迁移工具的设计与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1 绪论

1.1课题背景

1.2国内外概况

1.3课题主要研究工作

2 基于Storm的数据迁移工具的功能需求与总体设计

2.1分布式流式数据处理框架的选择与Storm介绍

2.2基于Storm的数据迁移工具的总体设计

2.3本章小结

3 任务的划分与分发研究

3.1任务分发节点工作流程

3.2任务划分方法研究

3.3任务分发方法研究

3.4本章小结

4 Storm框架中的数据流实现

4.1数据流处理节点的实现

4.2全量数据迁移的实现

4.3增量数据迁移的实现

4.4本章小结

5 实验与测试结果分析

5.1实验环境及准备

5.2功能测试

5.3性能测试

5.4本章小结

6 总结与展望

6.1全文总结

6.2展望

致谢

参考文献

展开▼

摘要

数据作为政府机构和企业单位的核心资产,在几十年的信息技术变革中,逐渐显现其金子般的色彩。随着数据量的增长,人们所面临的数据迁移难度越来越大。在进行应用迁移和数据分析时,数据迁移的效率逐渐引起了相关人员的重视。
  从海量数据迁移需求的角度,参考已有的数据迁移工具,以Apache Storm为底层分布式数据流处理引擎,构建了一个面向海量数据迁移需求的高效异构数据迁移工具。该数据迁移工具在结构上主要分为任务划分与分发和分布式数据流两部分。这两部分相互配合,共同完成了数据迁移任务。
  其中分布式数据流实现了数据抽取、数据转换和数据装载。通过实现Storm中的Spout组件接口以及对异构数据源的适配完成了对数据源的数据抽取,通过实现Storm中Bolt组件接口完成了数据转换和装载,并且可以通过动态编译代码脚本的方式实现了灵活的自定义转换。
  任务划分与分发主要是对待迁移任务的划分和分发。每一个待迁移的数据库表对应一个任务,任务的划分就是选择数据库表的一个划分字段,根据划分字段将表划分成多个部分,每一个部分对应一个子任务。任务分发则是以Zookeeper作为中介,首先将划分得到的子任务发布到Zookeeper集群中,然后由数据抽取节点从Zookeeper中获取任务执行。
  此外,为了达到较高的可用性和可靠性,在任务划分与分发节点和数据抽取节点之间利用Zookeeper实现了节点注册和状态检测等功能。
  最后通过实验表明,该数据迁移工具满足了设计目标,实现了高效的数据迁移功能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号