首页> 中国专利> 一种可实现快速寻找并支持分布存储的大数据处理方法

一种可实现快速寻找并支持分布存储的大数据处理方法

摘要

本发明涉及大数据存储技术领域,尤其是一种可实现快速寻找并支持分布存储的大数据处理方法。本发明方法通过分析大数据量进行准确寻找过程中的特点,通过对准确的数据进行MD5及一致性的哈希计算,并通过增加MD5字段与哈希字段来支持大数据准确寻找时的准确定位,从而过滤掉相关性小的数据,在相对小的空间内查找数据,从而提高大数据量准确查找的效率;同时通过对哈希字段的存储定义,可按不同的哈希值进行多文件或多服务器的分布式存储,从而提高大数据量的存储空间利用,做到数据存储均衡负载,减少存储服务器的压力。通过这种方法,在特定的需要进行数据准确获取的场景,能提高大数据量的存储效率,并且能提供一种快速获取准确的方法,极大提高大数据查找的效率。

著录项

  • 公开/公告号CN106599178A

    专利类型发明专利

  • 公开/公告日2017-04-26

    原文格式PDF

  • 申请/专利权人 国云科技股份有限公司;

    申请/专利号CN201611142025.0

  • 申请日2016-12-12

  • 分类号G06F17/30;

  • 代理机构广东莞信律师事务所;

  • 代理人余伦

  • 地址 523808 广东省东莞市松山湖科技产业园区松科苑14号楼

  • 入库时间 2023-06-19 02:00:58

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-08-30

    授权

    授权

  • 2019-08-02

    著录事项变更 IPC(主分类):G06F16/13 变更前: 变更后: 申请日:20161212

    著录事项变更

  • 2017-05-24

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20161212

    实质审查的生效

  • 2017-04-26

    公开

    公开

说明书

技术领域

本发明涉及大数据存储技术领域,尤其是一种可实现快速寻找并支持分布存储的大数据处理方法。

背景技术

随着计算机电子商务的发展,应用程序产生的数据越来越多,而且应用的数据量、并发量也越来越大,例如进行准确的商品寻找、手机位置定位、网络连接的检查等情况,在单位时间内需在大量的数据中快速地获取指定的数据的信息。对于一般大数据存储方法,在大量的数据中进行快速的寻找并定位到具体的数据上,需对大数据进行遍历,就是有相关的索引进行指引,但维护大索引在数据增加、修改、删除时也是一项繁重的工作,会很大影响数据的存储与读取的效率,无法很好地满足大数据量、高并发的请求,造成应用程序在运行上的瓶颈。

发明内容

本发明解决的技术问题在于提供一种可实现快速寻找并支持分布存储的大数据处理方法;用于在大数据量的存储空间上进行快速准确的数据寻找并且支持进行分布存储。

本发明解决上述技术问题的技术方案是:

所述的方法包括以下几个步骤:

步骤1:对进行储存的逐个数据按一定的算法进行特征的提取,获得可以确定特定数据的唯一特征用于后续的数据值的计算,并形成可快速进行数据特征提取的方法,用于数据存储及读取时使用;

步骤2:从逐个数据提取出来的特征,进行MD5值的计算,得出MD5值,再通过哈希算法,算出从1至N的哈希值,N的大小按具体的数据量大小及划分的分布式存储进行取值;

步骤3:设计数据的存储结构,除了有存储数据的空间,还有MD5值的空间及哈希值的空间,哈希值用于直接命中有相同哈希值的数据,MD5值用于在相同的哈希值中确定准确的数据;

步骤4:读取数据时,提取数据的特征,并计算出MD5值及哈希值,通过哈希值过滤掉大部分的数据,并从小范围的数据值中通过MD5确定准确的数据值。

对提取出来的特征值,进行MD5的计算,通过对特征值的MD5计算后,对MD5哈希计算,得出哈希值,从而使大量的数据按计算出的哈希值进行分布式的存储;

在存储与读取时,按照统一的方法计算MD5值及哈希值。

选择可技术进行分区或分布式架构的中间件作为存储空间;在建立存储空间时,按哈希值建立起分区文件或分布式的服务器架构,从而保证大数据存储及读取过程的分开读取、均衡负载;

数据在存储到设计的存储空间上时,把数据、MD5值、哈希值一起进行保存,存储空间按设计的存储逻辑把数据存储到特定的存储文件或存储服务器。

所述的按哈希值建立分区文件或分布式服务器架构,建立的过程采用一致性的哈希算法。

在数据读取时,通过计算出来的哈希值,在已经进行分区或分布式服务器存储的空间上,在确定的文件或服务器上把相同的哈希值读取出来;

读取出来相同哈希值的数据,再按MD5值进行对比,获取出相同的MD5值,从而快速寻找到需要的数据。

本发明的有益效果是:

方法通过分析大数据量进行准确寻找过程中的特点,通过对准确的数据进行MD5及一致性的哈希计算,并通过增加MD5字段与哈希字段来支持大数据准确寻找时的准确定位,从而过滤掉相关性小的数据,在相对小的空间内查找数据,从而提高大数据量准确查找的效率;同时通过对哈希字段的存储定义,可按不同的哈希值进行多文件或多服务器的分布式存储,从而提高大数据量的存储空间利用,做到数据存储均衡负载,减少存储服务器的压力。

附图说明

下面结合附图对本发明进一步说明:

附图1是本发明计算机软件系统功能组件化的流程图。

具体实施方式

如图1所示,本发明的方法实施步骤如下:

步骤1:在数据的存储中间件上,设定数据的存储空间、MD5存储空间、哈希值存储空间,并按哈希值进行存储空间的表分区或分布式服务器存储设计,通过一致性哈希的方法进行存储设计;

步骤2:定义特定的数据特征提取方法,把要增加的数据逐个按方法进行特征的提取;

步骤3:从逐个数据提取出来的特征,进行MD5值的计算,得出MD5值,再通过哈希算法,算出从1至N的哈希值;

步骤4:把数据、MD5值、哈希值保存到存储空间上,存储中间件自动按设计的范围按哈希值进行数据的分文件或分服务器进行保存;

步骤5:读取数据时,先按方法对要读取的数据进行特征提取,并计算出MD5值及哈希值,按哈希值从存储中间件上读取相同哈希值的数据,存储中间件按哈希值定位到数据存储的文件或服务器,从而读取取数量很小的数据,并比较相同的MD5数据,并返回指定的数据信息。

所述设计存储中间件一致性哈希表的具体步骤为:

步骤一、选择可用的存储中间件,采用常用的Mysql或MongoDB等中间件;

步骤二、在存储中间件上设计存储空间,并设计有数据、MD5、哈希值的空间,用于数据的存储;

步骤三、按哈希值的范围,设计数据按哈希值的存储分区,例如按每一百万的数据量作为一个存储空间,这样可设计一个均衡的数据存储空间。

所述抽取数据的特征的具体步骤为:

步骤一、数据本身就是一个明确的特征,则可以直接作为数据特征,例如网址;

步骤二、数据的产生时间可以作为数据特征,则把时间作为数据特征;

步骤三、数据的设备作为数据特征,则把设备的唯一标识作为数据特征,例如手机号等;

步骤四、对于唯一的标识无法作为数据特征的,可按组合特征作为标识,例如设备+时间。

对于基于大数据的特定数据的快速寻找方法的关键点,是从逐个的数据中能提取出明确的特征,一个数据可以提出多个特征,提出出来的特征需为唯一的,由可以从此方法快速地进行定位寻找,快速找到需要的数据。

通过利用特定的数据存储中间件按哈希值建立分区或分布式服务器的逻辑,通过这种方式来进行数据的分类存储,降低对大文件或服务器的负载,从而提高大数据的存储与读取的效率。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号