首页> 中国专利> 一种多数据源全流程加密大数据分析方法和系统

一种多数据源全流程加密大数据分析方法和系统

摘要

一种多数据源全流程加密大数据分析方法和系统,该方法通过对多个数据源的数据在本地进行统一建模并加密后传输至安全计算服务器,由安全计算服务器对该数据进行处理、特征提取、模型训练和模型验证等数据分析和处理。该系统包括与所述方法对应的多个数据源以及安全计算服务器,用以提供数据以及对数据进行分析和处理。本发明通过对数据在本地进行处理和加密,支持多个数据源的安全共享和联盟式计算,达到对数据源进行保护,解决了现阶段对大数据多中心联合研究的原始数据保护隐私安全保护问题。

著录项

  • 公开/公告号CN112632567A

    专利类型发明专利

  • 公开/公告日2021-04-09

    原文格式PDF

  • 申请/专利权人 杭州锘崴信息科技有限公司;

    申请/专利号CN201910948927.0

  • 发明设计人 王爽;李帜;郑灏;

    申请日2019-10-08

  • 分类号G06F21/60(20130101);G06F21/62(20130101);

  • 代理机构11837 北京中创云知识产权代理事务所(普通合伙);

  • 代理人肖佳

  • 地址 310000 浙江省杭州市滨江区浦沿街道东信大道66号4号楼254室

  • 入库时间 2023-06-19 10:32:14

说明书

技术领域

本发明涉及大数据分析(Big Data Analysis),联盟学习(Federated Learning),以及隐私安全保护(Privacy-Preserving)领域,具体涉及一种全流程加密大数据分析方法及系统。

背景技术

大数据背景下的数据分析技术日新月异,随之而来的衍生问题同样任重道远。例如多中心大数据的安全分享,大数据涉及个人隐私的安全保护,大数据分析各个参与方互相之间敏感信息的泄漏等等。针对这些衍生问题,近年来,全球各个国家和地区均对用户数据,尤其是医疗数据的隐私问题进行了立法,例如我国于2017年6月1日正式实施了《中华人民共和国网络安全法》。再比如欧盟于2018年5月25日颁布并实施了通用数据保护条例(General Data Protection Regulation)。

现有大数据安全共享分析服务尚处于不成熟阶段,缺乏对原始数据的商业秘密保护,很难实现在计算分析过程中对敏感信息泄漏的保护,尚未形成有体系的标准和保护措施。严格的法律,缺失的保护体系和标准,严重影响了互联网大数据潮流下各个学科的快速进步和发展。

中国专利一种大数据商业秘密保护系统及方法,申请号201811038638.9。该发明能够对用户的一些隐私数据进行加密,从而防止相关企业和组织将用户的隐私数据收集起来并加以利用。该发明不涉及多个机构数据的安全共享和联盟式计算,不支持多种大数据分析方法,仅涉及数据加密存储和读取。

中国专利一种云计算大数据商业秘密保护方法,申请号201710666085.0。该发明通过在云存储平台中设置多个认证服务器,将密钥分发、特征认证事务分级进行来实现对数据隐私的保护。该发明不涉及多个机构数据的安全共享协同分析,不支持多种大数据分析方法,仅涉及数据存储和读取。

中国专利一种基于对称加密的实时大数据商业秘密保护方法,申请号201710666085.0。该发明实现了针对实时数据变化增量的商业秘密保护,将数据交由服务器乱序存放。当需要数据时,恢复原先数据的时间序并调整数据变化增量,最终获得原始数据。该发明不涉及多个机构数据的安全共享协同分析,不支持多种大数据分析方法,仅涉及数据存储和读取。

发明内容

本发明的目的是提供一种全流程加密大数据分析方法和系统,基于全流程加密的安全共享、商业秘密保护以及联盟学习的大数据研究分析,以解决现阶段对大数据多中心联合研究的数据隐私安全保护问题。

为实现上述发明目的,本发明的技术方案如下:

本发明的第一方面提供了一种多数据源全流程加密大数据分析方法,包括如下步骤:

对多个数据源的数据进行处理,得到分析所需的各个数据源的参与计算的数据,其中,各个数据源的原始数据始终不离开本地,上传的数据需经过加密;

根据预定的要求,对所述各个数据源的参与计算的数据在可信计算环境下进行对应分析方法的联盟式模型训练,经过多次迭代得到模型训练结果;

根据所述模型训练结果更新全局模型;

对所述全局模型进行验证。

进一步的,其中对多个数据源的数据进行处理,得到分析所需的各个数据源的参与计算的数据的步骤包括:

对多个数据源的数据进行处理,以获得数据格式一致的数据;

对数据格式一致的数据根据分析需求进行加密处理,传输至安全计算服务器;

在已验证的可信计算环境下对传输的数据进行处理,形成总数据的数据库,即全局数据库:即相应的各个数据源的参与计算的数据;

将全局数据库对应各个数据源的数据回传给相应的数据源,即相应的各个数据源的参与计算的数据,以形成数据源本地的特征库;

各个数据源根据本地的特征库形成对应的用于分析所需的参与计算的数据。

进一步的,所述对多个数据源的数据进行处理,以获得数据格式一致的数据的步骤包括:

根据数据分析需求选用相应的数据模型对多个数据源的数据在所述数据源的本地进行统一处理,以生成全局可用的数据结构、模型参数、映射文件以及预处理文件。

进一步的,所述对数据格式一致的数据根据分析需求进行加密处理,传输至安全计算服务器的步骤包括:

对每个所述数据源和安全计算服务器之间进行安全检测,生成对应的安全报告和安全密匙,并根据对应的安全密匙对每个数据源中建模后的数据进行加密处理;

将加密处理后的数据根据需求传输至安全计算服务器。

进一步的,所述在已验证的可信计算环境下对传输的数据进行处理,形成总数据的数据库的步骤中:对数据进行碰撞查重处理,根据需要组织数据,形成所述总数据的数据库。

进一步的,所述碰撞查重处理采用二叉查找树、顺序查找、二分搜索、分块算法、红黑树、平衡查找树、哈希表、字典树、后缀树、布隆过滤器、朴素算法、Rabin-Karp算法、KMP算法、Boyer-Moore算法、Sunday算法、Horspool算法的至少一种,对数据进行可信计算环境下的分块处理。

进一步的,所述总数据的数据库包括数据源之间的并集、交集、差集或其组合。

进一步的,在所述将全局数据库对应各个数据源的数据回传给相应的数据源,以形成数据源本地的特征库的步骤中,回传的数据包括索引数据或根据特定需求确定的特征数据。

进一步的,在对多个数据源的数据进行处理之后,将数据源的数据分割成多个数据集合,以减小每个数据集合的数据量,分别对每个数据集合建立加密的茫然随机存储树;

或;

在对多个数据源的数据进行处理之后,对数据源的数据建立加密的茫然随机存储树。

进一步的,根据预定的要求,对所述各个数据源的参与计算的数据在可信计算环境下进行对应分析方法的联盟式模型训练的步骤中,所述对应分析方法包括逻辑回归,决策树,支持向量机,各种神经网络算法以及统计分析方法。

进一步的,根据预定的要求,对所述各个数据源的参与计算的数据在可信计算环境下进行对应分析方法的联盟式模型训练,经过多次迭代得到模型训练结果的步骤包括:

根据不同数据分析需求对各个数据源参与计算的数据进行联盟式模型建模;然后进行联盟式模型训练,以计算数据特征和中间参数,在数据源侧该计算可在可信计算环境下,并将计算所得的数据特征和中间参数加密上传到安全计算服务器;

安全计算服务器根据数据特征和中间参数生成全局参数,并以加密形式将其返还给各个数据源;

重复以上两个步骤直到满足停止条件,迭代停止后得到的模型即为全局模型。

进一步的,对所述全局模型进行验证的方法包括k折交叉验证或留一交叉验证。

进一步的,还包括日志记录的步骤,用于记录使用到的数据的信息。

进一步的,所述数据的信息包括数据的数据统计值和/或数据内容;所述日志记录的方式包括文件、数据库、队列和/或区块链。

进一步的,根据不同的分析算法需求和数据特征,对数据进行优化,按阶段或者并行进行;包括:移除有缺失值的数据条目、填补缺失值和/或对特征进行分箱。

本发明的第二方面提供了一种多数据源全流程加密大数据分析系统,用于执行如前任一项所述的方法;所述系统包括数据源集群和安全计算服务器;

所述数据源集群包括多个数据源以及联合建模和加密模块;所述多个数据源用于提供数据格式一致的数据;所述联合建模和加密模块用于对多个数据源提供的数据进行加密、联合建模、并进行数据源本地的联盟式模型训练计算,其中,各个数据源的原始数据始终不离开本地,上传的数据需经过加密;

所述安全计算服务器用于对数据进行分析和处理。

进一步的,所述安全计算服务器包括数据源数据处理子模块、模型训练子模块和模型验证子模块;

所述数据源数据处理子模块对多个数据源的数据进行处理,得到分析所需的各个数据源的参与计算的数据;

所述模型训练子模块根据预定的要求,对所述各个数据源的参与计算的数据在可信计算环境下进行对应分析方法的联盟式模型训练,经过多次迭代得到模型训练结果;并根据所述模型训练结果更新全局模型;

所述模型验证子模块对所述全局模型进行验证。

进一步的,所述数据源数据处理子模块包括加密处理单元、碰撞查重单元、数据组织单元和数据回传单元;

所述加密处理单元对数据格式一致的数据根据分析需求进行加密处理;

所述碰撞查重单元在已验证的可信计算环境下对传输的数据进行碰撞查重,去除冗余数据;

所述数据组织单元对碰撞查重后的数据进行重新组织,形成总数据的数据库,即全部各个数据源的参与计算的数据;

所述数据回传单元将全局数据库对应各个数据源的数据回传给相应的数据源,即相应的各个数据源的参与计算的数据,以形成数据源本地的特征库。

进一步的,所述联合建模和加密模块以及安全计算服务器分别包括日志子模块,所述日志子模块用于记录使用到的数据的信息。

进一步的,所述数据的信息包括数据的数据统计值和/或数据内容;所述日志记录的方式包括文件、数据库、队列和/或区块链。

进一步的,还包括优化子模块,根据不同的分析算法需求和数据特征,对数据进行优化,按阶段或者并行进行;包括:移除有缺失值的数据条目、填补缺失值和/或对特征进行分箱。

综上所述,本发明提供了一种多数据源全流程加密大数据分析方法和系统,该方法通过对多个数据源的数据在本地进行统一建模并加密后传输至安全计算服务器,由安全计算服务器对该数据进行处理、特征提取、模型训练和模型验证等数据分析和处理。该系统包括与所述方法对应的多个数据源以及安全计算服务器,用以提供数据以及对数据进行分析和处理。本发明通过对数据在本地进行处理和加密,支持多个数据源的安全共享和联盟式计算,达到对数据源进行保护,解决了现阶段对大数据多中心联合研究的原始数据保护隐私安全保护问题。

与现有技术相比,本发明的有益效果在于:本发明基于联盟学习模式,所有涉及原始数据的存储,建模计算和加密均在数据源本地隔离进行,多个数据源之间不交换数据,而且不被信任的第三方云服务器只能接触到经过建模后并加密的数据,因此从根源上避免了数据的泄露,保证了原始数据的安全性。

附图说明

图1是本发明实施例多数据源全流程加密大数据分析方法的流程示意图;

图2是图1中步骤S100的流程示意图;

图3是步骤S100的具体实施方式的流程示意图;

图4是本发明实施例多数据源全流程加密大数据分析系统结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。

本发明的第一方面提供了一种多数据源全流程加密大数据分析方法,如图1所示,包括如下步骤:

步骤S100,对多个数据源的数据进行处理,得到分析所需的各个数据源的参与计算的数据,其中,各个数据源的原始数据始终不离开本地,上传的数据需经过加密。

进一步的,该步骤S100包括以下步骤,如图2和图3所示:

步骤S110,对多个数据源的数据进行处理,以获得数据格式一致的数据。具体的,根据数据分析需求定义相关数据的表达、本质、结构和/或编码(例如针对某种特定算法所有数据源统一的结构的数据,参数、映射文件和预处理文件)。该步骤的目的在于统一所有数据源的数据结构和参数编码,能起到数据标准化,便于协同计算的效果。

步骤S120,对数据格式一致的数据根据分析需求进行加密处理,传输至安全计算服务器。具体的,对每个数据源和安全计算服务器进行安全检测,生成对应的安全报告和安全密匙,并根据对应的安全密匙对每个数据源中建模后的数据根据分析需求(可能是部分数据,也可能是全部数据)进行加密处理;然后将加密处理后的数据根据需要传输至安全计算服务器(例如根据业务需要可以只传一部分)。所述加密处理后的数据包括索引项数据、重排序数据和/或索引项数据及其他数据,其他数据如身份信息字段等。例如,在上传本地建模参数之前,根据索引项进行数据重排序、同时生成映像文件(mapping file)以保证重排数据和原始数据的对应关系,然后对重排序数据进行加密处理后传输至安全计算服务器。加密处理包括:对数据源和安全计算服务器进行远程安全检测(例如基于英特尔远程飞地认证技术),各个数据源发起对安全计算服务器的远程飞地认证,得到安全报告(验证认证报告)和安全密匙(对称密匙),各个数据源利用对称密匙加密本地建模数据并根据具体分析需求上传加密数据到安全计算服务器,以确保安全计算服务器的可靠性。通过该步骤,能达到计算环境认证,数据加密密匙交换的效果。

步骤S130,在已验证的可信计算环境下(TEE,Trusted Execution Environment)对传输的数据进行处理,例如碰撞查重,根据需要组织数据,形成总数据的数据库,即全局数据库,该全局数据库中的数据都是之后参与计算的数据。例如,在加密环境下解密重排序数据,并进行基于索引项的碰撞查重算法,去除冗余数据,剩下的数据即数据源之间的并集形成总数据,或者将数据源之间的交集、差集或其组合等形成总数据。由于TEE环境内存比较小,为了提高大数据环境下数据碰撞的计算效率,本发明可以采用二叉查找树、顺序查找、二分搜索、分块算法、红黑树、平衡查找树、哈希表、字典树、后缀树、布隆过滤器(BloomFilter)、朴素算法、Rabin-Karp算法、KMP算法、Boyer-Moore算法、Sunday算法、Horspool等算法的至少一种,进行可信计算环境下的分块处理。同时在系统中记录碰撞的数量(即重复数据量,可以采用区块链,数据库或者文件日志方式)。

步骤S140,将全局数据库对应各个数据源的数据回传给相应的数据源,即相应的各个数据源的参与计算的数据,以形成数据源本地的特征库。该回传的数据包括索引数据或根据特定需求确定的特征数据等。进一步的,对回传的数据进行加密处理后传输。例如,对数据源进行远程安全检测,得到安全报告(验证认证报告)和安全密匙(对称密匙),利用安全密匙对回传数据加密并传输。

步骤S150,各个数据源根据本地的特征库形成对应的用于分析所需的参与计算的数据,这个步骤可以在可信计算环境下执行,也可以不用在可信计算环境下执行。

进一步的,在获得数据格式一致的数据之后,将数据源的数据分割成多个数据集合,以减小每个数据集合的数据量,分别对每个数据集合建立加密的茫然随机存储树。将数据集合分割成小数据集合(从TB级别下降到GB级别),分别建立加密的茫然随机存储树。此方法会泄露GB级别数据的访问频率。本发明利用茫然随机存储树(Oblivious RAM Tree)保证攻击者(拥有观察存储区域的权限)很难获取对于数据存取的信息。但是,另一方面,当一个茫然随机存储树过大时,可信计算单元(TEE)的访问效率显著下降。因此,本发明采取上述将总数据的数据集合分割成多个数据集合、分别对每个数据集合建立加密的茫然随机存储树的方法,以提高其效率。

或者,在获得数据格式一致的数据之后,对数据源的数据建立加密的茫然随机存储树。

具体的,在可信计算单元内部以随机次序取数据;然后重新加密,并按顺序进行存储。例如,为整个数据集合建立加密的茫然随机存储树,在可信计算单元(TEE:TrustedExecution Environmet,例如Intel公司的SGX)内部以随机次序取数据(遍历整个数据集合)。然后重新加密,并按顺序存储到硬盘。存取时O(1)复杂度,没有额外存储开销,泄露访问频率,但是难以对应具体的数据泄漏。此举也能提高效率。进一步的,可以采用基于加密的茫然随机存储树的一次性预处理提高数据提取的效率。

步骤S200,根据预定的要求,即具体研究方法,根据联盟式协同计算条件,根据形成的全局数据库所对应各个数据源的数据,在可信计算环境下进行对应分析方法的联盟式模型训练。对应分析方法包括逻辑回归,决策树,支持向量机,各种神经网络算法以及数据统计分析方法等。具体的,各个数据源在联盟计算过程中的本地计算可在或可不在本地的可信计算环境下进行,联盟计算过程中的中间数据以加密方式在数据源本地和安全服务器的可信计算环境之间进行传输,在安全服务器的可信计算环境下处理,再经过多次迭代得到模型训练结果。

进一步的,所述步骤S200包括:

步骤S210,在可信计算环境下各个数据源基于S150提取的用于分析计算的参与计算的数据计算数据特征和中间参数,例如各个数据源的局部平均值、本地逻辑回归训练参数等,并加密上传到安全计算服务器。

步骤S220,安全计算服务器根据数据特征和中间参数生成全局参数,例如全局平均值矩阵、全局逻辑回归训练参数,并(以加密形式)将其返还给各个数据源可信计算环境;

重复以上两个步骤S210-S220,直到满足停止条件,迭代停止后得到的模型即为全局模型。

以主成分分析算法(Priciple Component Analysis)为例,该算法用于对原始基因型数据的人群分层(population stratification),进而获取具有最高主成分的处理后数据(例如特定基因型在各地区和各种族中并非一定都存在,可以提前排除)。安全计算服务器初始化主成分系数(步骤S600);在可信计算环境下各个数据源计算本地协方差矩阵(covariance matrix),并加密上传到安全计算服务器(步骤S610);安全计算服务器根据各个数据源计算的本地协方差矩阵得出全局协方差矩阵和相应中间参数(步骤S620),以加密形式将全局中间参数传输至数据源可信计算环境。

步骤S300,安全计算服务器根据模型训练结果更新全局模型。

步骤S400,对全局模型进行结果验证,验证通过后模型符合上线要求。具体的,结果的验证包括但不限于K折交叉验证(K Fold Cross Validation),留一交叉验证(leave-one-out cross-validation,LOOCV)等等。

进一步的,还包括日志记录的步骤,用于记录使用到的数据的信息。所述数据的信息包括数据统计值(例如数据的数量、大小、次数等)和/或数据内容;所述日志记录的方式包括文件、数据库、队列和/或区块链。

进一步的,根据不同的分析算法需求和数据特征,按照特征说明和或统计分布,对数据进行优化,优化数据可以按阶段或者并行进行;例如,第一阶段:移除有缺失值的数据条目;第二阶段:填补缺失值(例如以特征均值填充)。对特征进行分箱(连续数据离散化,例如年龄分层等)。

依托本发明提供的系统架构和数据处理流程,授权使用者可以开发各种涵盖的基于商业秘密保护的全流程加密大数据分析研究方法,包括但不限于:(1)数据标签匹配(IDMatching):多中心大数据重复索引标签数据的快速匹配;(2)数据查询(Data Query):双盲(double blind)数据查询。暨在数据查询者无法获知数据库内容,同时数据提供者无法获知数据查询者的查询信息条件下的特定数据检索。(3)数据分析(Data Analysis):包括各种大数据分析统计方法(例如,方差分析,柯尔莫可洛夫-斯米洛夫检验,以及全基因组关联性分析等等)。

本发明的第二方面提供了一种多数据源全流程加密大数据分析系统,如图4所示,用于执行如前所述的方法;所述系统包括数据源集群(数据源1-N)和安全计算服务器。具体的,数据源集群包括多个数据源以及数据源大数据联合建模和加密模块;每个数据源是单独的主体。其中,多个数据源用于提供数据格式一致的数据,数据源持有自身的大数据并且同意参与全网(即所有的数据源)共同协作的基于商业秘密保护技术的全流程加密联盟式大数据分析研究。数据源大数据的联合建模和加密模块用于对多个数据源提供的数据进行加密、联合建模并进行数据源本地的联盟式模型训练计算,所有数据源统一联合建模。安全计算服务器用于对所述数据进行分析和处理。

数据源和安全计算服务器之间是可靠的加密通信。安全计算服务器可以部署在数据源一方或者第三方。

进一步的,所述联合建模和加密模块对数据格式一致的数据进行加密,然后联合建模;并负责数据源本地的联盟式模型训练计算。其中,各个数据源的原始数据始终不离开本地,上传的数据需经过加密。在上传本地建模中间计算参数之前,数据源和安全计算服务器进行安全检测(例如基于英特尔SGX的远程飞地认证技术),得到安全报告和安全密匙(数据加密)以确保安全计算服务器的可靠性,以及通信的可靠性。

进一步的,所述安全计算服务器负责在可信计算环境下进行大数据的处理和分析研究工作。在一个优选实施例中,其核心程序使用并部署可信执行环境(TEE),具体方案包括但不限于Intel SGX软件防护扩展,AMD的PSP(Platform Security Processor)处理器,ARM TrustZone技术等等,所有运算均在被信任的计算区域加密进行,极大提升了程序运行的安全性,实现了代码和数据的私密性,完整性和可用性。具体来讲,核心程序只信任自己和可信计算区域,有效的防止了底层OS(操作系统)被挟持后对自己的攻击。同时在管理上可以不用信任安全计算服务器的部署方。

具体的,安全计算服务器包括数据源数据处理子模块、模型训练子模块和模型验证子模块;

所述数据源数据处理子模块对多个数据源的数据进行处理,得到分析所需的各个数据源的参与计算的数据;

所述模型训练子模块根据预定的要求,对所述各个数据源的参与计算的数据在可信计算环境下进行对应分析方法的联盟式模型训练,经过多次迭代得到模型训练结果;并根据所述模型训练结果更新全局模型;

所述模型验证子模块对所述全局模型进行验证。

进一步的,数据源数据处理子模块包括加密处理单元、碰撞查重单元、数据组织单元和数据回传单元;

所述加密处理单元对统一建模后的数据根据分析需求进行加密处理;

所述碰撞查重单元在已验证的可信计算环境下对传输的数据进行碰撞查重,去除冗余数据;

所述数据组织单元对碰撞查重后的数据进行重新组织,形成总数据的数据库;该总数据的数据库包括数据源之间的交集、数据源之间的并集、数据源之间的差集或其组合等;

所述数据回传单元将全局数据库对应各个数据源的数据回传给相应的数据源,以形成数据源本地的特征库。

进一步的,本发明收费模式可以基于完全授权,流量计费以及混合模式等等。本发明各个模块实现了符合隐私协议(仅记录数据流量统计值,非敏感数据,以及加密过的数据等)的日志记录功能,通过记录计算数据的流量进行相应的收费判定以及审计工作。

联合建模和加密模块以及安全计算服务器分别包括日志子模块,用于记录使用到的数据的信息。具体记录内容由业务规则决定,可以只记录使用到的数据统计值,如数据记录的数量,数据的大小、次数等,也可以记录具体使用的数据内容(如果涉及隐私问题,可以记录其加密版本,审计计费方无法得知其具体内容)。可以记录形式根据业务要求确定,可以是文件、数据库、队列和/或区块链等方式。记录的内容可以用于计费和审计。

进一步的,还包括优化子模块,根据不同的分析算法需求和数据特征,对数据进行优化,按阶段或者并行进行;包括:移除有缺失值的数据条目、填补缺失值和/或对特征进行分箱(连续数据离散化,例如年龄分层等)。

通过以下的实施例对本发明进行进一步的说明。

实施例1

全基因组关联分析(GWAS,Genome-wide association study)。

GWAS旨在研究分析和某种特定疾病最相关的单核苷酸多态性(SNP)。单个研究机构也就是基因数据机构的数据往往数量不足,然后多个研究机构的数据共享又涉及基因数据的隐私问题。

利用本发明所提供的系统方法,基于隐私保护的跨机构加密传输联盟式分析研究可以顺利进行。

第一步 首先,各个基因数据机构也就是研究机构根据统一数据模型进行数据预处理(剔除无关基因数据,统一编码等),然后和安全计算服务器进行安全检测,生成加密密匙,安全计算服务器部署相关的基因计算规则。

第二步 各个基因数据机构对自己参与计算的数据进行加密。

第三步 各个基因数据机构根据研究的要求把加密后的数据部分或者全部通过安全方式上传到安全计算服务器。

第四步 安全计算服务器按照计算分析的规则,进行碰撞(如果需要),或者进行其他自然语言处理后的匹配。

第五步 根据计算分析的规则以及第四步的结果组成计算分析的数据全集,例如各个基因数据机构之间的并集或者交集等。

第六步 安全计算服务器把数据全集中对应部分的索引回传给各个基因数据机构。

第七步 各个基因数据机构收到回传的索引数据以此构建完整的用于分析的特征数据库。

第八步 各个基因数据机构和安全计算服务器进行联盟式主成份分析(PCA)算法(多次迭代交互,过程中交换的统计值使用密匙加密),选取出全局主成份数据。再次,各个数据机构和安全计算服务器进行联盟式广义线性回归算法(多次迭代交互,数据使用密匙加密),最终计算出和这种特定疾病的最相关SNPs。

实施例2

金融征信(第三方查询个人信用评分,本地和安全计算服务器均有TEE)。

2.1金融征信授信---模型训练

各个金融征信授信机构或者数据源机构持有不同的个人信用相关数据(年龄,性别,收入,职业等等),各自使用不同的模型进行建模训练,生成独立的个人信用分数。一方面,由于数据种类和数量的限制,各个金融征信授信机构或者数据源机构的信用分数无法全面准确地体现个人信用程度。另一方面,各个金融征信授信机构和数据源机构的信用分数简单的加权求和无法充分有效地利用所有的信用数据,结果不够精确。

利用本发明提供的系统方法,基于双向隐私保护的全局金融征信模型训练可以顺利进行。

第一步 首先,部署征信算法,各个金融征信授信机构或者数据源机构根据统一数据模型进行数据预处理(暨特征工程,如缺失值补全,虚拟编码,特征分箱等等),第三方查询机构和安全计算服务器进行安全检测,生成加密密匙,安全计算服务器部署相关的征信计算规则。

第二步 各个金融征信授信机构或者数据源机构下载加密的全局训练模型到本地可信计算区域,并导入预处理过的数据进行本地加密计算。

第三步 各个金融征信授信机构或者数据源机构把加密后本地计算的中间结果上传通过安全方式上传到安全计算服务器。

第四步 安全计算服务器按照计算分析的规则,更新全局训练模型。

第五步 重复第三,四步,各个金融征信授信机构或者数据源机构和安全计算服务器进行联盟式迭代分析计算,直到模型数据收敛或者达到指定迭代次数。

第六步 安全计算服务器将得到的最终全局训练模型加密保存或者加密发送给第三方查询机构。

2.2金融征信---信用查询

基于实例2.1全局征信训练模型的第三方查询个人信用评分。各个金融征信授信机构或者数据源机构持有不同的个人信用相关数据(年龄,性别,收入,职业等等),第三方机构根据业务需求(例如:个人申请信用卡)需要计算个人信用分数。一方面需要保护第三方的查询信息不被各个征信机构获知,另一方面还要保证不泄露全局训练模型参数。

利用本发明提供的系统方法,基于双向隐私保护的个人信用评分查询可以顺利进行。

第一步 首先,各个金融征信授信机构或者数据源机构根据统一数据模型进行数据预处理(剔除无关数据,统一建模,编码等),然后和安全计算服务器进行安全检测,生成加密密匙,安全计算服务器部署相关的基因计算规则。

第二步 各个金融征信授信机构或者数据源机构对自己参与计算的数据(如特种类别,ID编码)进行加密,第三方查询机构对自己查询的请求信息进行加密。

第三步 各个金融征信授信机构或者数据源机构根据研究的要求把加密后的数据以及第三方查询机构对自己加密的查询请求信息通过安全方式上传到安全计算服务器。

第四步 安全计算服务器按照征信算法,进行ID碰撞,并根据本地上传的特征类别和实例2.1中训练好的全局模型分配不同参数到不同的金融征信授信机构或者数据源机构的可信计算区域内。

第五步 各个金融征信授信机构或者数据源机构根据分配到的参数和ID碰撞结果,在本地可信计算区域内进行本地模型计算,将计算结果加密上传到安全计算服务器。

第六步 安全计算服务器把各个本地计算结果进行求和处理,生成全局个人信用评分。

第七步 最终结果以安全的加密方式,返回给第三方查询机构。

实施例3

保险客户数据安全建模与评估。

各个医院、保险公司和第三方数据源持有客户的不同数据。保险公司想通过多源数据进行更精确的保险理赔模型的构建以及客户风险的评估。然而由于数据隐私问题,数据所有权的问题,以及法律法规限制,各个数据源公司不能也不愿意直接共享数据。

利用本发明提供的系统方法,基于隐私保护的跨主体的保险客户数据安全建模与评估可以顺利进行。首先,各个数据源主体将数据进行预处理(ID编码,乱序,数据加密,生成映射文件等等)。其次,各个数据源主体和安全计算服务器进行安全检测,生成加密密匙。再次,各个数据源主体在本地通过联盟学习进行本地计算,将加密的中间统计值上传到安全计算服务器,安全计算服务器在可信计算区域内进行数据安全计算,生成全局模型,最终将计算结果加密返还给保险公司。

第一步 首先,部署建模与评估算法。各个医院、保险公司和第三方数据源根据统一数据模型进行数据预处理(各个数据源涉及到记录进行预处理,包括ID编码、乱序、数据加密、生成映射文件等等),并和安全计算服务器进行安全检测,生成加密密匙,建立安全的通信方式,安全计算服务器部署相关的保险评估模型计算算法。

第二步 各个医院、保险公司和第三方数据源对自己参与计算的数据进行加密,第三方查询机构对自己查询的请求信息进行加密。

第三步 各个医院、保险公司和第三方数据源根据研究的要求把加密后的数据部分或者全部,通过安全方式上传到安全计算服务器。

第四步 安全计算服务器按照征信算法,进行碰撞计算,或者按照算法要求进行其他方式匹配,例如自然语言处理方式处理。

第五步 根据计算分析的规则以及第四步的结果组成计算分析的数据全集,例如各个医院、保险公司和第三方数据源之间的全集或者交集等。

第六步 安全计算服务器把数据全集的索引回传给各个机构也就是各个医院、保险公司和第三方数据源。

第七步 各个机构也就是各个医院、保险公司和第三方数据源收到回传的索引数据以此构建完整的用于分析的特征数据库。

第八步 各个医院、保险公司和第三方数据源和安全计算服务器进行联盟式主成份分析算法(多次迭代交互,数据使用密匙加密),选取出全局主成份数据。再次,各个数据机构和安全计算服务器进行联盟式广义线性回归算法(多次迭代交互,数据使用密匙加密),最终计算出和最终结果,得到计算模型。

第九步 模型上线,进行测试验证。

本发明基于联盟学习,一个安全计算服务器,多个数据源本地机器。所有涉及原始数据的存储,加密和计算(例如,本地建模)均在数据源本地隔离进行,从根源上避免了数据隐私泄露(数据源之间不交换数据,不被信任的第三方云服务器只能接触到加密过的数据)。

综上所述,本发明提供了一种多数据源全流程加密大数据分析方法和系统,该方法通过对多个数据源的数据在本地进行统一建模并加密后传输至安全计算服务器,由安全计算服务器对该数据进行处理、特征提取、模型训练和模型验证等数据分析和处理。该系统包括与所述方法对应的多个数据源以及安全计算服务器,用以提供数据以及对数据进行分析和处理。本发明通过对数据在本地进行处理和加密,支持多个数据源的安全共享和联盟式计算,达到对数据源进行保护,解决了现阶段对大数据多中心联合研究的原始数据保护隐私安全保护问题。

应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号