首页> 中国专利> 面向联邦学习的数据隐私安全机制评估方法、设备及介质

面向联邦学习的数据隐私安全机制评估方法、设备及介质

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及数据隐私保护领域，具体公开了一种面向联邦学习的数据隐私安全机制评估方法、设备及介质，包括对用于训练本地模型的样本数据集进行采样，得到原始样本；通过重构模型，重构一组与原始样本相关的重构样本；计算原始样本与重构样本的梯度差异，并依据梯度差异迭代重构样本，获得最终重构样本；计算最终重构样本与原始样本的相似度和匹配率，作为所述样本数据集的监测值；比较所述监测值是否大于等于预设值时，如是，则发出梯度泄露风险告警；否则，提示安全。本发明根据重构样本与输入样本的相似度来制定风险评估指标，不依赖于预训练的统计模型。

著录项

公开/公告号CN114662155A

专利类型发明专利
公开/公告日2022-06-24

原文格式PDF
申请/专利权人广州中平智能科技有限公司;
展开▼

申请/专利号CN202210559255.6
发明设计人郑飞州;
展开▼

申请日2022-05-23
分类号G06F21/62;G06K9/62;G06N3/08;G06N20/20;
代理机构广州容大知识产权代理事务所(普通合伙);
代理人刘新年
地址 510000 广东省广州市南沙区丰泽东路106号(自编1号楼)X1301-I013661
入库时间 2023-06-19 15:46:15

法律信息

法律状态公告日

法律状态信息

法律状态
2022-06-24

公开

发明专利申请公布

说明书

技术领域

本发明涉及数据隐私保护领域，尤其涉及一种面向联邦学习的数据隐私安全机制评估方法、设备及介质。

背景技术

联邦学习是一种有效解决数据孤岛问题的框架：参与联邦学习的实体，可以实现数据不离本地，通过交换和聚合模型梯度的方式实现联合构建模型，促成多方数据价值的融合。在传统联邦学习中，模型梯度被认为不会泄露参与方的本地数据，然而事实上，有研究表明，模型梯度存在泄露出输入数据信息的可能性；因此众多围绕联邦学习隐私保护技术相继被提出，如差分隐私、同态加密等。针对联邦学习中模型梯度会泄露哪些参与方的本地数据，这些隐私保护方式是否能够有效保护参与方的数据隐私，急需一种风险评估方法进行评估，为进一步改进面向联邦学习的数据隐私安全机制提供依据。

参见中国发明专利（公开号：CN112765559A），具体公开了一种联邦学习的过程中模型参数的处理方法、装置及相关设备，该发明主要思路为：一、对联邦学习中某一参与方选择待训练的本地数据；二、利用所选的数据对全局模型进行训练得到对应的模型梯度；三、利用预先训练的统计模型计算所选数据与其模型梯度的互信息值；四、当该互信息值大于等于预设阈值时,发出该模型梯度隐私泄露风险提醒，否则将该模型梯度上传至参数服务器。该方案存在两个主要缺陷：一是该方案通过预先训练好的统计模型发送至参与方端，计算待训练数据与其模型梯度的互信息值，据此衡量样本的梯度隐私泄露风险，但该技术要求预先训练的统计模型这一先决条件，且模型效能会影响互信息计算的准确性，针对不同的参与方可能需要训练不同的模型，而训练用的数据如何获取是一个问题；二是互信息值的调节难度较大，即便获得了互信息值，此单一数值也难以让参与方具体地理解到梯度泄露数据风险的程度。

导致上述问题的原因在于两个方面：一是需要预先训练互信息计算统计模型，这降低了技术的构建和应用效率，且在深度学习模型的构建环境中，此类统计模型的构建方法是难以适用的；二是互信息值缺乏一定的可理解性，当联邦学习各参与方的数据存在非独立同分布时，不同数据对应的合适的互信息值的阈值可能有较大差异，而阈值的调节缺少依据。

发明内容

为了克服上述现有技术中存在的问题，本发明提供一种面向联邦学习的数据隐私安全机制评估方法、设备及介质。

本发明提供了一种面向联邦学习的数据隐私安全机制评估方法，包括：

对用于训练本地模型的样本数据集进行采样，得到原始样本；

通过重构模型，重构一组与原始样本相关的重构样本；

计算原始样本与重构样本的梯度差异，并依据梯度差异迭代重构样本，获得最终重构样本；

计算最终重构样本与原始样本的相似度和匹配率，作为所述样本数据集的监测值；

当所述监测值大于等于预设值时，发出梯度泄露风险告警；

当所述监测值小于所述预设值时，提示安全。

作为优选地，所述通过重构模型，重构一组与原始样本相关的重构样本，具体为：

依据原始样本，通过正态分布随机初始化，获得一组与原始样本相同维度的重构样本。

优选地，所述计算原始样本与重构样本的梯度差异，并依据梯度差异迭代重构样本，获得最终重构样本，具体为：

通过公式（1）计算原始样本与重构样本的梯度差异；并通过公式（2），迭代更新重构样本

其中，

优选地，所述计算最终重构样本与原始样本的相似度和匹配率，作为所述样本数据集的监测值，具体为：

将重构样本特征

优选地，所述MSE相似度算法，具体为公式（3）：

所述匹配率Match算法，具体为公式（4）：

优选地，还包括：

输出相似度和匹配率，以及最终重构样本。

本发明提供了一种终端设备，包括处理器和存储装置，所述存储装置用于存储一个或多个程序；当所述一个或多个程序被所述处理器执行时，所述处理器实现上述面向联邦学习的数据隐私安全机制评估方法。

本发明提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述面向联邦学习的数据隐私安全机制评估方法。

本发明的有益效果是：

（1）本发明提出了一种新的梯度泄露数据的评估方法，评估联邦学习参与方梯度泄露数据的风险；通过梯度优化的方法来高效地模拟数据偷窃者，并根据重构样本与输入样本的相似度来制定风险评估指标，不依赖于预训练的统计模型；

（2）本发明不仅能输出具体的风险指标，即相似度指标，还可以输出重构样本，让参与方能够更准确地把握哪些输入样本的信息被泄露，并根据泄露的数据重要程度，设定合理的指标阈值。

附图说明

下文将结合说明书附图对本发明进行进一步的描述说明，其中：

图1为本发明其中一个实施例的方法流程图；

图2为本发明又一个实施例的方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1和图2，作为本发明的其中一个实施，公开了一种面向联邦学习的数据隐私安全机制评估方法，其具体实现步骤如下：

S1、对用于训练本地模型的样本数据集进行采样，得到原始样本；

S2、通过重构模型，重构一组与原始样本相关的重构样本；

S3、计算原始样本与重构样本的梯度差异，并依据梯度差异迭代重构样本，获得最终重构样本；

S4、计算最终重构样本与原始样本的相似度和匹配率，作为所述样本数据集的监测值；

S51、当所述监测值大于等于预设值时，发出梯度泄露风险告警；

S52、当所述监测值小于所述预设值时，提示安全。

优选地，还包括：

S6、输出相似度和匹配率，以及最终重构样本。

本实施例通过模拟数据偷窃者，实现从梯度中重构出输入数据的模拟，使得参与方能够具体地了解到输入数据会被梯度数据泄露多少信息，让参与方能够更加具体地了解梯度泄露数据的风险，由此可以有效地实现对隐私泄露风险的把控和对防御方法有效性的验证，使风险指标具备更清晰的可理解性。

作为本发明的另一实施例，通过模拟数据偷窃者通过模型参数来逆向窃取数据隐私的能力，验证本方案能否提高对数据隐私安全机制的保护能力；本实施例的具体实现思路如下：

首先，将数据偷窃者从梯度逆向出输入数据的方法转换为一个优化问题，其对应优化解的形式如公式（1）所示；并通过梯度下降的方法来迭代更新重构样本

数据偷窃者通过重构样本

本实施例的主要思路是，通过一组重构样本方法来解决上述优化问题，使重构样本计算得的梯度

因为梯度矩阵是高维的，因此具备幅值大小和方向两种性质，如公式（1），本实施例采用L2范数来衡量梯度之间的幅值大小，对应

本实施例通过公式（1）来模拟数据偷窃者通过梯度来逆向出输入数据的能力，并将重构样本特征

参见图2，是本发明的又一实施例的方法流程图，本实施例的具体实施步骤如下：

A1、选取出一组参与方待训练数据的原始样本(x,y)，并计算原始样本对应的原始模型梯度

A2、以正态分布随机初始化一组与原始样本(x,y)相同维度的重构样本

A3、计算重构样本

A4、计算原始模型梯度

A5、依据梯度差异

A6、当满足迭代次数时，获得最终重构样本；

A7、计算最终重构样本与原始样本(x,y)的相似度值和匹配率，输出相似度值、匹配率和最终重构样本；

A8、在初次配置指标阈值时（即预设值），依据最终重构样本，获得参与方待训练数据的指标阈值；

A9、定期计算模型的相似度值和匹配率，一旦模型的相似度值和匹配率超过指标阈值，则发出存在梯度泄露数据隐私风险的警告。

其中，步骤A4对应于公式（1），步骤A5对应于公式（2），MSE相似度值和匹配率计算分别对应公式（3）和（4）。本实施例不仅能输出具体的风险指标，即相似度值，还可以输出重构样本，让参与方能够更准确地把握哪些输入样本的信息被泄露，并根据泄露的数据重要程度，设定合理的指标阈值。

本发明还公开了一种终端设备，包括处理器和存储装置，存储装置用于存储一个或多个程序；当一个或多个程序被处理器执行时，处理器实现上述的面向联邦学习的数据隐私安全机制评估方法。所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所称处理器是测试设备的控制中心，利用各种接口和线路连接整个测试设备的各个部分。

存储装置可用于存储计算机程序和/或模块，处理器通过运行或执行存储在存储装置内的计算机程序和/或模块，以及调用存储在存储装置内的数据，实现终端设备的各种功能。存储装置可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储装置可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡（Smart Media Card,SMC），安全数字（Secure Digital,SD）卡，闪存卡（Flash Card）、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，面向联邦学习的数据隐私安全机制评估设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于至少一个计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。

需说明的是，以上所描述的设备及装置的实施例仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。特别指出，对于本领域技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于边缘智能的设备评估和联邦学习重要性聚合方法、系统、设备和可读存储介质 [P] . 中国专利： CN112181666A . 2021-01-05
2. 面向医疗图像分割的联邦学习方法及系统、设备和介质 [P] . 中国专利： CN114140478A . 2022-03-04
3. 一种基于变分自编码器的训练样本数据扩充方法、存储介质及计算机设备 [P] . 世界知识产权组织专利： WO2020/143321A1 . 2020.07.16
4. 损失函数优化方法、装置、计算机设备及存储介质 [P] . 世界知识产权组织专利： WO2020/143304A1 . 2020.07.16
5. 一种输出功率的调节方法、设备、系统及存储介质 [P] . 世界知识产权组织专利： WO2020/142891A1 . 2020.07.16