联邦学习:算法详解与系统实现
上QQ阅读APP看书,第一时间看更新

3.1.2 面向隐私保护的机器学习发展

尽管在进行机器学习训练、测试时使用了上述技术来保护隐私数据,但非面向隐私保护的机器学习算法仍然被广泛使用,隐私数据仍然每天被上传到云上或者其他服务器上。目前的法律可能会迫使公司告诉用户他们正在收集数据,甚至可能让用户选择拒绝收集这些数据,但这似乎不是一个最好的策略,最好是可以利用一些面向隐私保护的机器学习技术来实现安全的机器学习。目前,不少安全的机器学习算法已经被提出,接下来我们将介绍几个基于常用安全技术的机器学习算法。

为了提高使用加法同态加密的效率,研究者开发了数据打包技术,以使多个纯文本值被同一密文加密。一些PPML方法使用了这些技术来实现高效和安全的PPML系统,如Erkin等人提出的协同过滤系统。在该系统中,数据所有者提供用隐私服务提供商(PSP)的公钥加密的数据,但将加密的数据发送给服务提供商(SP)。PSP提供隐私和计算服务,SP提供存储和计算服务,目的是为其客户(资料拥有人)提供私人建议。为了保证系统的安全性,SP和PSP不能串通,因为他们提供不同的服务。SP和PSP可以是不同的公司,因此非共谋假设是合理的。在该系统中,数据所有者是输入方和结果方,而SP和PSP是计算方。

如前所述,一些PPML方法结合了加法同态加密和混淆电路。Nikolaenko等人则开发了一个使用了这两种技术的岭回归系统。该系统中可以添加多个数据所有者提交的加密共享,以获得加密的中间值。这些共享使用加密服务提供商(CSP,类似于前面所提到的PSP)的公钥进行加法同态加密。然后,CSP创建一个混淆电路,并将其发送给求值器,求值器也从CSP获得中间“共享”的混淆版本。评估者可以继续使用混淆电路及其混淆输入来创建所需的机器学习模型。有些PPML方法只专注于分类任务(是测试阶段而不是训练和测试阶段)。Bost等人使用同态加密和混淆电路开发了密码构造块,并构建了三种流行的分类模型:超平面决策、朴素贝叶斯和决策树等,目的是在保护机器学习模型和提交的样本的同时,允许测试新样本。

Share Mind是另一个安全的机器学习例子,Cybernetica将并行主成分分析计算方法与秘密共享模式相结合,开发了一个用于执行主成分分析计算的隐私保护系统。Bonawitz等人开发了一种安全计算向量和的协议,以聚合用户提供的模型更新。每个用户对其私有更新向量使用双重屏蔽:用户特定的秘密值及与其他用户共享的秘密值。Ohrimenko等人则在论文中开发了一种数据无关的机器学习算法,用于神经网络、支持向量机、K均值聚类和决策树等模型。

目前,安全的机器学习是一个非常流行的研究方向,待挖掘的东西很多。希望大家一起朝着隐私保护、计算高效、模型性能良好等方向研究,以设计出更好的安全的机器学习算法。