
1.2 联邦学习的应用和挑战
1.2.1 联邦学习的应用现状
联邦学习作为一种创新性建模机制,可以在保证数据隐私和安全性(仅从技术层面考虑)的情况下对多方数据进行统一模型训练,在销售、金融等行业有很好的应用前景。
以智能零售为例,其目的是利用机器学习技术为客户提供个性化服务,主要包括产品推荐和销售服务。智能零售业务涉及的数据特征主要包括用户购买力、用户个人偏好和产品特性。在实际应用中,这三种数据特征很可能分散在3个不同的部门或企业中。例如,从用户的银行存款中可以推断出其购买力,从用户的社交网络中可以分析其个人偏好,而购物网站则记录了产品的特性。在这种情况下,我们将面临两个问题:首先,为了保障数据隐私和数据安全,银行、社交网站、购物网站之间的数据壁垒很难打通,因此,不能直接聚合数据来训练模型。其次,三方存储的数据通常是异构的,传统的机器学习模型不能直接处理异构数据。目前,传统的机器学习方法并没有有效地解决这些问题,这阻碍了人工智能在更多领域的推广和应用。
联邦学习是解决这些问题的关键。首先,利用联邦学习的特点,在不导出企业数据的情况下,构建三方机器学习模型,既能从技术角度充分保护数据隐私和保障数据安全,又能为客户提供个性化、有针对性的服务,实现互利共赢。因此,联邦学习为我们构建一个跨企业、跨数据、跨领域的大数据与人工智能生态圈,提供了良好的技术支持。我们可以使用联邦学习框架进行多方数据库查询,而无须公开数据。例如,在金融领域,多方借款是银行业的一个主要风险。当某些用户恶意地从一家银行借钱来支付另一家银行的贷款时,就会发生这种情况。多方借款对金融稳定是一种威胁,因为大量此类非法行为可能导致整个金融体系崩溃。为了在不向银行A和银行B相互公开用户列表的情况下找到这些多方借款用户,我们可以利用联邦学习框架。特别地,我们可以使用联邦学习的加密机制,对各方的用户列表进行加密,然后取加密列表的交集。最终结果给出了多方借款人的列表,而没有将其他“好”用户暴露给另一方。这个操作对应纵向联邦学习框架。智能医疗保健是另一个我们预计将从联邦学习技术兴起中大大受益的领域。疾病症状、基因序列、医疗报告等医疗数据非常敏感和私密,医疗数据难以收集,存储于孤立的医疗中心和医院。数据源的不足和标签的缺乏导致机器学习模型性能不理想,成为当前智能医疗的瓶颈。设想所有医疗机构联合起来,在不泄露数据隐私的前提下协同训练一个机器学习模型,那么该模型的性能将显著提高。除此之外,联邦学习还可以与具体的技术相结合,比如计算机视觉、自然语言处理、边缘计算、云计算、计算机硬件,我们将在第2章进行详细的介绍。