联邦学习:算法详解与系统实现
上QQ阅读APP看书,第一时间看更新

1.1 什么是联邦学习

2016年是人工智能(Artificial Intelligence,AI)成熟的一年。随着AlphaGo击败人类顶级围棋手,我们真正见证了人工智能的巨大潜力,并开始期待更复杂、更尖端的人工智能技术可以应用在更多的领域,包括无人驾驶、生物医疗、金融等。如今,人工智能技术在各行各业都显示出了优势。最新的AlphaFold 2技术甚至可以预测35万种蛋白质结构,这些结构涵盖了98.5%的人类蛋白质组。然而,这些技术的成功大都以大量的数据为基础。比如计算机视觉领域中图像分类、目标检测等技术的发展离不开众多大规模的图片数据集,如ImageNet、COCO和PASCAL VOC。在自动驾驶领域,众多国内外厂商积累了数十万公里的道路测试数据。AlphaGo在2016年总共使用了30万场游戏的数据作为训练集。

随着AlphaGo的成功,人们自然希望像AlphaGo这样的由大数据驱动的人工智能技术能够很快在生活中应用起来。然而,现实有些令人失望:除了少数行业,大多数领域只拥有有限的数据或质量较差的数据,这使AI技术的落地比我们想象的更困难。是否可以通过跨组织传输数据,将数据融合在一个公共站点中呢?事实上,在许多情况下,打破数据源(数据拥有者)之间的障碍是非常困难的,甚至是不可能的。一般来说,任何AI项目所需的数据都包含多种类型。例如,在人工智能技术驱动的产品推荐服务中,产品销售者拥有产品信息、用户购买数据,但没有描述用户购买能力和支付习惯的数据。在大多数行业中,数据以孤岛的形式存在。由于行业竞争、隐私安全、复杂的管理程序等,即使是同一公司不同部门之间的数据集成也面临着巨大的阻力,要整合分散在全国各地的数据和机构几乎是不可能的,或者在成本上是不可行的。

与此同时,随着越来越多的公司意识到损害数据安全和用户隐私的严重性,数据隐私和安全已成为全球性的重大问题。公共数据泄露的相关新闻引起了公共媒体和政府的极大关注,如2018年国外某社交网站的数据泄露事件引发了广泛关注。作为回应,世界各国都在完善保护数据安全和隐私的法律。例如,欧盟于2018年5月25日实施的《通用数据保护条例》(General Data Protection Regulation,GDPR)。GDPR(见图1-1)旨在保护用户的个人隐私和数据安全,要求企业在用户协议中使用清晰明了的语言,并授予用户“被遗忘权”,即用户的个人数据可以被删除或撤销,违反该条例的公司将面临高额罚款。我国也在实施类似的隐私和安全措施。例如,我国于2017年颁布的《网络安全法》和《民法通则》规定,互联网企业不得泄露或篡改其收集的个人信息,在与第三方进行数据交易时,需要确保拟议的合同遵守数据保护法律义务。这些法规的建立显然有助于建立一个更文明的社会,但也对人工智能中常用的数据交易程序提出了新的挑战。

图1-1 GDPR

具体来说,人工智能中的传统数据处理模型往往涉及简单的数据交易模型,一方收集用户数据并将数据传输给另一方,另一方负责清理和融合数据。最后,第三方将利用集成的数据来建立模型以供其他方使用。模型通常作为服务出售的最终产品。这一传统的流程面临上述新的数据法规的挑战。此外,由于用户可能不清楚这些模型的未来用途,这些交易可能会违反GDPR等法律法规的规定。结果,数据使用方会面临这样一个困境——数据以孤岛的形式存在,但在很多情况下,数据使用方被禁止收集、融合或者将数据传输给其他组织或个人进行AI处理。因此,如何合法合规地解决数据碎片化和孤岛问题,是人工智能研究人员和从业者将要面临的一个重要挑战。