联邦学习:算法详解与系统实现
上QQ阅读APP看书,第一时间看更新

2.2 联邦学习与生物医学

人工智能的研究,尤其是机器学习和深度学习的进步,促进了放射学、病理学、基因组学和其他领域的颠覆性创新。现在的深度学习模型有数百万个参数,需要从足够大的数据集中学习,以达到临床级的准确性,同时还要保证安全、公正、公平,并能很好地推广到其他数据。例如,训练一个基于人工智能的肿瘤检测器需要一个包含所有可能的涉及解剖学、病理学等输入数据类型的大型数据库。这样的数据很难获得,因为健康数据高度敏感,而且对它的使用受到严格监管。即使数据匿名化可以绕过这些限制,人们也很清楚,删除病人姓名或出生日期等元数据往往不足以保护隐私。例如,可以利用计算机断层扫描(CT)或磁共振成像(MRI)数据重建患者的面部。在医疗保健领域,数据共享不被支持的另一个原因是,收集、管理和维护高质量的数据集需要花费大量的时间、精力和费用。因此,这样的数据集可能具有重要的业务价值,使它们不太可能被自由共享。相反,数据收集者通常对他们收集的数据保持细致的控制。

2020年由于疫情的影响,医疗保健行业资源的缺乏非常明显。正如前文所述,如果一些医学数据集来自少数几个来源,这可能会在人口统计数据上(如性别、年龄)或者技术不均衡上(如采集协议、设备制造商)引入偏差,从而在预测方面产生偏见,并对模型在某些群体或场所上的准确性产生不利影响。然而,为了捕捉疾病模式、社会经济和遗传因素以及复杂和罕见病例之间的微妙关系,至关重要的是让一个模型接触和学习到各种各样的病例。用于人工智能训练的大型数据库的需求催生了许多寻求汇集多个机构数据的计划。这些数据通常被收集到所谓的数据湖中。它们的目标是利用数据的商业价值,如IBM的合并医疗保健收购,或作为经济增长和科学进步的资源,如NHS苏格兰的国家安全港、法国健康数据中心和英国健康数据研究。尽管规模较小,但实质性的一些计划项目包括人类连接体(Human Connectome)、英国生物数据库(UK Biobank)、癌症成像存档(The Cancer Imaging Archive,TCIA)、美国国立卫生研究院(National Institutes of Health,NIH)的CXR8和DeepLesion、癌症基因组图谱(the Cancer Genome Atlas,TCGA)、阿尔茨海默病神经影像学倡议(the Alzheimer's Disease Neuroimaging Initiative,ADNI)以及医疗重大竞赛挑战,比如CAMELYON竞赛、国际多模态脑肿瘤分割(the International Multimodal Brain Tumor Segmentation,BraTS)竞赛或医学分割十项全能。公共医疗数据通常是特定于任务或疾病的,发布时往往受到不同程度的许可限制,有时限制了其利用。然而,集中或释放数据不仅会带来与隐私和数据保护相关的监管、道德和法律挑战,还会带来技术挑战。匿名、控制访问和安全传输医疗数据是一项艰巨的任务,有时甚至是不可能完成的任务。电子病历中的匿名数据看起来无害且符合GDPR/PHI,但还是会有少数数据中的组成元素可以重新识别出具体的患者。这同样适用于基因组数据和医学图像,使它们像指纹一样独特。因此,除非匿名处理破坏了数据的保真度,使数据失效,否则不能排除患者重新识别或信息泄露的可能性。通常建议为已经通过认证的用户提供门禁访问,以解决该问题。然而,除了限制数据的可获取性外,这只适用于数据拥有人无条件同意的情况,因为从那些有可能访问过数据的人那里收回数据实际上是不可执行的。

联邦学习通过支持基于分布式数据的机器学习算法,从技术层面解决了隐私和数据治理方面的问题。在联邦学习设置中,每个数据控制器不仅能定义自己的数据处理流程和相关的隐私策略,还能控制数据访问,这包括在训练和验证阶段。通过这种方式,联邦学习可以创造新的机会,例如支持罕见疾病的新研究,因为其发病率很低,每个机构的数据集都太小。“将模型移到数据”而不是“将数据移到模型”还有另一个主要优势:高维、存储密集的医疗数据不必从本地机构复制到集中的池中,而且用于本地模型训练的数据也不需要被每个用户再次复制。当模型被转移到本地机构时,它可以随着潜在增长的数据集自然扩展,而不需要成倍增加数据存储。

由于联邦学习是一种通用的学习方法,它避免了传统人工智能模型开发的数据池要求,因此联邦学习的应用范围可以涵盖整个人工智能医疗领域。

例如,在电子健康记录背景下,联邦学习有助于找到临床上表征相似的患者,如图2-2所示。联邦学习的适用性和优势已在医学成像领域得到证实。其可用于磁共振成像(Magnetic Resonance Imaging,MRI)中的全脑分割以及脑肿瘤分割。最近,该技术已用于功能磁共振成像(functional Magnetic Resonance Imaging,fMRI)分类,以便找到可靠的疾病相关生物标记物。

图2-2 通过对分布在多个医院的异构电子健康记录进行学习,我们可以实现个人医疗保健的联邦学习应用

值得注意的是,联邦学习的方法仍需要用协议来定义所使用的范围、目标和技术。但由于它仍然是全新的技术,因此很难受到及时的监管。在这种背景下,现在的一些举措确实对未来医疗保健应用安全、公平和创新协作标准具有开创性意义。

这些努力包括旨在推进学术研究的联盟,例如可信赖的联邦数据分析(the Trustworthy Federated Data Analytics,TFDA)项目和德国癌症联盟的联合成像平台(German Cancer Consortium's Joint Imaging Platform),这使德国医学影像研究机构的分布式研究成为可能。另一个例子是一个国际研究合作项目,该项目研究者使用联邦学习来开发用于评估乳房X线照片的AI模型。研究表明,联邦学习生成的模型优于在单个机构的数据上训练的模型,并且更具通用性。然而,联邦学习并不局限于学术环境。

通过将医疗机构(不限于研究中心)联合起来,联邦学习可以产生直接的临床影响。例如,正在进行的HealthChain项目旨在在法国的4家医院开发和部署联邦学习框架。该解决方案可以生成预测乳腺癌和黑色素瘤患者治疗反应的通用模型。它可以帮助肿瘤科医生从组织学幻灯片或皮肤镜检查图像中确定每位患者的最有效治疗方法。另一个大规模研究工作是联合肿瘤分割(the Federated Tumour Segmentation,FeTS)计划,其目的是改善肿瘤边界检测,包括脑胶质瘤、乳腺肿瘤、肝肿瘤和多发性骨髓瘤患者的骨骼病变。

联邦学习影响的另一个领域是工业研究和转译。联邦学习甚至可以提供与竞争公司开展合作研究的机会。在这方面,最大的举措之一是梅洛迪项目。该项目旨在在10家制药公司的数据集中部署多任务联邦学习,通过训练一个通用的预测模型,推断化合物如何与蛋白质结合,并在不揭示其内部数据的情况下优化药物发现过程。