便利性与用户隐私矛盾无解?联邦学习表示“鱼和熊掌”可兼得

便利性与用户隐私矛盾无解?联邦学习表示“鱼和熊掌”可兼得



众所周知,机器学习的关键挑战之一是需要大量的数据。然而,为机器学习模型收集训练数据集会带来隐私、安全和处理方面的风险。


为了应对这种难题,“联邦学习”(Federated Learning)应运而生。通过将模型的训练分布在不同的用户设备上,联邦学习可以在最大限度减少收集用户数据的同时尽可能的发挥机器学习的优势。


基于云的机器学习


依照传统的做法,开发机器学习应用需要收集大量的数据集、在数据上训练模型,然后在云服务器上运行训练好的模型。而用户可以通过不同的应用(如网络搜索、翻译、文本生成和图像处理)访问这些模型。


这就导致每次应用程序想要使用机器学习模型时,它必须将用户的数据发送到模型所在的服务器上。


在许多情况下,向服务器发送数据是不可避免的。例如,今日头条这种内容推荐系统就非常依赖这种模式,因为机器学习推理所需的部分数据和内容都驻留在云服务器上。


便利性与用户隐私矛盾无解?联邦学习表示“鱼和熊掌”可兼得


但在诸如文本自动补全或面部识别等应用中,数据是本地化的。在这些情况下,数据最好是留在用户的设备上,而不是被发送到云端。


幸运的是,边缘人工智能的进步可以避免将敏感的用户数据发送到应用服务器上。这一当今非常活跃的研究领域被称为TinyML(微型机器学习),其目的是试图创建适合智能手机和其他用户设备的机器学习模型。


这些模型将可以让终端设备直接进行推理运算。而一些大型科技公司正试图将他们的一些机器学习应用程序引入到用户的设备中,以改善隐私保护。


显而易见的是,TinyML好处多多,即使设备没有连接到互联网,这些应用程序也能继续工作;当用户使用流量连接时,它们还能帮助节省带宽;而且在许多应用中,设备上的推理运算比将数据发送到云端更节能。


悖论催生联邦学习


在终端设备上进行推理运算是机器学习应用的一个重要隐私升级。但仍有一个挑战——开发人员仍然需要数据来训练他们将在用户设备上推送的模型。


毋庸置疑,当开发模型的机构已经拥有数据(例如,银行拥有其交易)或数据是公共知识(例如,维基百科或新闻文章)时,这并不构成一个问题。


但是,如果一家公司想要训练涉及机密用户信息的机器学习模型,如电子邮件、聊天记录或个人照片,那么收集训练数据就会带来许多挑战。公司将不得不确保其收集和存储流程符合各种数据保护法规,并进行匿名处理,以去除个人身份信息(PII)。


一旦机器学习模型被训练出来,开发团队必须决定是否保留或丢弃训练数据。此外,他们还必须有一个继续从用户那里收集数据的流程和程序,以定期重新训练和更新他们的模型。


在这种矛盾下,联邦学习就派上用场了。


联邦学习的主要思想是在用户数据上训练机器学习模型,而不需要将这些数据转移到云服务器上。


便利性与用户隐私矛盾无解?联邦学习表示“鱼和熊掌”可兼得


联邦学习从云服务器中的一个基础机器学习模型开始。这个模型要么是在公共数据(如维基百科文章或ImageNet数据集)上训练的,要么根本没有经过训练。


在下一阶段,几个用户设备自愿训练该模型。这些设备持有与模型应用相关的用户数据,如聊天记录和击键。


这些设备在一个合适的时间下载基础模型,例如,当它们使用wi-fi网络并处于充电状态时(训练是一个计算密集型的操作,如果在一个不恰当的时间进行,会消耗设备的电池)。然后他们基于设备的本地数据训练模型。


训练结束后,他们将训练好的模型返回到服务器上。因为流行的机器学习算法(如深度神经网络和支持向量机)都是参数化的,所以一旦训练完成,它们就会将数据的统计模式编码为数字参数,而不再需要训练数据来进行推理。这样一来,当设备将训练好的模型送回服务器时,它并不包含原始的用户数据。


一旦服务器收到来自用户设备的数据,它就会用用户训练的模型的总参数值更新基础模型。


在模型达到开发者所期望的最佳精度水平之前,联邦学习周期必须重复多次。一旦最终的模型准备好了,它就可以分发给所有的用户进行设备上的推理运算。


联邦学习的局限性


可以明确的是,联邦学习并不适用于所有的机器学习应用。如果模型太大,无法在用户设备上运行,那么开发者就需要找到其他的变通方法来保护用户隐私。


另一方面,开发者必须确保用户设备上的数据与应用相关。传统的机器学习开发周期涉及密集的数据清理实践,其中数据工程师会删除误导性的数据点并填补数据缺失的空白。显然,用不相关的数据训练机器学习模型会弊大于利。


当训练数据在用户的设备上时,数据工程师没有办法评估数据并确保它对应用程序有益。出于这个原因,联邦学习必须被限制在用户数据不需要预处理的应用程序中。


联邦学习的另一个限制是数据标签化。大多数机器学习模型是有监督的,这意味着它们需要由人类注释者手动标注的训练示例。例如,ImageNet数据集是一个众包资源库,包含了数百万张图片和它们相应的类别。


在联邦学习中,除非可以从用户互动中推断出结果(例如,预测用户正在输入的下一个单词),否则开发者不能指望用户特意为机器学习模型标注训练数据。所以,联邦学习更适合于无监督的学习应用,如语言建模。


在隐私影响方面,虽然向服务器发送训练好的模型参数比发送用户数据对隐私的敏感度要低,但这并不意味着模型参数中完全没有私人数据。


便利性与用户隐私矛盾无解?联邦学习表示“鱼和熊掌”可兼得


事实上,许多实验表明,经过训练的机器学习模型可能会记忆用户数据,而成员推理攻击可以通过试错在一些模型中重新创建训练数据。


对于联邦学习的隐私问题,一个重要的补救措施是在将用户训练的模型整合到中心模型后将其丢弃。因为一旦云服务器更新了它的基础模型,它就不需要再存储单个模型了。


另一个补救措施是增加模型训练者的储备。例如,如果一个模型需要在100个用户的数据上进行训练,工程师可以将训练者池增加到250或500个用户。对于每个训练迭代,系统将把基础模型发送给训练池中的100个随机用户。这样一来,系统就不会从任何一个单一的用户那里不断收集训练过的参数。


最后,通过给训练好的参数添加一点噪音,并使用归一化(normalization)技术,开发者可以大大降低模型记忆用户数据的能力。


随着联邦学习解决了现代人工智能的一些基本问题,它正变得越来越流行。研究人员也在不断寻找新的方法,将联邦学习应用于新的人工智能应用,并克服其局限性。我们有必要时刻关注该领域在未来的发展。

展开阅读全文

页面更新:2024-03-30

标签:联邦   隐私   用户   终端设备   熊掌   人工智能   开发者   应用程序   模型   矛盾   机器   工程师   参数   服务器   基础

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top