未来所有公共数据或被置于大模型中

欧洲科学院院士、琶洲实验室副主任、华南理工大学计算机科学与工程学院院长陈俊龙发表演讲。

“数据共享必须考虑隐私和安全的问题,当前除同态加密、差分隐私、联邦学习、安全多方计算四种隐私保护机器学习方法外,宽度学习在国内外的应用也非常广泛。”在“势起AI 智启新界——大模型创新应用与安全治理大会”上,欧洲科学院院士、琶洲实验室副主任、华南理工大学计算机科学与工程学院院长陈俊龙围绕“数据智能与新型数据隐私计算”发表了主旨演讲。

在他看来,如果数据量够大、算力够强,未来所有公共数据很可能被置于大型的通用模型中。

谈数据安全

大模型改变数据运用模式

隐私保护是法理要求也是用户需求

在演讲开始,陈俊龙表示,2009年以来信息技术经历了众多创新性的变革,包括物联网、云计算等,这些创新性的革命技术跟算法、算力与数据的涌现带来了人工智能第三次高潮。

接下来,他从高价值的应用、安全的挑战、数据的成本等三个层面阐述了当前大数据时代面临的困境。在其看来,场景依赖一个好的模型,依赖于数据,需要保护隐私,确保安全,以及模型是不是真的能解决场景问题。而大模型的产生改变了数据的运用模式,包括提示词与思维的能力、代码生成能力,大模型可以调度一些工具,可以利用本身的数据生成很多小模型。之前,很多企业会把数据嵌入到行业模型,数据跟着模型过来的。现在新的大模型,数据是用来训练模型的,一旦训练模型完成后就撤掉了。

据了解,正是由于数据的重要性,国家层面非常重视对数据全生命周期管理,包括数据采集、存储、处理、交换、传输、销毁等,实现数据安全“全领域、全要素、全类型”的全面覆盖,达到“全面防护,智能分析,自动响应”的数据安全防护效果,有效保护数据在全生命周期过程中的安全。其中,隐私保护非常重要,既是法理要求、国家安全需要,还是用户的需求。

谈数据隐私保障

大模型让数据变得更有价值

但需考虑数据隐私及安全

那么,如何更好保障数据隐私?在演讲中,陈俊龙详细分析了同态加密、差分隐私、联邦学习、安全多方计算等四种隐私保护机器学习方法。

他表示,联邦学习本质上是一种带有隐私保护的分布式机器学习框架,旨在让不同参与方在不向其他参与者披露隐私数据的前提下,共同协作完成机器学习的模型训练。多个用户共同参与模型训练时,原始数据可以不出本地,仅通过交互模型中间参数进行模型联合训练,实现“数据可用不可见”,优点是数据隔离,传递参数,有效使用深度神经网络,分析能力强,但也存在梯度数据有被复原原始数据的风险,缺乏理论保障、损失精度等缺点。

为此,在宽度学习系统基础上,他提出了多方安全“新型隐私计算”。值得一提的是,他首创的“宽度学习系统”曾获得第十一届“吴文俊人工智能杰出贡献奖”,同时该研究成果也在今年11月底,中国科学院发布的2023研究前沿报告中,荣获信息科学领域研究前沿热点第二名。

谈及安全多方计算,陈俊龙认为优点是一般满足零知识证明,安全性高,缺点是协议设计难度大。陈俊龙提到,大模型改变了信息对算法的思维,因为算力数据非常大,需要非常大的算力系统,这样就变成边缘端的数据处理、边缘端的计算非常重要。总而言之,大模型的出现让数据变得更有价值,大模型的聪明程度依赖数据及算力的品质,但需要考虑数据隐私及安全问题。

谈及广东刚刚发布的“通用人工智能发展22条”,陈俊龙接受采访时表示,广东提出加快建设通用人工智能产业创新引领地,我们要驾驭AI大模型赋能千行百业,助力数字经济高质量发展。

采写:南都记者 袁炯贤

出品:南都大数据研究院

展开阅读全文

页面更新:2024-02-11

标签:华南理工大学   同态   模型   数据   欧洲   人工智能   宽度   联邦   隐私   机器   未来

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top