数据要素流通与隐私增强计算的结合实践

“数据智能知识地图”明日发布~

DataFun诚邀各位小伙伴们观看5周年直播,免费抽取纸质版“数据智能知识地图”!

[比心]点击链接预约:重磅!业界首个数据智能知识地图发布


导读:数据要素流通、隐私计算,都是现在非常热门的话题。作为业内相对资深的技术方,本次由蚂蚁集团带来的分享交流主要围绕数据要素流通与隐私增强计算的结合实践。关注如何把上述热点概念从顶层设计,从技术向下落地,真正应用到实践中。如何进行数据治理,怎样利用工具手段来实现链接、流转、共享与使用价值的最大化。


分享嘉宾|夏建树 蚂蚁集团 资深架构师

编辑整理|monk 国家管网

出品社区|DataFun


01

需求背景

现在国家已经把数据要素流转上升到了非常高的层面。顶层设计方面出台一系列的法律法规,比如国务院办公厅、工信部,数字中国规划,十四五规划里已经针对数据要素流通的要求、办法等提出了相关要求。

这样的大背景下,在经历了中国6-7年大规模的互联网化和智能化的转型后,企业手头积累了很多数据,几乎中国的每个企业差不多都认为自己的数据是可以变现的,具有数据资产化的价值。但事实上数据要素如何形成资产化却很难去评估。因为资产化需要把数据变成商品,其中最大的问题在于数据是可复制性的,并且是不可量化的。比如买一条字段或 ID,复制之后可能从一传到十,复制到无穷多,在这个过程中,数据本身的数据权属是否会变化?数据本身的定价有无变化?复制传导当中数据的边际成本和边际收益是否变化?是否涉及到法律问题?

数据虽然最难形成商品,但是却又是目前国家极力想去将其商品化的对象。我们就应该考虑从数据安全、隐私计算技术,来对数据要素流通进行工具上和制度上的安全提升,构建体系,来实现数据在合规合法前提下流通。

这是今天的第一个话题,即意识已经增强,但是流通无体系的时候,数据市场是相对比较混乱的。

阿里集团应该是国内最早进行隐私计算的,虽然现在很多公司都做隐私计算,但一般都是在 2015、2016 年开始的,之前蚂蚁集团都会从外面采购数据来补充自己的业务,2016、2017 年之后开始用隐私计算 psi 来做数据输出,包括标签输出。当然因为基于 psi 所以本身的原始数据是不输出的,而 psi 隐私求交已经是隐私计算里面目前使用最广泛的场景。

坦率说隐私计算并不是一个很高深的东西,国内有很多的机构都在做隐私,但是大家都没有很严谨的把它变成商业化的生意,更多的是从技术、做项目的角度、包装的角度、创新的角度在做数据高速流转,包括隐私计算产品交互。严重的同质化也导致大家在技术领域没有代差。国内机构更多的是去补充算子,或者营造新的概念。大家在造概念、补充实际业务里不会用到的算子的时候,往往会忽视商业化,导致的结果是相对比较小的公司拿项目为的是 logo,而一些大的公司可能是因为自己的 bg 或者 bu,在行业里进行内卷。拿了项目后因为没有想商业化,所以很少有机构隐私计算项目能够实现二期、三期、四期不停延展。95% 的客户都问过我一个问题,就是之前买了一个平台用不起来,能不能用一些其他工具、体系,帮助我把隐私计算落地?

--

02

百行模式

基于以上背景,其实我们不需要讲太多的隐私计算,也不需要讲太多的数据治理或者数据安全,而是应该先从客户角度来考虑,做产品、做数据分析请大家还是把眼光往前看。

举一个例子叫“百行模式”,百行指的是百行征信。做隐私计算,包括我们做数据安全治理、数据的二次封装等,其实都可以参考百行模式。即本身不会对外说我有很多数据,也不会对外说我做了很多的数据标签输出或者数据治理。国家现在一直在提倡数据要素变现,数据要素流转流通,百行模式最大启发意义是做数据安全或者其他事情都要以综合型的视角来进行。

综合型的视角指什么?

目前有三类数据,第一类叫政府及公共服务类数据,第二类是企业类数据,第三类数据是个人数据。国家发了不同的法律法规来对这三类数据流转进行限制监管。比如说政府及公用数据只是做共享,不能做商业化。企业的数据相对比较成熟,现在国内应该有200多家做企业的数据技术公司拿着各种企业数据在做各种普惠、产业园区的生意。第三类就是我所讲的百行模式。

目前蚂蚁集团的钱塘征信还没完全落地没有商业化,所以现在在市面上商业化两个牌照中有一个就是百行。百行做的是垂直的金融买卖,直接对应的是银行,所以他做的是里面各种的数据。我主要分了五类:公共服务类、经营分析类、竞争对手类、产能资源类、需求情况类。这些数据基于客户的实际场景来进行数据输入输出。其实没有一个对外称之为“百行分”或者标准的数据产品。

针对银行而言,比如银行要放一个A贷款,比如白领贷,就只能给当地的一些他定义为白领的实际使用人,比如公务员、机关企事业单位人员。如果当地一共就只有100万人,哪这一百万就是存量客户或者目标客户。拿这100万客户他自己银行跑出来的结果,去跟百行要定向的这一百万客户本身的标签和用户画像,以及信贷表现。那百行就会基于实际的业务场景来做相对应的数据阐述。因为他本身是有牌照的,所以就已经规避数据问题。并且他会跟上游的数据供应商一起来做数据的二次加工,数据清洗。包括基于上游数据的采集方的一些安全要求。哪些数据能输出哪些不能输出?哪些能出域哪些不能出域?哪些是只能以体系化的区间形式输入?哪些是完全不能输出只能用隐匿查询或者用隐私求交来做?

所以我想给大家提这样的形式。在数据要素变现或者流转过程中,我们还是要以业务场景来看。如果没有业务场景,其实你是赚不到钱的。另外一点需要指出的是,我们做数据挖掘,数据清洗及治理管理的时候,因为其实很多银行都以自己核心业务系统,包括百行本身也有很复杂很完整的数据分析工具,但是各种主题库、各种垂直行业的业务的项目空间,其实都需要专业业务人员来做设计,并且把业务功能形成一些固化,比如把工作流基于区块链来进行智能合约化就是一个非常好的区块链变现的场景。

百行模式带来的感知就是应该怎么做垂直行业的数据分析、共享。我建议不要去堆太多的功能、标签、画像、分类等,而是实际的先找到客户、然后从客户去反推我需要做的业务反馈。

--

03

数据能力供应

下图是蚂蚁做的能力供应大图,基本上涵盖了数据要素流通全生命周期,包括采集、存储、分析、流转、使用、审计。

如果大家熟悉数据要素生命周期,知道传统上应该最后还有销毁环节。我们把数据销毁环节删除了,原因是我们认为所有数据都是有价值的,所有数据都是要进行审计的。我们所做数据审计功能背后会包括物理销毁或者相关销毁机制,具体由分析审计的结果给出结论。

这个大图中也涵盖了数据资产可用不可见,可控可计量,甚至还有可回收,因为回收才可以可审计。坦率的说市面上有很多的机构都在做这些事情,比如有的人在做安全领域的水印, 有的人在做脱敏,也有些是基于数据平台或者数据分析工具来做数据资产地图,有区块链公司做确权、调度,隐私计算公司能做隐私计算引擎等。客户一般不会需要一个断点的功能,尤其目标客群相对近似的情况下。

数据要素流转中数据管理方是央国企,供应链或者已经自成体系的大零售、大物流、大交通相关的核心企业,还有政府、产业园区,还有由政府产业园区牵头做的数据交易所,目标客户画像是非常明确。其实我们需要关注的是客户实际需要什么。这些机构本身贴身服务的厂商有多少大家应该非常清楚。单独的每个能力很难生存,都会跟别人有重叠的地方。所以应该反推的去看客户其实需要什么能力补全。

--

04

核心目标:完善全链路一键场景落地的数据流通能力

建议对于政府、监管机构重点关乎的企业用户,一般用木桶理论帮着补充短板就可以。比如广州汽车、车场、机场特别多,工信部汽车司去那边罚了一个机构的数据安全款项。当地就有另外一家企业就找我问能不能做数据安全管理中台,把短板补上。

但如果是初创性企业,或者数据交易或者数据要素流转还没有想出业务场景时,建议先把企业的长板拉长。相对来说,数据安全、数据分类分级用传统思路做,数据地图甚至都可以不做,因为没有业务。但是要把手头现在有数据,包括外部生态数据迅速形成一个垂直行业业务画像,能够往外进行售卖,进行商品化,就能够做业务小闭环。

因此给大家的观点是我们应该倒过来想,不要去讲太多的产品功能。尤其对于初创性公司,迅速跑通业务场景,迅速形成变现场景,能够向上汇报、向外汇报,甚至能够向资本市场汇报。

我把产品功能形成了下面这六个能力板块,很多机构其实都会到数据场景落地进行能力补充。给大家的概念是以数据安全+合规咨询+区块链+隐私计算技术为核心,从域内数据安全流转到跨域、跨境数据可信流转,为用户提供可梯度选择的数据全生命周期安全管控方案,帮助客户做比较好的能力补全,而不是说我这有个产品让企业花点钱把它买去,支持国内、跨国、地方、行业标准落地建设,支持数据要素合规流通与使用。

--

05

蚂蚁数据要素流通总体框架

数据的标准化处理、质量处理等基础数据治理功能,每个大厂都会有较为成熟的商品化产品。我们在数据基础治理的基础之上形成了数据要素流通的总体框架。

比如现在要炒一盘菜,先解决的是采购时了解菜是不是过期、新鲜?是不是能匹配配菜师傅要求?然后配菜时要基于每个人的口味不同来进行安全筛查,比如有孕妇有东西不能吃,有宗教信仰的不能吃肉食,这个我们叫安全治理。安全基线是不能突破最终采购安全底线的安全治理工具。安全治理工具包括三类,预内管、跨域管 跨境管三块。安全治理之后才能真正的将数据资产进行流转。流转的时候又有两道工序,第一道工序是对多元数据融合,融合会涉及到标签、体系的流转、数据目录形成。之后非常重要的是要在确权之后进行授权。很多机构都会忘记授权这个动作。

数据的流转过程中,首先要对敏感数据进行分类分级,知道哪些能用哪些不能用。还要进行授权处理,包括单次授权、多次授权、长期授权、以及特定场景授权等。因为很多机构授权没有解决好而导致下架的案例已经很多了。

数据授权怎么来做?第一是基于区块链,来进行授权链路存证。第二个是把授权链路和数据开放策略形成策略式的设计。如果链路缺乏确权、授权,或者缺乏对敏感数据的处理,比如水印,那需要把这样的风险监测出来,不管是做旁路阻断,还是直接做告警阻断,要把这个功能放进去。之后才能提引擎调度,比如哪些数据是分布式的、集中式的?集中式用可信执行环境或者是直接用同态加密,分布式的是用 mpc、psi ?进行不同的隐私系统逻辑设计。

需要从客户业务视角出发,发现业务场景里面要用到哪些数据要素,然后对数据要素进行三个层面的处理,最后直达场景。否则就会出现断档,有能力有数据,但是中间没有做好数据的有效处理,导致最后业务流程走不下去。

灰色板块是基础数据治理板块,蓝色板块是我们的区块链增强隐私计算。需要特别强调的是,增强隐私计算的概念是指在零信任或者在环境不可信的情况同样可以做隐私计算。增强隐私计算服务是需要把数据安全合规、以及环境、账号、网络、甚至硬件设备本身这些因素综合考虑做隐私计算相关处理,而不是只买一个隐私计算平台。

--

06

实现增强隐私计算概念的结合

1. 数据保护伞

下面介绍我们的一个产品,数据保护伞。它与阿里云的几个数据产品都有直接集成,与华为云、腾讯云、紫光云中的大数据平台都有合作。阿里云方面主要是与 Dataworks、Dataphin 集成。

这款产品的目的是要解决业务问题,包括数据是什么,哪些是敏感数据,谁在用这些敏感数据,使用的过程有没有风险,有没有管控的工具或手段等等。我们首先发现问题,才会有这些产品,而且这些产品功能相互交互映射。

在数据安全里静态脱敏的核心是需要懂业务,要跟业务系统直接对接。做过大量业务系统直接对接的静态脱敏项目,才可以说静态透明工具很有效。动态脱敏的核心与静态脱敏刚好相反,是要能够拆分下游的业务场景,在接口层或者使用层进行脱敏,在数据底库不需要脱敏。不同场景里不同账户的数据调用、数据分析、应用所需要关注的脱敏细节各不相同。

单个的能力已经有机构在垂直做,那么蚂蚁如何做得更好?最简单的选择是把这些能力打包,做全家福。但是全家福这种产品无法让客户真正搬运走,除非很便宜。而我们不可能这么做。我们反过头来,从产品走向的商业化。举个例子,我们做血缘图谱,是动态的,是一个敏感数据的分享、流转过程审计工具,并不是静态的数据资产管理工具。它解决的是基于图计算、语言模型、数据资产嗅探、包括数据资产匿名化、元数据识别ai模型等,把这些能力集合起来去做敏感数据的识别,包括的结构化数据跟非结构化数据(ocr 识别语言模型)。

敏感数据识别之后,不同业务系统、网络环境、账号用同样数据进行使用分析过程中,比如直接调用、映射,以及对敏感数据进行的复制、二次分发时,同样还能识别出来这是一个敏感数据。比如身份证是 18 位,在库表里或数据中台里, 线下一个 cm 系统需要去调最近一个存量客户的实际信息,然后从数据中台里面通过标签捞到存量客户,然后存量客户后面的数据字段里面有一个字段就是身份证号,我们认为是高敏感数据。

然后有账号通过安全的环境下载了这个库表到一个地方,cm 系统另外一个账号在原地对该数据前后加了两位,变成了一个 20 位的数据字段, 20 位的一串数字,然后对他进行的复制放到了一个 excel 表里面去,请问你还能够识别出来什么账号在什么业务系统用了刚刚说最原始的 18 位身份证吗?目前是没有的,业内没有人能做这么完整的敏感数据流转过程中的风险识别。目前一般有2种方法进行数据库脱敏,一种是静态的数据库识别,以实例的方式来做,另一种是在网关处进行行为识别,一刀切把所有数据进行策略性处理。

而我们其实脱离了数据库,刚刚说的这么复杂的场景里,就需要以血缘图谱为底层,基于刚刚说的多种能力为算法模型,支撑帮助客户,尤其是数据量特别大、本身数据的敏感程度特别高的客户,比如我们已经落地的能源、电力行业。

举这个例子是为了说明我们不能单独去搞一个爆款数据安全产品,或者数据要素流通产品。需要把多种能力进行集成。

2. 可信协作平台

可信协作平台是区块链+隐私计算实现增强隐私计算,实现数据的有效的变通以及变现。

主要包括四方面的内容:

① 基础功能:包括组网,基础服务、调度、授权等等,是数据安全产品必要的功能。

② 数据要素管理:无论是集中式的、还是分布式的数据都需要有一个对所有可以用的数据要素的管理工具。比如数据目录链,应用目录链。需要能够看到实际的业务场景是什么。

③ 数据开放管控

④ 数据协作工具箱:业务场景隐私计算要用哪个工具?是大样本联邦学习,或者本身标签特别少可以用PSI。针对各种场景模板套用各种功能。如果没有场景模板就需要隐私计算引擎来协助进行。

区块链在其中主要体现在三个方面:

所以区块链主要做的就是可信存证、智能合约两个功能。

3. 数据跨境合规

与数据治理有些不一样,国家目前没有非常完整的跨境直接查处办法,一般如果涉及到数据跨境,请先做好自评估,比如 gdpr,cta。因为我们跟石油领域合作比较多,他们需要国外经营采购、炼油,自评估就需要对当地的法律法规非常了解。而且法律法规是会变化的,每一次都以项目制的形式请咨询公司来做会很繁琐。所以我们进行了法律法规库的固化,建立法律法规图谱,同时建立自评估的流程。

此外,在数据的跨境转移过程当中构建基于数据合规的工具。比如自评估出来结果后,运用哪些加密算法来做,需要数据脱敏到什么程度,加盐的盐值是多少等等,通过这种形式来做数据跨境合规产品。

--

07

总结

最后总结一些我们认为有价值的业务场景,供大家参考。

1. 数据基层治理-数据回流场景

国家一直在提数据回流,数据回流到基层做基层治理。政府合作场景中,政务数据治理完毕之后进行可信流转

2. 政府数据公开-银政企融资对接场景

政府数据公开之后做银政企融资对接。目前地方政府机构想到的比较多的实际的隐私计算加区块链的业务场景。需要注意 2 个问题:政务数据不好拿,每个委办局自己都是数据孤岛,凭什么给?垂直管辖的部门,比如司法检察院、公安、海关,包括卫健委防疫数据都非常敏感和重要,所以第一个问题是数据如何形成可信的网络来进行共享?第二个是共享之后,各个共享机构的数据质量参差不齐,银行做放贷业务又是非常标准化的产品,如何进行对接?在这个场景里要做两个事情:

第一是如何让各个委办局在各个环境里面,不管用硬件、软件,用各种水位的数据安全合规措施来保障数据可以共享。共享的概念并不是数据出域,而是可以共享。

第二是数据质量二次挖掘,二次挖掘主要针对金融场景。

3. 目录链应用场景

举几个例子,第一个是长三角现在在做一体化的电子身照认证,就是身份证、结婚证,或者营业执照 、行驶证,在长三角包邮区来进行相关的业务操作。这就涉及到电子证照的互认。第二个现在国家在做不动产的登记、包括公共采购登记,由不动产及公共采购交易中心进行,也是现在的非常活跃的场景。这两个例子中都涉及到不同数据属主,如何把它形成一个目录 上链,防止出现篡改、不当侵害是比较有价值的。

4. 隐私求交、联合建模场景

这个场景目前是最多得到应用的。蚂蚁包括现在有很多后起之秀都在做。数据简单求交、建模,主要是金融场景。或者比较复杂的求交之后的联合深度学习、记忆学习。

背后当然需要具备以下的能力:

以上就是蚂蚁对于数据要素流转的观点。总结成一句话:

不要以技术谈技术,不要以项目谈项目,而要以实际的业务小闭环为最大的抓手,去实现数据交易、数据共享的真正的落地,帮助客户挖掘价值。这样才能够帮助厂商商业化,整个市场拓展才能走的更稳。

--

08

问答环节

Q:数据安全罚款是否有强制或者明确的政策?推动企业做数据安全的动机是什么?

A:首先各个垂直行业对于数据安全管理要求水位是不一样的,金融领域最高,工业制造业领域也非常强。但处罚条例里面的金额是动态的,目标一样。数据安全管理方面大家大多都还处于初级阶段,更关注的是采集端、数据融合端。比如之前工信部做的app合规检测,检查了应该是 100 多万个,下线 1000 多个。罚钱的场景还是以数据采集为核心的。但未来应该会看到今年一月份 gdpr 去罚 facebook 、推特,都是一点几亿的欧元。主要罚违规数据使用场景。所以数据安全管理要做数据分类分级。分类分级解决的是敏感数据分离,分离之后的数据怎么流转,哪些场景能够用到,哪些数据不能进行流转,或者必须进行匿名化分布式处理。

今天的分享就到这里,谢谢大家。


|分享嘉宾|

夏建树|蚂蚁集团 资深架构师


|DataFun新媒体矩阵|


|关于DataFun|

专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100+线下和100+线上沙龙、论坛及峰会,已邀请超过2000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章800+,百万+阅读,15万+精准粉丝。

展开阅读全文

页面更新:2024-03-08

标签:要素   隐私   数据   区块   场景   能力   客户   功能   业务   产品

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top