​字节大数据平台安全与权限治理实践

[浮云]活动推荐:DataFun五周年直播

​​​[礼物]直播亮点发布业界首个数据智能知识地图

​​[心]观看方式:重磅!业界首个数据智能知识地图发布



导读:本次分享题目为字节跳动大数据平台安全与权限治理实践,文章会围绕下面四点展开:


分享嘉宾|许从余 火山引擎 数据平台产品经理

编辑整理|杨佳慧

出品社区|DataFun


01

字节大数据安全体系现状和难点

第一部分首先分享字节跳动大数据平台安全与权限治理平台的完整体系以及目前的现状和面临的难点。

1. 字节跳动大数据安全产品体系

2. 治理原则:保证合规兼顾效率

(1)数据安全治理的压力=外部压力+内部压力

(2)数据治理原则=保证合规+兼顾效率

根据数据安全治理内外部压力的分布,其实可以清晰的得知数据治理原则会主要围绕着《保证合规、兼顾效率》这八个字展开。

那如何能够保证合规的同时兼顾效率实现和谐共处,以下部分会从字节跳动大数据平台的数据权限模型的升级:权限模型三大特性和原子层级的权限管控和治理来讨论。

--

02

细粒度权限管控和治理

1. 列级权限控制

2. 表/列权限附带行限制

用户在拥有访问表权限的同时对行进行数据权限的限制。例如E部分数据限制的情况为拥有表权限的同时附带行限制,此部分限制为性别为男且国家为美国和加拿大。

用户在拥有访问敏感列权限和 Country、Age 列权限的同时对行进行数据权限的限制。例如F部分,此部分数据限制为敏感列权限和 Country、Age 列且行限制为国家,且国家必须为英国和美国。

3. 敏感表/列单独管控

此时用户能够访问到除敏感列(敏感列权限是独立单独管控的)之外的所有列,即 A 区域内的数据部分。

此时用户能够访问的数据权限与情况一一致,可以访问到除敏感列(敏感列权限是独立单独管控的)之外的所有列,即B区域内的数据部分。

此时用户拥有访问数据表和访问敏感列的权限此时用户能够访问到完整的数据,即 C 区域内的数据部分。

4. 灵活的权限授权机制

数据资源可以将数据库表和行列的权限进行打包形成资源包,资源包可以通过授权账号进行权限的统一管理。

授权主体对象可以使个人、具体的部门、应用账号或是用户组。

个人授权:部门内的所有员工都拥有数据权限;应用账户:将账号进行授权从而对外提供数据服务;用户组:将个人或部门生成新的用户组,以用户组为单位统一管理此部分用户的数据权限。

数据资源与授权主体可以进行自定义组合形成灵活且互斥留痕的权限审批流,在此基础上可以通过智能风险判断辅助从而达成自动审批。

在自动审批流中可增加审批节点,增加的审批节点可以自定义附带触发审批的条件。

5. 智能审批

智能审批模型主要包括三个子模型,通过子模型综合识别判断所提交数据工单的风险。

风险等级分为高中低三种,每一个风险等级都会产出相应的风险标签。低风险等级的工单会自动审批。高风险等级的工单会进行数据拦截流转至人工审批并输出数据风险标签。通过一年的打磨,智能审批模型取得了令人骄傲的成效。

6. 冗余权限治理回收

冗余权限的治理原则建立在数据权限时间最小化原则,数据权限的有效期取决于具体的业务周期。

冗余权限的判断由访问日志和鉴权日志双重界定。双重界定的原因主要源于两种不同的使用场景。

第一种情况:系统为双鉴权机制,包括用户鉴权和账户鉴权,系统识别机制为账户权限,实际访问日志也为账户权限。此情况下需通过鉴权日志匹配出账户的权限。

第二种情况:豁免权限的开放使部分用户无需鉴权即可访问数据。此情况下只能通过访问日志来确定账户的权限。

白名单:白名单为账户和权限资源的组合,在白名单中的资源不会被判断为冗余且可长期保留。

--

03

资产保护能力

1. 资产保护应用场景

资产保护场景贯穿数据从在线数据的落库到使用整个生命周期。

数据集成过程中会将数据进行静态脱敏或加密存储,而数据的实际使用中会通过按需加解密或脱敏的 API 网关的形式进行对外数据服务的提供。员工访问数据时会识别其是否有解密权限进行鉴权识别处理。

2. 加密方案介绍

大数据平台加密方案主要分为四种:数据内容加密、文件格式透明加密、HDFS加密以及磁盘加密。

由于加密会使数据链路变变长数据量变大,同时使用数据的用户增多因此数据平台应满足高数据一致性,高数据可用性,高效率的数据重写以及密文需要具备可识别性。同样基于以上原因数据平台一般使用数据内容加密和文件格式加密两种方案。

--

04

数据删除能力

1. 数据删除应用场景

数据删除主要目的为响应隐私合规政策,需要在规定的时间期限内将用户某些个人信息删除。删除操作包括滚动删除和账户删除。一般情况下账户删除的触发方为用户主动删除,滚动删除会将数据分门别类进行时间期限的判断后进行删除操作。

2. 大数据删除技术面临的挑战

大数据删除相较于在线数据删除会面临以下几点挑战:

3. 性能提升和调度系统的优化

针对以上挑战,对数据删除性能包括任务调度和系统上做了一定程度的优化。

以上介绍的大数据平台安全与权限管理是数据治理的重要组成部分,主要在字节跳动内部应用。

目前,字节跳动也将沉淀的数据治理经验,通过火山引擎大数据研发治理套件 DataLeap 对外提供服务。作为一站式数据中台套件,DataLeap 汇集了字节内部多年积累的数据集成、开发、运维、治理、资产、安全等全套数据中台建设的经验,助力 ToB 市场客户提升数据研发治理效率、降低管理成本,欢迎大家点击“阅读原文”来体验。

--

05

问答环节

Q1:如何定义资源包,资源包会包含行列权限吗?

A1:资源包可以将特定的库表行列以及对应的读写权限打包成资源。资源包中会包含行列权限且会将其授权给用户。

Q2:如何计算治理前后权限冗余的提升比例?

A2:以单人来举例,一个用户在治理前拥有 100 个权限,其中 50 个长期不访问,那么他的权限冗余占比为50%,通过治理回收了长期不访问的 50 个权限中的 40 个,那么治理后的权限冗余占比为 10/60=16.67%。

Q3:冗余权限的回收是否会产生数据应用风险?

A3:答案是否定的。第一,正常情况下数据应用是经常性的,并且数据权限是全鉴权机制,若在用户数据同时出现在双日志中此部分数据权限不会被判定为冗余权限也不用影响到数据的应用。其次补充介绍一下权限回收除了冗余权限回收机制外,负责人可进行权限主动回收。在主动回收过程中会二次提醒,提醒内容为该权限目前应用在某些数据任务中以便负责人知晓。

今天的分享就到这里,谢谢大家。


|分享嘉宾|

许从余|火山引擎 数据平台产品经理

字节跳动大数据平台数据安全产品负责人。


|DataFun新媒体矩阵|


|关于DataFun|

专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100+线下和100+线上沙龙、论坛及峰会,已邀请超过2000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章800+,百万+阅读,15万+精准粉丝。

展开阅读全文

页面更新:2024-03-23

标签:字节   权限   数据   冗余   平台   账户   风险   情况   用户   资源

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top