外部第三方数据常见问题与质量监控

金融行业随着数字化的深入,对外部数据的使用越来越广泛。由于外部数据供应商的能力参差不齐,就给外部数据的使用造成一定的困难。比如重要的信贷准入指标由于缺失造成审批通过率急剧上升或下降;又比如由于修改业务计算口径造成变量的均值发生漂移,导致评分卡中的客户信用评分分布发生明显变化。以下列出了常见的风险点。

外部第三方数据常见问题与质量监控

首先是元数据变更。现在外部数据结构多以Json格式传输。这种格式的优势是没有限制数据的数量和类型,调整起来很方便。缺点是缺乏元数据管控。如果第三方数据源的元数据发生改变,而数据使用方的解析规则没有及时更新,就会造成数据缺失。其中“修改字段类型”的后果比较严重,会造成变量缺失,可以通过元数据监控和缺失值监控进行报警。

更改数据标准是比较常见的问题。很多第三方数据供应商的数据是伴随其核心业务产生的,因此必然受其业务发展的影响。比如“新增业务类型”相关的影响,一些提供贷款申请查询信息的数据,之前一笔贷款申请只查询一次,后来随着业务的变化,有可能会查询两三次,其中只有一次查询是贷款机构的有效查询,其他几次是资金方、担保方、保险公司查的,这造成指标含义和有效性的变化。这可以通过均值漂移监控来进行报警。“更改基础数据计算口径”也是常见的问题。银行内部做数据治理时,指标的计算口径就是争论的焦点,并且不时会有变更,外部数据供应商数据的口径更改更是家常便饭。需要对数据的均值/占比和标准差极差进行监控。

数据质量问题有些是数据先天问题,有些是人为造成的。先天问题,比如缺失值有可能是因为该数据本身就缺失,也有可能是业务发生中断造成的。人为原因造成的,比如由于数据缺失,数据供应商自作聪明的把缺失值用均值做替代,就造成单一值问题。这类问题可以监控数据缺失值、单一值比例。对于错误值、异常值,需要对码值和取值范围进行监控。

最后是数据代理的情况。专业的数据供应商希望做到“一站式服务”,这就需要代理其他机构的数据,而且还会有二代、三代,甚至更多。除了以上提到的数据问题之外,还会新增“更改源数据”和“数据断供”的情况。其中前者会造成同一个业务的数据前后不一致,这需要监控数据的中心位置(均值、中位数等)和刻度(标准差、极差等)等指标。后者的影响和数据缺失的问题类似,监控手段也一样。

除了以上显而易见的数据问题,还要考虑其数据业务的稳定性,这是比较长远的工作。需要通过评估数据供应商的资质、数据的全生命周期,并结合法律法规的预判,对供应商整体的数据供应稳定性进行评估。

以上只是简述了一下外部数据使用中注意的点,想到哪里,写道哪里,不完备。有兴趣的读者可以翻阅一些数据质量管理的材料。只要把外部数据的生命周期搞明白了,管理思路基本一致。

数据资管出品

展开阅读全文

页面更新:2024-03-30

标签:中位数   数据   口径   常见问题   缺失   变量   先天   稳定性   生命周期   贷款   指标   常见   供应商   类型   发生   质量   业务   科技

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top