大数据学习笔记(1)

数据质量问题

数据质量很重要,它是一切数据建设和数据产品化的基础。

低质量的数据不仅使用不便,还有可能误导决策,导致灾难性的结果。说得直接一点,数据质量的高低决定了数据是否能够真正发挥价值。”

数据质量的问题在很多小企业中尤为严重,这些企业采用“业务先发展,数据后治理”的思路,导致后期做数据治理的成本极高,甚至到了数据质量影响业务发展,企业不得不重新采集数据的地步,对时间成本和人力成本造成极大的浪费。

例如,报表的数据产出经常延迟,甚至经常出现数据不一致的情况,这让大家很困惑;除此之外,还有指标同名不同义、同义不同名的情况等。

数据质量的衡量

从定性的角度来看,数据质量的衡量涉及数据的完整性、数据的准确性、数据的一致性、数据的规范性及数据的时效性等。

1.数据的完整性

数据的完整性主要是通过采集数据的完整程度来衡量的,它被用于评估应采集数据和实际采集数据之间的差异。例如,在电商的用户个人信息页中,电商平台会让用户完善头像、昵称、性别、出生日期等数据;在用户下单的过程中,电商平台会让用户填写收件人、收件地址、电话号码等信息,如果用户仅填写了部分信息,电商平台采集到的数据就是不完整的。

2.数据的准确性

数据的准确性反映数据值和真实值之间的差距,即误差,误差越大,准确性越低。数据的准确性至关重要,只有基于准确的数据做出的决策才是真实可靠的。

3.数据的一致性

数据的一致性要求对于同一个指标,数据的数值要是一致的。

4.数据的规范性

数据的规范性要求数据被按照统一的格式存储、被有效组织,并且能被高效地获取。

5.数据的时效性

数据的时效性要求数据能够被及时产出。

数据获取效率的问题

由于前期数据基础建设不充分,也没有对数仓进行分层设计,维度表和事实逻辑表等主题数据都没被搭建起来,数据获取的成本极高,有的时候研发工程师甚至需要重复地去原始表中处理数据,既浪费人力,又影响效率。

展开阅读全文

页面更新:2024-04-28

标签:数据   时效性   误差   完整性   准确性   效率   成本   质量   用户   平台

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top