为什么需要ETL

为什么需要ETL?

ETL 可以节省大量的数据提取和准备时间,我们可以更好地将时间用于评估业务。ETL 也是健康数据管理工作流程的一部分,可确保数据质量、可用性和可靠性。

ETL 中的三个主要组件中的每一个都通过在专用数据流中仅运行一次来节省时间和开发工作:

提取:回想一下“链条的强度取决于它最薄弱的环节”的说法。在 ETL 中,第一个环节决定了链条的强度。提取阶段确定要使用的数据源、每个源的刷新率(速度)以及它们之间的优先级(提取顺序)——所有这些都会严重影响您获得洞察的时间。

转换:提取后,转换过程使初始数据变得清晰有序。日期和时间组合成单一格式,字符串icon解析为它们真正的潜在含义。位置数据转换为坐标、邮政编码或城市/国家。转换步骤还对度量进行汇总、舍入和平均,并删除无用的数据和错误或丢弃它们以供以后检查。它还可以屏蔽个人身份信息 (PII) 以符合 GDPR、CCPA 和其他隐私要求。

加载:在最后一个阶段,与第一个阶段非常相似,ETL 确定目标和刷新率。加载阶段确定加载是增量发生,还是需要对新批次的数据进行“更新插入”(更新现有数据并插入新数据)。

为什么需要ETL

展开阅读全文

页面更新:2024-03-15

标签:刷新率   都会   组合   数据流   可用性   优先级   数据源   链条   强度   环节   节省   加载   阶段   时间   数据

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top