数据集成与数据管道的关系

一、区别

上图来自 tapdata (一款优秀的数据集成系统),该图很明显的诠释了数据集成和数据管道的关系。

数据管道: 通过技术手段建立和数据源的通道,用于抽取和加载数据。数据管道中将定义数据的位置、内容、采集方式。

数据集成: 包含了数据管道,最核心的是处理引擎。处理引擎将协调数据管道,通过 Pipeline 方式把数据管道组织起来,对来源数据进行抽取、组合、转换,并加载到目标存储。

二、挑战点:

  1. 异构特性: 由于数据源是独立开发的,数据模型异构,对数据集成造成非常大的挑战,需要在类型转换上做一些处理。
  2. 数据一致性: 需要保证采集过来的数据必须和原数据一致,比如格式转换上不能出问题、时间精度不能丢失等。
  3. 重复、冲突数据处理: 不能把重复的数据加载到目标存储上,不仅会给日后的数据关联造成极大的影响,也会影响数据分析与挖掘的效果,应尽量避免。
  4. 异常重试及中止机制: 各个数据源的数据由于快速迭代或者系统BUG,导致存在一些异常数据或数据模型变化,导致数据集成异常,需要有告警和干预机制
  5. Pipeline: 由于数据管道众多,有一些数据管道存在先后调度关系,需要有一套类似 airflow 可编排任务的 pipeline
  6. 进度可观察: 对于各个管道的数据处理进度可衡量,可观察
  7. 弹性调度: 在处理批量或流式等不同任务时,可根据实际需要进行弹性调度,目前一般基于Flink来实现,也有自己实现的弹性调度机制。
  8. 数据源和目标存储监控机制: 无论是CDC还是批量查询等方式,都会对数据源有一些压力,有一些性能的消耗,需要有监控机制。如控制不当,特别是对数据库会产生很高的IOPOS,导致影响了正常业务系统的执行。

三、总结:

数据集成系统,看似简单,其实一点也不简单。目前Flink的生态比较全,有很多CDC Connector,基于 Flink 开发集成系统是个不错的选择。

展开阅读全文

页面更新:2024-05-20

标签:管道   数据   数据源   数据处理   弹性   加载   异常   机制   目标   关系   系统

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top