数据集成与数据管道的关系

一、区别

上图来自 tapdata (一款优秀的数据集成系统)，该图很明显的诠释了数据集成和数据管道的关系。

数据管道：通过技术手段建立和数据源的通道，用于抽取和加载数据。数据管道中将定义数据的位置、内容、采集方式。

数据集成：包含了数据管道，最核心的是处理引擎。处理引擎将协调数据管道，通过 Pipeline 方式把数据管道组织起来，对来源数据进行抽取、组合、转换，并加载到目标存储。

二、挑战点：

异构特性：由于数据源是独立开发的，数据模型异构，对数据集成造成非常大的挑战，需要在类型转换上做一些处理。
数据一致性：需要保证采集过来的数据必须和原数据一致，比如格式转换上不能出问题、时间精度不能丢失等。
重复、冲突数据处理：不能把重复的数据加载到目标存储上，不仅会给日后的数据关联造成极大的影响，也会影响数据分析与挖掘的效果，应尽量避免。
异常重试及中止机制：各个数据源的数据由于快速迭代或者系统BUG，导致存在一些异常数据或数据模型变化，导致数据集成异常，需要有告警和干预机制
Pipeline：由于数据管道众多，有一些数据管道存在先后调度关系，需要有一套类似 airflow 可编排任务的 pipeline
进度可观察：对于各个管道的数据处理进度可衡量，可观察
弹性调度：在处理批量或流式等不同任务时，可根据实际需要进行弹性调度，目前一般基于Flink来实现，也有自己实现的弹性调度机制。
数据源和目标存储监控机制：无论是CDC还是批量查询等方式，都会对数据源有一些压力，有一些性能的消耗，需要有监控机制。如控制不当，特别是对数据库会产生很高的IOPOS，导致影响了正常业务系统的执行。

三、总结：

数据集成系统，看似简单，其实一点也不简单。目前Flink的生态比较全，有很多CDC Connector，基于 Flink 开发集成系统是个不错的选择。

展开阅读全文

页面更新：2024-05-20

标签：管道数据数据源数据处理弹性加载异常机制目标关系系统

科学家可能找到了冬季气温下降时人们更容易感冒和流感的原因

一组研究人员可能终于找到了为什么人们在冬季气温下降时更容易患感冒和流感的原因。科学家们的同行们称这项新研究是一项突破，它揭示了气温下降与免疫系统减弱之间的联系。斯坦福大学耳鼻喉科专家扎拉·帕特尔告诉CNN：

我靠，比想象快！核聚变里程碑式突破，人类将告别化石能源时代？

美国能源部官员于美国当地时间2022年12月13日宣布，由美国政府资助的加利福尼亚劳伦斯·利弗莫尔国家实验室（Lawrence Livermore National Laboratory，以下简称LLNL）首次成功地在核聚变反应中实现了“净能量增益”，即聚变反

汽车传感器行业深度：市场展望、种类细分、产业链等深度梳理

传感器技术被广泛地应用在日常信息、通信、汽车、医疗等外围精密设备上，其中汽车传感器产品最为突出。汽车传感器对实现高级别自动驾驶尤为重要。在现阶段，多种传感器各有其特点，难以互相替代，而数据多来源会让最终的感知

科技巨头频遭美欧反垄断调查

随着2020年疫情的爆发，人们的生活习惯发生很大的改变，数字化、虚拟化得到加速，这也给了科技巨头迅速扩张的机会。科技巨头的发展愈加强者越强。在得到了扩张的机会之后，科技巨头也时常发动“钞能力”，收购企业，这也受到了世

2022年热门新能源车型盘点，适合二胎家庭的中大型SUV

2022年已近尾声，在这一年最后的一个月里，是车企冲击销量、消费者节前购车的重要时期。在今年，车企为迎合消费者对大空间、更多人乘坐的需求，上市了多款中大型新能源SUV车型，这些车型里针对二胎家庭的六座车型为主，动力类型

向新而生！一加9周年活动将有惊喜爆料？回顾历代产品更加期待

时间过得真快，一加手机自2013成立已经走过9年了，从一加1开始到现在热销的一加10系列，一加收获了太多忠实的加油。近日，一加官微官宣将在12月17日举办主题为“向新而生”的九周年线上庆祝活动，以新方向，新动作，新未来，共同见证

配送员用8个身份证注册8个账户，竟都通过了平台认证

现在生活中，骑手小哥成了不可缺少的部分，很多人网购已经成为习惯，不管是叫外卖还是同城送货，都可以在软件上下单，让骑手来帮我们送达。从软件上，大家也可以很清楚地看到，是谁在帮我送东西，送到了哪里。很多时候，大家对骑手的信

（财经·行情）国际油价15日下跌

新华社纽约12月15日电（记者刘亚南）国际油价15日下跌。截至当天收盘，纽约商品交易所2023年1月交货的轻质原油期货价格下跌1.17美元，收于每桶76.11美元，跌幅为1.51%；2023年2月交货的伦敦布伦特原油期货价格下跌1.49美元，收于每

上海电信携手华为打造“固移融合翼联专线”解决方案

近日，中国电信上海公司（“上海电信”）在交通银行总行、上海、浙江等多个分行以及下辖支行网点，成功部署了“专线+5G”固移融合翼联专线方案，建成了全国首张融合了金融行业固网专线和5G专线的、可靠性超高的广域金融专网。

首届粤港澳大湾区（广东）统计论坛在深举办，加快构建“大统计”格局

12月15日，第一届粤港澳大湾区（广东）统计论坛在深圳举办。论坛主题为“湾区统计合作、携手创新发展”，设深圳线下主会场和北京、广州、香港、澳门等线上分会场。据悉，2021年粤港澳大湾区世界500强企业达25家，高新技术企业5.7

对话泡泡玛特王宁：应对新环境，只吃七分饱

一家低调十年的公司“一夜”长大，它如何走向成熟？图/视觉中国文 |《财经》记者管艺雯编辑 | 黄俊杰年少立业的企业家通常有两种起点：一种是名校毕业，野心大愿景大，起家时就接触同样好资历的风险投资人，站上杠杆搭建一座理

有了一汽和上汽，大众在中国为什么还需要“第三个大众”？

75%控股、100%管理运营权，这应该是大众安徽之于大众的意义，最简洁的表述。而这背后，是大众在中国，获得了一个与大众总部、大众中国职能部门设立完全一致、可以完全掌控的实体，获得了一个加速集团在中国市场转型的新试验田，

吴问中西：鞍本重组初见成果，稳步向世界一流钢铁企业迈进

日前，鞍钢集团举办了鞍本钢整合重组一周年线上新闻发布会，宣布鞍本重组成功，构建了中国钢铁产业新格局，成为国企改革三年行动标志性案例。整合一年来，集团完成了590项整合融合任务，实现了从规模体量到质量效益的全面提升，取

世界品牌实验室发布2022年世界品牌500强，45个中国品牌入选

采访对象供图（下同）新民晚报讯（记者张钰芸）由世界品牌实验室(World Brand Lab)独家编制的2022年度(第十九届)《世界品牌500强》排行榜于12月15日在美国纽约揭晓。去年排名第四的苹果(Apple)跃居第一；微软(Microsoft)击败

2022年11月份70个大中城市商品住宅销售价格变动情况

来源：统计微讯

上滑加载更多 ↓

推荐阅读：

数据图解丨网上零售占比持续提升！1-11月份社会消费品零

以党的二十大精神为引领，推动梅州农商行系统高质量发展

最长久的关系：能量对等，频率相似，灵魂相依

11月金融数据值得关注的四大信号

原神：秋津森夜试胆会攻略，先人一步了解机制，更快拿满原石

同时安装win11和win10，让你的电脑轻松实现多系统运行

美的被病毒勒索1000万美金，派安保强制关机所有内部系统

三大电信运营商删除行程卡用户数据保障个人信息安全

元一交易 - 深度智控获汇川产投战略投资，携手推进双碳

收到混管核酸检测结果异常短信，该怎么办？

友情链接：

更多：

本站资料均由网友自行发布提供，仅用于学习交流。如有版权问题，请与我联系，QQ：4156828

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top