搞不懂数据仓库和数据湖的区别,差点被开除,幸好看到了这篇!

数据湖是什么?数据仓库是什么?数据湖会取代数据仓库吗?

近几年大数据的概念确实很多,也一直有人在问,但大多数文章讲的比较专业,很多人看完仍旧糊里糊涂。

本人在大数据领域干了七八年了,这些东西本来也都有,只是现在给它取了个名字,再加上互联网的传播,一时间变“牛逼”了不少。什么仓啊、湖啊、中台

啊,名字都挺唬人的,但都很好理解。

这篇就来解释一下“数据湖”、“数据仓库”这两种概念到底有什么不同以及数据湖是否会取代数据仓库,希望对大家能有所帮助,当然大家有更深入的理解也欢迎评论区讨论指正。

什么是数据湖?

图片来源于网络

看图,数据湖就是一个集中存储数据的存储库,可以在里面存储任意规模的所有结构化和非结构化数据。

很好理解,公司的运转的过程中会产生很多形式的数据,像监控视频、ERP的生产数据、在线交易数据等,这些数据现在可能没用,但万一以后要用呢?所以企业就找个地方,把这些数据全都存放起来,等要用的时候直接从这里面拿就行。

在数据湖中存储数据,不需要对其进行结构化,就可以运行不同类型的分析。数据湖还有非常经典的六大特点:保真性、灵活性、可管理、可分析、可追溯、可存储。乍一听这工具太牛逼了,但实际过程中很难实现。

比如“保真性”这个特点,数据湖运行的逻辑就是业务系统中有的数据,那数据湖也要有一份“一模一样”的完整拷贝。业务数据是实时变化的,要做到跟随业务系统数据实时变化的技术就复杂了,比如数据写入数据湖的时候要保证ACID,要高效支持upsert /delete历史数据,要能容忍数据频繁导入文件系统上产生的大量的小文件(显然HDFS就不行了)。

Delta、iceberg和hudi等开源数据湖就是一些特定技术解决方案,但很多企业连hadoop生态还没搞通搞透呢,又搞出这么多技术,而且还没有统一标准,很让人头大。

说了这么多,总之一句话:数据湖挺好,但没有强大的数据处理能力就别用了。

什么是数据仓库?

图片来源于网络

依旧看图,数据仓库可以认为是在原有数据库的基础上,对数据进行加工(抽取、转化、加载),得出能够被业务人员直接进行分析的业务数据包。

这也很好理解,不同的业务部门使用不同的业务系统,系统之间数据不共通,指标混乱。但实际业务进行分析的时候通常涉及多个业务系统数据,取数、整理数据非常耗费时间。这时候就需要用到数据仓库,先把不同业务系统中的数据预先处理好,以业务数据包的形式存放在数据仓库里,业务需要分析的时候直接就能使用

通常来说,数据仓库里都是结构化的数据,它的价值也在于帮助企业把运营数据转化成为高价值的可以获取的信息,并且在恰当的时间通过恰当的方式把恰当的信息传递给恰当的人。一般来说,数据仓库基本和BI一起搭配使用,前者把数据处理好,后者进行前端数据分析展示。

但还是要提一句,数据仓库针对实时数据处理和非结构化数据处理能力较弱,以及在业务预警预测等方面应用有一定的限制

数据湖是否会取代数据仓库?

看完上面的概念,你们自己也有答案了:不能。

数据湖和数据仓库区别很大。

形象点说,如果说数仓里是瓶装的水——打包好的、方便取用的;那么数据湖里面就是原生态的水——它是未经处理的。如果你硬要喝湖里的水,不怕拉肚子的话随便喝。

言归正传,数据湖的产生是为了存储所有数据,在需要使用的时候快速找到源数据并使用。而数据仓库更多的是支撑企业决策、分析、计划和响应。

题外话,现在几乎不会谈论取代问题,现在更多谈论的是融合,如何实现“湖仓一体”。

今天先写到这,关于“湖仓一体”的文章后续再更新,看完别忘了点赞,也欢迎评论交流~

最后给大家分享一款ETL工具,主要是做“实时数据同步”和“离线数据处理”的,用的是BS端,通过快速连接、高时效融合多种异构数据,提供低代码Data API敏捷发布平台,帮助企业解决数据孤岛问题,提升企业数据价值,有这类需求的可以试用一下,比kettle便宜不少。

展开阅读全文

页面更新:2024-02-29

标签:数据仓库   数据   真性   数据处理   恰当   实时   区别   概念   业务   系统   企业

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top