数据仓库基础知识,「5分钟+8角度」帮你搞定

数据仓库基础知识,「5分钟+8角度」帮你搞定


SoWhat1412 | 作者

掘金 | 来源

https://github.com/SoWhat1412/xmindfile




数据仓库基础知识,「5分钟+8角度」帮你搞定


数据仓库基础知识,「5分钟+8角度」帮你搞定


1


什么是数据仓库


数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。


2


数据仓库能干什么?



例如:一个电商网站订单的完成包括:浏览、下单、支付、物流,其中物流环节可能和中通、申通、韵达等快递公司合作。快递公司每派送一个订单,都会有订单派送的确认时间,可以根据订单派送时间来分析哪个快递公司比较快捷高效,从而选择与哪些快递公司合作,剔除哪些快递公司,增加用户友好型。



3


数据仓库的特点


1. 数据仓库的数据是面向主题的


与传统数据库面向应用进行数据组织的特点相对应,数据仓库中的数据是面向主题进行组织的。什么是主题呢?首先,主题是一个抽象的概念,是较高层次上企业信息系统中的数据综合、归类并进行分析利用的抽象。


在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。面向主题的数据组织方式,就是在较高层次上对分析对象的数据的一个完整、一致的描述,能完整、统一地刻划各个分析对象所涉及的企业的各项数据,以及数据之间的联系。所谓较高层次是相对面向应用的数据组织方式而言的,是指按照主题进行数据组织的方式具有更高的数据抽象级别。说白了就个写作文一样,写什么你总的有个主题思想啊!


2. 数据仓库的数据是集成的


数据仓库的数据是从原有的分散的数据库数据抽取来的。操作型数据与分析型数据之间差别甚大。




这一步是数据仓库建设中最关键、最复杂的一步,所要完成的工作有:



3. 数据仓库的数据是不可更新的


数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一般情况下并不进行修改操作。数据仓库的数据反映的是一段相当长的时间内历史数据的内容,是不同时点的数据库快照的集合,以及基于这些快照进行统计、综合和重组的导出数据,而不是联机处理的数据。


数据库中进行联机处理的数据经过集成输入到数据仓库中,一旦数据仓库存放的数据已经超过数据仓库的数据存储期限,这些数据将从当前的数据仓库中删去。因为数据仓库只进行数据查询操作,所以数据仓库管理系统相比数据库管理系统而言要简单得多。


4. 数据仓库的数据是随时间不断变化的


数据仓库中的数据不可更新是针对应用来说的,也就是说,数据仓库的用户进行分析处理时是不进行数据更新操作的。但并不是说,在从数据集成输入数据仓库开始到最终被删除的整个数据生存周期中,所有的数据仓库数据都是永远不变的。


数据仓库的数据是随时间的变化而不断变化的,这是数据仓库数据的第四个特征。这一特征表现在以下3方面:





4


数据仓库发展历程


数据仓库基础知识,「5分钟+8角度」帮你搞定


5


数据库与数据仓库的区别


数据仓库基础知识,「5分钟+8角度」帮你搞定


6


OLTP跟OLAP


数据库与数据仓库的区别实际讲的是OLTP与OLAP的区别。




数据仓库基础知识,「5分钟+8角度」帮你搞定


7


数据仓库架构分层(重点)


1. 数据仓库架构


数据仓库标准上可以分为四层:ODS(临时存储层)、PDW(数据仓库层)、DM(数据集市层)、APP(应用层)。


数据仓库基础知识,「5分钟+8角度」帮你搞定


各个系统的元数据通过ETL同步到操作性数据仓库ODS中,对ODS数据进行面向主题域建模形成DW(数据仓库),DM是针对某一个业务领域建立模型,具体用户(决策层)查看DM生成的报表。




DW : Data Warehouse 翻译成数据仓库,DW由下到上分为 DWD、DWB、DWS。DWD:Warehouse Detail 细节数据层,有的也称为 ODS层,是业务层与数据仓库的隔离层 DWB:Data Warehouse Base 基础数据层,存储的是客观数据,一般用作中间层,可以认为是大量指标的数据层。DWS:Data Warehouse Service 服务数据层,基于DWB上的基础数据,整合汇总成分析某一个主题域的服务数据,一般是宽表。




2. 为什么要对数据仓库分层?



8


元数据介绍


当需要了解某地企业及其提供的服务时,电话黄页的重要性就体现出来了。元数据(Metadata)类似于这样的电话黄页。


1. 元数据的定义


数据仓库基础知识,「5分钟+8角度」帮你搞定


数据仓库基础知识,「5分钟+8角度」帮你搞定


数据仓库基础知识,「5分钟+8角度」帮你搞定


2. 元数据的存储方式


数据仓库基础知识,「5分钟+8角度」帮你搞定


3. 元数据的作用


数据仓库基础知识,「5分钟+8角度」帮你搞定


9


星型模型和雪花模型


在多维分析的商业智能解决方案中,根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型。在设计逻辑型数据的模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。


1. 星型模型


当所有维表都直接连接到事实表上时,整个图解就像星星一样,故将该模型称为星型模型。


数据仓库基础知识,「5分钟+8角度」帮你搞定


星型架构是一种非正规化的结构,多维数据集的每一个维度都直接与事实表相连接,不存在渐变维度,所以数据有一定的冗余,如在地域维度表中,存在国家A 省B的城市C以及国家A省B的城市D两条记录,那么国家A和省B的信息分别存储了两次,即存在冗余。


2. 雪花模型


当有一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上时,其图解就像多个雪花连接在一起,故称雪花模型。雪花模型是对星型模型的扩展。它对星型模型的维表进一步层次化,原有的各维表可能被扩展为小的事实表,形成一些局部的层次 区域,这些被分解的表都连接到主维度表而不是事实表。


如图所示,将地域维表又分解为国家,省份,城市等维表。它的优点是:通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能。雪花型结构去除了数据冗余。


数据仓库基础知识,「5分钟+8角度」帮你搞定


星型模型因为数据的冗余所以很多统计查询不需要做外部的连接,因此一般情况下效率比雪花型模型要高。星型结构不用考虑很多正规化的因素,设计与实现都比较简单。雪花型模型由于去除了冗余,有些统计就需要通过表的联接才能产生,所以效率不一定有星型模型高。


正规化也是一种比较复杂的过程,相应的数据库结构设计、数据的 ETL、以及后期的维护都要复杂一些。因此在冗余可以接受的前提下,实际运用中星型模型使用更多,也更有效率。


3. 星型模型和雪花模型对比


星形模型和雪花模型是数据仓库中常用到的两种方式,而它们之间的对比要从四个角度来进行讨论。







荐:

【中国风动漫】除了《哪吒》,这些良心国产动画也应该被更多人知道!

【中国风动漫】《雾山五行》大火,却很少人知道它的前身《岁城璃心》一个拿着十米大刀的男主夭折!

声明


来源:掘金,人工智能产业链联盟推荐阅读,不代表人工智能产业链联盟立场,转载请注明,如涉及作品版权问题,请联系我们删除或做相关处理!

展开阅读全文

页面更新:2024-03-09

标签:数据仓库   星形   粒度   维度   冗余   快照   基础知识   雪花   模型   角度   事实   操作   数据库   业务   时间   主题   数据   科技

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top