数据仓库快速入门教程2架构

数据仓库的特点

数据仓库具有以下特征:

面向主题

数据仓库以主题为导向,因为它提供有关主题的信息,而不是公司正在进行的操作。 这些主题可以是销售,营销,分发等。

数据仓库从不关注正在进行的操作。 相反,它强调建模和分析数据以供决策 。 它还通过排除无助于支持决策过程的数据,提供围绕特定主题的简单而简洁的视图。

集成

在数据仓库中,集成意味着为来自不同数据库的所有类似数据建立公共测量单位。 数据还需要以通用和普遍接受的方式存储在Datawarehouse中。

数据仓库是通过集成来自各种来源的数据(如大型机,关系数据库,平面文件等)而开发的。此外,它必须保持一致的命名约定,格式和编码。

集成有助于有效分析数据。 必须确保命名约定,属性度量,编码结构等的一致性。 请考虑以下示例:

数据仓库快速入门教程2架构

图片.png

在上面的示例中,有三个不同的应用程序标记为A,B和C.存储在这些应用程序中的信息是Gender,Date和Balance。 但是,每个应用程序的数据都以不同的方式存储。

转换和清理过程之后,所有这些数据都以通用格式存储在数据仓库中。

时变

与操作系统相比,数据仓库的时间范围非常广泛。 在数据仓库中收集的数据在特定时期内被识别,并从历史角度提供信息。 它包含显式或隐式的时间元素。

Datawarehouse数据显示时间差异的一个地方是记录键的结构。 DW中包含的每个主键都应该隐式或显式地包含时间元素。比如日期,周月等

时间差异的另一个方面是,一旦将数据插入仓库,就无法更新或更改。

非易失性

数据仓库也是非易失性的,意味着在输入新数据时不会删除先前的数据。

数据是只读的并定期刷新。 这也有助于分析历史数据并了解发生的情况和发生时间。 它不需要事务处理,恢复和并发控制机制。

在数据仓库环境中,省略了在操作应用程序环境中执行的删除,更新和插入等活动。 在数据仓库中只执行两种类型的数据操作

  1. 数据加载
  2. 数据访问

这里是Application和Data Warehouse之间的一些主要区别

运营应用 数据仓库 必须对复杂程序进行编码,以确保数据升级过程保持最终产品的高度完整性。 由于不会数据更新,因此不会发生此类问题。 数据以标准化形式放置,以确保最小的冗余。 数据不以标准化形式存储。 支持事务,数据恢复,回滚和解决死锁非常复杂 相对简单的技术。 数据仓库架构

Datawarehouse架构主要有三种类型:

单层的目标是最小化存储的数据量。 此目标是删除数据冗余。 在实践中并不经常使用。

双层架构将物理可用的源和数据仓库分开。 不可扩展,也不支持大量最终用户。 由于网络限制,它还存在连接问题。

这是使用最广泛的架构。

它由顶层,中层和底层组成。

底层: Datawarehouse服务器的数据库作为底层。 它通常是关系数据库系统。 使用后端工具清理,转换数据并将其加载到此层中。

中间层:数据仓库中的中间层是使用ROLAP或MOLAP模型实现的OLAP服务器。 对于用户,此应用程序层提供数据库的抽象视图。 该层还充当最终用户和数据库之间的中介。

顶级:顶层是前端客户端层。 顶层是您连接并从数据仓库中获取数据的工具和API。 它可以是查询工具,报告工具,托管查询工具,分析工具和数据挖掘工具。

Datawarehouse组件

数据仓库快速入门教程2架构

图片.png

数据仓库基于RDBMS服务器,该服务器有中央信息存储库及一些关键组件,使整个环境可管理和可访问

数据仓库主要有五个组件:

数据仓库数据库

中央数据库是数据仓库环境的基础。 该数据库是在RDBMS技术上实现的。 尽管如此,传统的RDBMS系统针对事务数据库处理而非数据仓库进行了优化,这种实现受到限制。 例如,特殊查询,多表连接,聚合是资源密集的,会降低性能。

因此,数据库的替代方法如下:

获取,清理和转换工具(ETL)

数据源,转换和迁移工具用于执行所有转换, 它们也称为提取,转换和加载(ETL)工具。

他们的功能包括:

这些Extract,Transform和Load工具可以生成定期更新数据仓库中数据的cron作业,后台作业,Cobol程序,shell脚本等。

这些ETL工具必须应对数据库和数据异构性的挑战。

元数据

元数据是关于定义数据仓库的数据的数据。 它用于构建,维护和管理数据仓库。

在数据仓库体系结构中,元数据在指定数据仓库数据的来源,用法,值和功能时起着重要作用。 它还定义了如何更改和处理数据。它与数据仓库紧密相连。

例如,销售数据库中的一行可能包含:

4030 KJ732 299.90

在没有Meta的情况系是毫无意义的数据。

Model number: 4030
Sales Agent ID: KJ732
Total sales amount of $299.90

元数据有助于回答以下问题

元数据可以分为以下几类:

  1. 技术元数据 :此类元数据包含有关数据仓库设计人员和管理员使用的仓库的信息。
  2. 业务元数据:这种元数据包含详细信息,为最终用户提供了理解存储在数据仓库中的信息的方式。

查询工具

数据仓库的主要目标之一是为企业提供信息以做出战略决策。 查询工具允许用户与数据仓库系统进行交互。

这些工具分为四类:

  1. 查询和报告工具
  2. 应用开发工具
  3. 数据挖掘工具
  4. OLAP工具

1.查询和报告工具:

查询和报告工具可以进一步分为

报告工具:报告工具可以进一步分为生产报告工具和桌面报告编写器。

  1. 报告编写者:这种报告工具是为最终用户进行分析而设计的工具。
  2. 生产报告:这种工具允许组织生成定期的运营报告。 它还支持大批量批量作业,如打印和计算。 一些流行的报告工具:Brio,Business Objects,Oracle,PowerSoft,SAS Institute。

托管查询工具:

这种访问工具通过在用户和数据库之间插入元层,帮助最终用户解决数据库,SQL和数据库结构中的障碍。

2.应用程序开发工具:

有时内置的图形和分析工具无法满足组织的分析需求。 在这种情况下,使用应用程序开发工具开发自定义报告。

3.数据挖掘工具:

数据挖掘是通过挖掘大量数据来发现有意义的新关联,模式和趋势的过程。 数据挖掘工具用于自动完成此过程。

4. OLAP工具:

这些工具基于多维数据库的概念。 它允许用户使用精细复杂的多维视图分析数据。

数据仓库总线架构

数据仓库总线确定仓库中的数据流。 数据仓库中的数据流可以分为流入,上流,下流,流出和元流。

在设计数据总线时,需要考虑数据集市中的共享维度和事实。

数据集市

数据集市是一个访问层,用于将数据输出给用户。 它作为大型数据仓库的选项提供,因为它需要更少的时间和金钱来构建。 但是,没有数据集市的标准,定义因人而异。

简而言之,Data mart是数据仓库的子集。 数据集市用于为特定用户组创建的数据分区。

数据集市可以在与Datawarehouse相同的数据库中创建,也可以在物理上独立的数据库中创建。

数据仓库架构最佳实践

要设计数据仓库架构,您需要遵循以下给定的最佳实践:

摘要:

本教程目录:https://www.jianshu.com/c/dde4ef0f60a0

展开阅读全文

页面更新:2024-04-26

标签:多维   架构   数据仓库   集市   应用程序   组件   入门教程   过程   快速   关系   数据库   时间   工具   报告   主题   数据   科技   信息

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top