数据仓库的特点
数据仓库具有以下特征:
面向主题
数据仓库以主题为导向,因为它提供有关主题的信息,而不是公司正在进行的操作。 这些主题可以是销售,营销,分发等。
数据仓库从不关注正在进行的操作。 相反,它强调建模和分析数据以供决策 。 它还通过排除无助于支持决策过程的数据,提供围绕特定主题的简单而简洁的视图。
集成
在数据仓库中,集成意味着为来自不同数据库的所有类似数据建立公共测量单位。 数据还需要以通用和普遍接受的方式存储在Datawarehouse中。
数据仓库是通过集成来自各种来源的数据(如大型机,关系数据库,平面文件等)而开发的。此外,它必须保持一致的命名约定,格式和编码。
集成有助于有效分析数据。 必须确保命名约定,属性度量,编码结构等的一致性。 请考虑以下示例:
图片.png
在上面的示例中,有三个不同的应用程序标记为A,B和C.存储在这些应用程序中的信息是Gender,Date和Balance。 但是,每个应用程序的数据都以不同的方式存储。
转换和清理过程之后,所有这些数据都以通用格式存储在数据仓库中。
时变
与操作系统相比,数据仓库的时间范围非常广泛。 在数据仓库中收集的数据在特定时期内被识别,并从历史角度提供信息。 它包含显式或隐式的时间元素。
Datawarehouse数据显示时间差异的一个地方是记录键的结构。 DW中包含的每个主键都应该隐式或显式地包含时间元素。比如日期,周月等
时间差异的另一个方面是,一旦将数据插入仓库,就无法更新或更改。
非易失性
数据仓库也是非易失性的,意味着在输入新数据时不会删除先前的数据。
数据是只读的并定期刷新。 这也有助于分析历史数据并了解发生的情况和发生时间。 它不需要事务处理,恢复和并发控制机制。
在数据仓库环境中,省略了在操作应用程序环境中执行的删除,更新和插入等活动。 在数据仓库中只执行两种类型的数据操作
这里是Application和Data Warehouse之间的一些主要区别
运营应用 数据仓库 必须对复杂程序进行编码,以确保数据升级过程保持最终产品的高度完整性。 由于不会数据更新,因此不会发生此类问题。 数据以标准化形式放置,以确保最小的冗余。 数据不以标准化形式存储。 支持事务,数据恢复,回滚和解决死锁非常复杂 相对简单的技术。 数据仓库架构
Datawarehouse架构主要有三种类型:
单层的目标是最小化存储的数据量。 此目标是删除数据冗余。 在实践中并不经常使用。
双层架构将物理可用的源和数据仓库分开。 不可扩展,也不支持大量最终用户。 由于网络限制,它还存在连接问题。
这是使用最广泛的架构。
它由顶层,中层和底层组成。
底层: Datawarehouse服务器的数据库作为底层。 它通常是关系数据库系统。 使用后端工具清理,转换数据并将其加载到此层中。
中间层:数据仓库中的中间层是使用ROLAP或MOLAP模型实现的OLAP服务器。 对于用户,此应用程序层提供数据库的抽象视图。 该层还充当最终用户和数据库之间的中介。
顶级:顶层是前端客户端层。 顶层是您连接并从数据仓库中获取数据的工具和API。 它可以是查询工具,报告工具,托管查询工具,分析工具和数据挖掘工具。
Datawarehouse组件
图片.png
数据仓库基于RDBMS服务器,该服务器有中央信息存储库及一些关键组件,使整个环境可管理和可访问
数据仓库主要有五个组件:
数据仓库数据库
中央数据库是数据仓库环境的基础。 该数据库是在RDBMS技术上实现的。 尽管如此,传统的RDBMS系统针对事务数据库处理而非数据仓库进行了优化,这种实现受到限制。 例如,特殊查询,多表连接,聚合是资源密集的,会降低性能。
因此,数据库的替代方法如下:
获取,清理和转换工具(ETL)
数据源,转换和迁移工具用于执行所有转换, 它们也称为提取,转换和加载(ETL)工具。
他们的功能包括:
这些Extract,Transform和Load工具可以生成定期更新数据仓库中数据的cron作业,后台作业,Cobol程序,shell脚本等。
这些ETL工具必须应对数据库和数据异构性的挑战。
元数据
元数据是关于定义数据仓库的数据的数据。 它用于构建,维护和管理数据仓库。
在数据仓库体系结构中,元数据在指定数据仓库数据的来源,用法,值和功能时起着重要作用。 它还定义了如何更改和处理数据。它与数据仓库紧密相连。
例如,销售数据库中的一行可能包含:
4030 KJ732 299.90
在没有Meta的情况系是毫无意义的数据。
Model number: 4030 Sales Agent ID: KJ732 Total sales amount of $299.90
元数据有助于回答以下问题
元数据可以分为以下几类:
查询工具
数据仓库的主要目标之一是为企业提供信息以做出战略决策。 查询工具允许用户与数据仓库系统进行交互。
这些工具分为四类:
1.查询和报告工具:
查询和报告工具可以进一步分为
报告工具:报告工具可以进一步分为生产报告工具和桌面报告编写器。
托管查询工具:
这种访问工具通过在用户和数据库之间插入元层,帮助最终用户解决数据库,SQL和数据库结构中的障碍。
2.应用程序开发工具:
有时内置的图形和分析工具无法满足组织的分析需求。 在这种情况下,使用应用程序开发工具开发自定义报告。
3.数据挖掘工具:
数据挖掘是通过挖掘大量数据来发现有意义的新关联,模式和趋势的过程。 数据挖掘工具用于自动完成此过程。
4. OLAP工具:
这些工具基于多维数据库的概念。 它允许用户使用精细复杂的多维视图分析数据。
数据仓库总线架构
数据仓库总线确定仓库中的数据流。 数据仓库中的数据流可以分为流入,上流,下流,流出和元流。
在设计数据总线时,需要考虑数据集市中的共享维度和事实。
数据集市
数据集市是一个访问层,用于将数据输出给用户。 它作为大型数据仓库的选项提供,因为它需要更少的时间和金钱来构建。 但是,没有数据集市的标准,定义因人而异。
简而言之,Data mart是数据仓库的子集。 数据集市用于为特定用户组创建的数据分区。
数据集市可以在与Datawarehouse相同的数据库中创建,也可以在物理上独立的数据库中创建。
数据仓库架构最佳实践
要设计数据仓库架构,您需要遵循以下给定的最佳实践:
摘要:
本教程目录:https://www.jianshu.com/c/dde4ef0f60a0
页面更新:2024-04-26
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号