全方位解读数据治理,理清90%的混淆概念(下)

数据目录、数据分类、数据标签

1. 数据资源目录

数据资源目录,最早是政务领域提出的概念,是为了“数据需求方使用数据而提供的检索支持”。数据资源目录的原始驱动力是“政务数据资源共享”,是面向数据使用者的。工程实践落地,是从2005年国家政务数据交换、目录体系、四大库试点开始的,并在2007年正式发布国标:《GB/T 21063-2007 政务信息资源目录体系》。

政务数据资源目录是通过对政务信息资源依据规范的元数据描述,按照一定的分类方法进行排序和编码的一组信息,用以描述各个政务信息资源的特征,以便于对政务信息资源的检索、定位与获取。

2007年的国标给出的标准定义,站在现在政务数据治理的高度来看,原来的“目录体系”建设,仅仅是个工具而已,已经很单薄了,当前的“数据资源目录”,实际上可以和“数据资产管理”和“数据服务”结合在一起,才能有更好的发展前景。

2. 数据分类

数据分类就是把具有某种共同属性或特征的数据归并在一起,通过其类别的属性或特征来对数据进行区别。换句话说,就是相同内容、相同性质的信息以及要求统一管理的信息集合在一起,而把相异的和需要分别管理的信息区分开来,然后确定各个集合之间的关系,形成一个有条理的分类系统。——百度百科

3. 数据标签

数据标签是对数据实体特征的符号表示,每一个数据标签都是我们认识、观察和描述数据实体的一个角度。商品有标签,例如衣服的标签中包含了衣服的款式、尺码、面料、清洗方式等信息。人也有标签,例如人的性别、年龄、地区、兴趣爱好、产品偏好、购买力、忠诚度等。

数据标签也是可以分类的,例如:

  • 可以按变化频率可分为动态标签、静态标签;
  • 按评估的方式不同,分为定量指标和定性指标;
  • 按来源不同,分为基础标签、业务标签、智能标签等。
  • 在实际的数据资产管理中,数据资源目录、数据分类、数据标签是相互配合、相辅相成的。建立良好的数据资源目录的第一步就是明确数据资源的分类,根据数据分类去组织资源、编目,之后是为数据资源打上数据标签,让数据资源更贴近用户、更容易管理,以便充分发挥出数据的价值。

    全方位解读数据治理,理清90%的混淆概念(下)

    数据模型、数据结构、数据字典

    1. 数据模型

    数据(Data)是描述事物的符号记录,模型(Model)是现实世界的抽象,数据模型(Data Model)是数据特征的抽象和描述。专业的术语总是抽象的,我们举个例子,假如你去买房子,就会看到两个模型,一个是楼盘模型,另一个是户型模型(户型图)。

    楼盘模型描述了楼盘规划、小区位置、小区绿化、交通条件、周边的配套设施(幼儿园、学校、医院等)、未来楼盘发展等等。户型模型描述了房子有几室几厅、几个阳台,哪里是门,哪里是墙,哪里是窗户,每个房间的平米数是多少,甚至是屋子里的布局全部都用各种符号表示得清清楚楚。

    就如楼盘模型描述楼盘,户型模型描述房子一样,数据模型是用来描述数据的一组简单易懂便于计算机实现的符号的集合。

    2. 数据结构

    数据结构是指相互之间存在一种或多种特定关系的数据元素的集合。一般认为数据结构是构成数据模型的三个要素之一。数据模型一般会分为概念模型、逻辑模型、物理模型,而数据的逻辑结构、物理结构是与逻辑模型、物理模型对应的。

    逻辑结构反映数据元素之间的数据关系,包含数据元素的层次关系、关联关系,不包含数据在计算机中的存储位置;数据的物理结构是指数据的逻辑结构在计算机存储空间的存放形式。如果还拿房子举例的话,我认为说户型模型或者户型结构都是没有问题的。

    3. 数据字典

    数据字典是指对数据的数据项、数据结构、数据流、数据存储、处理逻辑、外部实体等进行定义和描述,这个是数据字典的标准定义。但是,目前的实际使用中对数据字典有两种不同的说法或用法。

    一种说法是:在软件工程中,数据字典是作为分析阶段的工具,供人查询对不了解的条目的解释,例如:描述某个数据表中都包含了哪些数据项,某个数据项的业务含义是什么等。另外一个说法是:对基础数据参照的管理,我们还拿房子举例,一个房子的数据字典,包括,房屋的朝向:东,南,西,北,东西,南北等;房屋的户型:两室一厅,三室一厅,两室二厅,三室两厅等;房屋的性质:经济适用房,房改房,商品房等。

    如果按第一种说法理解数据字典,其实本质上和数据模型没有什么区别,只是叫法不同而已。如果按第二种说法理解,似乎叫参照数据管理也没什么不妥。到底该怎么理解?这可能就“仁者见仁智者见智”了。

    数据仓库、数据湖、数据工厂、数据中台

    1. 数据仓库

    数据仓库(Data Warehouse)是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策和信息的全局共享。所谓面向主题,是指根据使用者实际需求,将不同数据源的数据在一个较高的抽象层次上做整合,所有数据都围绕某一主题来组织,例如:采购主题、生产主题、客户主题、销售主题等。

    所谓集成性,是指数据仓库中存储的数据是来源于多个数据源的集成、汇总。由于原始数据来自不同的数据源,存储方式各不相同。要整合成为最终的数据集合,需要从数据源经过一系列抽取、清洗、转换的过程。所谓相对稳定,是指数据仓库中存储的数据一般为“既成事实”的数据,也可理解为历史数据的一个快照,只做查询分析用,不允许修改。

    所谓反映历史变化,是指数据仓库根据不断集成新的主题数据,反应出该主题的数据变化情况,例如:销售业绩完成情况。

    2. 数据湖

    数据湖是将来自不同数据源、不同数据类型(结构化、半结构化、非结构化)的数据,以原始格式存储进行存储的系统,它按原样存储数据,而无需事先对数据进行结构化处理。

    有人认为数据湖是数据仓库的PLUS版,增强了数据存储的能力。而实际上,数据湖不简单是数据仓库一个技术上的升级,更重要的是数据管理思维的升级。数据仓库是需要事先定义好数据结构,然后是报表取数。而大数据的发展,数据形式越发多样化,传统数仓这种定义数据结构、取数、出表的模式,已经很难满足业务上的需求了。

    因此,数据湖以原始格式存储各种类型数据,以及按需进行数据结构化处理、数据清理、提供数据服务,以更加灵活的方式支持多种应用场景的能力越来越受到人们的欢迎。

    全方位解读数据治理,理清90%的混淆概念(下)

    3. 数据工厂

    前边提到的数据仓库和数据湖,重点侧重于数据的存储,本质上是“原材料”的存储系统,而要让数据发挥价值,就必须将这个“原材料”需要加工成用户需要的“产品”。数据工厂就是根据用户的需求,将原始数据进行加工、处理、清洗、转换、汇总等各种加工工序,生产出能够被用户直接使用的数据产品。

    数据工厂包含了多种数据处理的工具,以满足不同处理工序的作业需要,例如:数据源连接、数据同步、数据清洗、数据转换、数据工作流、数据目录、数据服务等等。

    4. 数据中台

    其实,如果从功能构件上来讲,我认为:数据中台就是数据湖+数据工厂的一个综合。但不同的是数据中台更注重数据应用,离业务更近,强调一个快速敏捷。

    数据中台不仅关注原始数据的存储及处理加工,更侧重将数据处理过程中,常用的逻辑、算法、标签、模型进行沉淀,而形成一系列的“数据半成品”,然后根据前台业务的需要,快速生产出用户需要的“数据产品”。数据中台能力强弱,要看这个“数据半成品”积累的多少了。

    在数据生产的整个链条中,对于如何筑湖、如何选址建厂、按什么工序加工、以及如何配送,这是技术部门的事情,而“数据半成品”的沉淀和积累,却不是技术能决定的了。因此,数据中台的建设更强调需求驱动、业务主导。

    数据指标、数据维度、数据度量

    数据治理的目标是让数据更好的使用,而数据的应用和分析的过程就不得不理一下:数据指标、数据维度、数据度量这几个概念了。

    1. 数据指标

    数据指标是用数据表示,用来衡量对象目标的参数或预期中打算达到的指数、规格、标准,是具有(业务)意义的指向和标杆。数据指标分为基础指标和衍生指标,基础指标是指表达业务实体原子量化属性的且不可再分的指标,如交易笔数、交易金额、在线用户数等;衍生指标是在基础指标的基础上,通过添加一个或多个统计维度形成新的指标、或通过不同指标进行运算而形成新的指标,如平均购买金额、生产计划完成值,累计问题数、同比、环比、占比等。

    2. 数据维度

    关于“维度”网上很多人给出的定义是这样的:“维度可指定不同值的对象的描述性属性或特征”。不知道大家能不能看懂,如果只看这段文字,我是一脸懵逼的。我理解的维度就是观察和分析事物或指标不同角度,例如:销售额这个指标,可以按时间周期(当日、周、月、季度、年度)进行分析,也可以按照产品类型(A产品销售额、B产品销售额…)分析,也可以按地理位置(北京销售额、上海销售额…)分析,还可以按销售主体(a部门销售额、b部门销售额)分析等等。

    3. 数据度量

    最后说下度量。度量是被聚合(观察)的统计值,也就是聚合运算的结果,维度其实可以理解成一种分类的方式,或者叫做标签,而度量往往是一个计算出来的数值。度量可以是指标的度量衡也可以是针对指标的某个维度的度量,例如上边例子中,销售额的度量是金额,当月销售金额也是度量。

    度量、维度、指标不是固定的,在一定的应用场下度量可以转化为维度,维度也可以转化为指标。篇幅问题,有关度量、维度、指标的转化这里就不展开了。

    文章部分素材源自:谈数据

    展开阅读全文

    页面更新:2024-05-23

    标签:数据   维度   数据结构   数据源   度量   销售额   字典   政务   数据仓库   模型   指标   概念   标签   目录   主题

    1 2 3 4 5

    上滑加载更多 ↓
    推荐阅读:
    友情链接:
    更多:

    本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

    © CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
    闽公网安备35020302034903号

    Top