数据驱动工具的变迁简史

一部工具变迁史,道尽数据岁月长。

人间正道是沧桑,科技人文共成章。

自人类文明的曙光初现之时起,数据就以多姿多彩的形态出现在我们的生活中,而各种驱动工具也随之以不同的面目示人。从史前时代的伊尚戈骨和结绳记事,到古代文明中的算盘,从工业革命时期的机械计算机,到近代的电子计算机,从数据库、数据仓库、数据中台,再到大数据、数据飞轮及大语言模型,这些都是人类决策的基石,推动着我们不断向前,砥砺前行。

最早的数据载体——伊尚戈骨

让我们先把目光远眺史前时代。数的概念,始于原始人采集、狩猎等生产活动。旧石器时代的部落成员,通常会在树棍或者动物骨头上刻下凹槽,用以记录日常的交易活动或物品供应。通过比较树棍或骨头上凹痕的多少与变化,来进行基本的数据运算,从而可使部落首领能够对一些事情进行预测,如山洞里的食物还可维持几天,何时再去打几只野鹿等。

有迹可循的最早计数工具非伊尚戈骨(Ishango Bone)莫属了。它是发现于非洲刚果伊尚戈地区的骨头(图1),其年代大约在公元前20,000年至18,000年之间。伊尚戈骨是一条暗褐色的狒狒的腓骨,根长约15厘米,上面刻有一系列的刻痕,这些刻痕被认为是一种早期的计数系统,可能用于记录或计算。


图1 两万年前的Ishango骨

伊尚戈骨这样的计数工具,虽然简单质朴,但在两万年前,它无疑是一种很有历史价值的计算工具,为人类文明的发展打下了基础。

结绳记事的启迪

对于古人来说,手中稍微锋利的物件,也就是带刃的石头和带尖的木头,倘若要他们在坚硬的骨头或岩壁之上“雕刻”,也确实难为他们了。于是,在需求的驱动下,古人们在实践中摸索出一些更为便捷的计数方法,其中之一就是结绳计数(tying knots in ropes)。这是华夏祖先较早的发明创造。

图2 结绳记事

结绳记事就是在绳子上打一个结来表示一个数,如图2所示,“事大大其绳,事小小其绳,结之多少,随物众寡”。著名社会学家费孝通先生认为,文字产生之初的“结绳记事”,实际上是为了解决在空间和时间上人和人接触时发生的阻碍,当人们不能当面讲话交流时,才要找一些不易消失的东西来带话。

在文字尚未普及或不存在的社会里,结绳计数作为一种信息存储和传递手段具有重要意义。这种计数方式常用于记录贸易、税收、人口统计等,对于古代社会的管理和运作起到了关键作用。

计数系统的起源与发展


在远古时代,人们最重要的财产,就是狩猎之物。如何记录和分配这些财产,对部落来说,无疑是个大问题。对于一个部落的头领,不仅要知“数”,还要用“数”——根据现有猎物的数量来规划下一次规划狩猎的时期,这开启了数字影响决策的先河。

知“数”和用“数”的前提是,要有一个好用的计数系统才行。实践出真知,计数系统也不例外。部落一群人打到4头鹿,首领需要把这个数字记下来,古人最容易想到的方法,自然就是找块岩壁画上4头鹿的图形,如图3-(a)所示,这也是古代壁画的起源。

后来,专门负责画鹿的画手会“偷懒”想:为什么我非要这么实诚地画4头鹿呢,这太麻烦了!为啥不能就画一头鹿,再用斜放的树枝多少来表示鹿的数量呢,于是就出现了如图3-(b)所示的简化画法。

图3 计算系统的产生

久而久之,古代画手可能会进一步想,能不能用这种简化画法,扩展用于画4条狗(图4-(c))、4头牛、4只羊呢……,诸如此类。慢慢地,这个数字“4”就慢慢被抽象出来了,如图3-(d)所示。

再后来,人们发现当手头上的财产多了,譬如说有了27头鹿,再用这种摆树枝或划线的方法来标识数量之多少,过程就显得非常之繁琐,数量也难以做到一目了然。这就激励人们要想出一种更好的方法——于是,一个计数系统就这样呼之欲出,如图4所示。

图4 数字系统的形成

上面描述的计数流程,其实就是古罗马数字的诞生过程。从古至今,人们可能发明了很多计数系统,但延续至今还在用的,罗马数字算是佼佼者。时至今日,人们还可以在手表盘上、纪念碑上、一些图书的页码上,看到这些罗马数字。


数字和文字的发明,为记录人类的事件、知识和思想提供了符号系统。符号系统的各个元素,通过一定逻辑排列,就构成了知识的原子,它们的诞生标志着人类进入了文明社会。

古代算筹与清明上河图中的算盘

算盘( abacus),是一种古老的计算工具,它的演变历史也是数据驱动工具的缩影。在古埃及人(约公元前3100年 - 公元前2686年)时代,人们就可以使用了一种称为“算筹(Counting Sticks )”的工具(图5)。这些算筹通常是由木头、骨头或石头制成的长条形物体。

算筹最基础的用途是作为计数工具,并为奴隶主提供决策依据。古埃及人还使用算筹进行土地测量,特别是在尼罗河泛滥后,用于重新划分土地。

图5 古埃及的计数工具

计数板(counting board)是一种古老的计算工具,用于进行基础的数学运算和数据记录。它通常由木头、石头或金属制成,表面有刻度或格子,用于放置计数物(如石头或豆子)以进行计算。


图6 古希腊的计算板

现存最古老的计数板是萨拉米斯板或石板(约公元前300年),这是一块白色大理石板,于1846年在希腊萨拉米斯岛被发现(图6)。数板是最早用于普及数学计算和数据记录的工具之一。它使得不识字或不熟悉复杂数学的人也能进行基础的计算。

计数板在某种程度上进行了修改,松散的计数器被在凹槽或沿着导槽滑动的计数器所取代,从而产生了众所周知的算盘。古希腊人(约公元前1100年 - 公元前400年)就开始算盘,算盘上面有刻度和滑动珠子。税收是国家运作的重要组成部分,算盘被广泛用于记录和计算税款(图7)。

图7 高卢罗马的丧葬石碑上刻着罗马收税员用算盘计算某人的税款

在中国,算盘(Suanpan)的使用也有着悠久的历史。大名鼎鼎的《清明上河图》是中国北宋时期画家张择端创作的一幅著名长卷,它描绘了当时汴京(今天的开封)城市和农村的繁华景象。在这幅长达五米多的画卷中,有一处画面显示了市集的一角,其中包括了一些商贾和摊贩。仔细观察,你会发现其中一名商贾桌子上放着一个算盘(图8)。这个细节虽然不显眼,但生动地反映了当时算盘在商业活动中的普遍应用。

图8 出现在《清明上河图》中的算盘

《清明上河图》中的算盘的出现,是数据作为驱动力,推进了计算工具的演变的生动案例。可以想象一下,如果你是那幅画中的商贾(赵太丞),你可能需要用算盘来计算各种货物的成本、销售价格和利润,用它来进行货币兑换。算盘在你的商业决策中,扮演着不可或缺的作用。

有意思的是,这个“太丞”是官衔,即“太医丞”,在宋朝时为太医局主管医药的官员,为从七品。也就是说,赵太丞家的这个药铺,是有官方背景的。这个赵太丞就有点类似于清朝红顶商人胡雪岩。

机械计算工具的发明与演变

机械计算机的出现极大地提高了计算速度和准确性,从而推动了基于数据的科学研究和工程应用的发展。作为一种古老的计算工具,算盘主要用于进行基础的算术运算。它的计算效率完全依赖于人的操作。那能不能将人解放出来,将计算过程机械化、自动化呢?计算过程机械化和自动化的探索,主要发生西方国家。

为了帮助父亲简化税收计算,1642 年,法国数学家布莱兹·帕斯卡(Blaise Pascal) 发明的帕斯卡计算机(Pascaline),它被认为是世界上第一台机械计算器(图9)。

图9 帕斯卡的计算器

虽然 Pascaline 本身并未广泛应用,但它激发了对机械计算机和自动化计算的兴趣,为后来的计算机科学发展奠定了基础。

为了进一步提高机械计算机的可用性,1670 年代,德国哲学家和数学家莱布尼茨(Leibniz)发明了步进鼓计算器(Stepped Reckoner,图10)。莱布尼茨不仅发明了这台计算器,还对数学符号体系(如积分和微分)做出了贡献,这些都在他的计算器设计中得到了体现。步进鼓计算器被认为是计算机历史中的一个重要里程碑,因为它展示了机械设备能够执行复杂数学运算的可能性。

图10 步进鼓计算器

受前人的影响,在 1830 年代,被后世称为计算机之父的查尔斯·巴贝奇(Charles Babbage),开始设计分析机(Analytical Engine,图11)。它被认为是世界上第一台通用计算机,不仅能进行算术运算,还能进行逻辑运算。分析机开创性地引入了“存储器”(用于存储数据)和“算术单元”(用于执行计算)的概念,这两者通过“控制单元”进行协调,这些都是现代计算机架构的基础。

图11 巴贝奇的差分机(复制品)

巴贝奇的后半生一直都在不断重复地设计和改进这台机器,直到生命走到尽头,分析机依然是个半成品。虽然巴贝奇的分析机从未完全建造成功,但其设计理念和原理对 艾伦·图灵(Alan Turing) 和后来的计算机科学家产生了深远影响。

现代电子计算机的诞生

时间来到近代,电子计算机在工业生产中的应用极大地提高了生产效率和质量。为了提高生产和管理效率,人们开始将思维过程电子化和数据化。电子计算机能快速处理大量数据,进行复杂的数学运算和模拟,这对于数据分析和科学计算至关重要。

20世纪40年代,第一台电子计算机ENIAC(电子数值积分计算机)问世(图12),它是由美国工程师约翰·埃克特(John Presper Eckert)和约翰·莫奇利(John Mauchly)于1945年设计并于1946年完工。与机械计算器相比,电子计算机的计算速度和功能有了质的飞跃。

图12 埃尼阿克与早期的女“程序媛”们

ENIAC的成功运行标志着计算机科学进入了一个全新的时代,从机械计算转向电子计算。与之前的机械或电子机械计算机相比,ENIAC是第一台全电子化的通用计算机,实现了图灵完备性,这大大提高了计算速度和可靠性。虽然 ENIAC 最初是为了解决特定的军事计算问题而设计的,但其架构和设计思想对后来的计算机科学和程序设计有着重要的启示。ENIAC 的成功标志着信息时代的开始,它为后来的个人计算机、互联网和信息社会奠定了基础。

专门管理数据的功能——数据库的诞生

随着数据积累得越来越多,人们进入了信息时代。于是,新的问题又出现了,太多的数据,给人们带来的并不总是更多的洞察,还可能是迷失,因此,如何管理好、利用好这些数据,成为当务之急。于是,专门用于管理的数据工具诞生了,它就是数据库,从它的英文Database,更能体现出来它的内涵——数据(Data)的基地(Base)。

20世纪70年代,来自IBM的数学家兼计算机科学家——埃德加·科德(Edgar Codd,1923~2003,图13)投入了巨大心血,建立了关系数据库模型(图14)。然而,作为当时新兴的数据库技术——关系数据库,虽然一开始并没有得到学术界、业界重视和认可,但还是吸引了一大批识货的、爱尝鲜的IT人士的注意,其中就包括拉里·埃里森(Larry Ellison)。埃里森开办的这家公司,靠着关系数据库,为他人管理数据提供便利,为淘金者提供铲子,发了大财,现如今已成为世界上最大的数据库软件公司——Oracle(甲骨文)。

多源数据的汇集地——数据仓库的崛起

随着计算机和互联网的普及,数据量呈指数级增长,这产生了对数据管理和分析的巨大需求。企业和组织越来越大,数据越积越多,部门林立,数据通常分散在多个数据库和应用程序中,这导致数据融合成为一项巨大的挑战。

1980年代,当时业界专家Inmon和Kimball提出了数据仓库(Data Warehouse,图15)的概念,并在1990年代得到了广泛的应用和发展。数据仓库的主要目的是提供一个一致、集成和可扩展的数据平台,以支持企业级的数据分析和决策支持。

图15 数据仓库

数据仓库是商业智能(BI)领域的核心组成部分,它使企业能够更有效地分析数据,从而做出更加明智的商业决策。数据仓库的出现促进了数据驱动决策(DDD)的发展,这是一种基于数据分析和解释,而非直觉或经验的决策方法。数据仓库不仅改变了商业和科学研究的方式,也影响了我们对数据和信息的认识和使用。

从数据仓库到数据中台

数据仓库是一个强大但不完美的工具。首先,建立和维护数据仓库需要大量的硬件、软件和人力资源,这对于小型和中型企业来说可能是一个重大的负担。由于数据来自多个源,数据质量(如准确性、完整性和一致性)可能会成为一个问题。数据仓库集中存储了大量敏感和重要的数据,这增加了数据泄露和非法访问的风险。

为了缓解数据仓库面临的问题,提升数据访问的实时性,数据中台(Data Middle Office)的概念,在2015之后开始逐渐受到人们的重视(图16)。数据中台是一套可持续“让企业的数据用起来”的机制。它就像是企业的‘数据超市’,它不仅存储数据,还能把这些数据变得有用和有价值。想象一下,如果你的企业是一家餐厅,那么数据中台就好比是中央厨房。食材和食客的反馈(数据)经过中央厨房(数据中台)处理,能够成为餐厅(企业)需要的美味菜肴(有用的信息)。这个过程是不断重复和改进的,让每个人都能轻松地找到和使用他们需要的‘食材’。总之,数据中台的目标就是让数据不仅仅是一堆‘原料’,而是变成一种可以广泛服务于大家的‘美食’。通过数据中台把数据变成一种服务能力,其目标是提供普惠的数据服务。

图16 数据中台

2020年至今,数据中台开始整合人工智能和机器学习技术,实现更智能的数据分析和应用。数据中台不仅提供数据,还提供数据驱动的洞见和解决方案,成为企业数字化转型的核心支撑。

数据飞轮

数据中台作为一种集中式的数据管理和服务平台,确实在数据资产建设方面取得了显著成就。它通过数据整合、清洗、标准化和安全管理等手段,为企业提供了一个统一的数据视图和数据服务接口。然而,数据中台仅仅解决了数据资产建设的问题,但没解决数据用起来的问题,即在实现数据与业务之间双向良性驱动方面,仍存在一定的局限性。

而数据飞轮(Data Flywheel)则弥补了数据中台的不足。数据飞轮是火山引擎基于对字节跳动十余年数据驱动实践经验提炼的企业数智化升级新范式,核心是数据消费,通过数据消费实现业务价值提升与数据资产建设的“飞轮效应”。

图17 飞轮效应

飞轮效应(Flywheel Effect)是一个用于描述组织或系统内部因素相互作用,逐渐积累能量并推动持续增长或改进的概念。飞轮效应的概念最早源自亚马逊的创始人杰夫·贝索斯(Jeff Bezos),这一概念后来被广泛应用于数据科学、商业分析和人工智能等多个领域。

飞轮的核心价值主张在于通过持续的数据收集、分析和应用,形成一个正反馈的循环,从而不断提升企业或产品的价值。

火山引擎的数据飞轮(图18),以数据消费为核心驱动力,通过数据消费助力业务发展,通过数据消费促进资产建设,使企业数据流充分融入业务流,实现数据资产和业务应用的飞轮效应。

图18 火山引擎数据飞轮概念图

直白讲,数据飞轮旨在用活数据提升企业活力,即通过一系列的数据消费,能够根据实时数据和反馈来不断调整和改进,进而激发员工创造力,增强业务战斗力,提升组织活力。

数据本身是一种资产,但其价值在于如何被消费或应用。数据飞轮通过提供一整套便捷易用的数据产品工具来提高数据消费。

图19 火山引擎数据飞轮的业务应用轮

图20 火山引擎数据飞轮的数据资产轮

数据飞轮的数据产品工具包括业务应用和数据资产类产品。业务应用轮产品涵盖了以下几个方面(图19):数据消费、决策科学和行动敏捷产品。火山引擎的数据资产轮(图20),覆盖资产丰富、质量优化、研发提效产品。

通过这一系列的工具和平台,火山引擎数据飞轮不仅提高了数据的可用性和消费性,还极大地加强了数据在决策支持和业务执行中的作用,从而实现了数据与业务之间的双向良性驱动。

大模型时代的数据驱动

近年来,以ChatGPT为代表的大语言模型(Large Language Models,LLM)迅速走红。它让普通人可以用自然语言实现与机器交互执行各种任务,如文本生成、文本分类、编写代码、机器翻译等,给业界带来不小的震撼,国内外不少公司开始探索大模型能力与行业的结合。

图21

火山引擎也将大模型能力引入到数据飞轮上。在9月19日数据驱动科技峰会上,火山引擎宣布数据产品应用大模型,覆盖数据生产与消费的全链路场景,帮助企业降低数据消费门槛,充分释放数据价值。

与大语言模型(LLM)结合后,在火山引擎数据产品中,资产查询的方式变得更“拟人化”:在与用户对话式的过程中,大语言模型(LLM)可以理解用户真实意图,让搜索过程更聚焦,节约了人为判断的成本,“找数”本身变得更快,同时相比关键词的检索,这种方式的检索准确率也会更好。

在数据分析环节,利用DataWind-分析助手,非分析行业的人员通过自然语言对话,可完成数据可视化查询与分析等一系列业务探索,解决过去分析洞察上需要大量专业知识的痛点,缩短数据分析周期。

以电商场景DataLeap、DataWind联动分析为例。以往运营人员要在DataLeap中取数,是需要向研发提需求,研发撰写代码、检查并运行代码后,才能拿到数据结果或数据集。现在,不会写代码的运营人员,可以直接在DataLeap中提问:“最近7天好物直播间的经营状况,要用哪些表?”DetaLeap可以根据业务的知识库,推荐与经营状况相关的表,并且解释每张表对应的数据维度。

图22 利用DataLeap-找数助手,查找数据资产

有了火山引擎的这些数据产品,不仅专业的研发、分析师能更高效地工作,非专业人士也能接触和利用数据实现洞察。这让更多人能够参与到数据分析中来,充分释放数据的价值。

小结

回顾过去两万多年来数据驱动的工具变迁简史,我们可以清晰地看到一个发展轨迹:从史前时代的伊尚戈骨和结绳记事,用于记录狩猎和交易的基础数据;到古代文明中的算盘,用于进行更复杂的数学计算;再到电子表格和数据库,直至现代的数据仓库、数据中台、数据飞轮以及大模型加持的数据产品。一个显然的趋势是:数据作为生产资料,其应用价值和处理的复杂度都在同步上升,而数据驱动工具也随之不断演变和改良,这一系列的进步不仅极大地提高了数据处理和分析的效率,也极大地丰富了我们对世界的认知和理解。

在这个历史长河中,数据不仅仅是被动的信息载体,更是推动人类文明进步的重要推动力。而每一个里程碑式的数据驱动工具的发明与创造,都标志着人类对数据的应用达到了一个新高度。

参考文献

[1] 张玉宏. 大数据导论[M]. 北京: 清华大学出版社, 2020

[2] 尤瓦尔·赫拉利. 未来简史[M]. 林俊宏, 译. 中信出版社, 2017

[3] 张玉宏. 品味大数据[M]. 北京:北京大学出版社,2016

[4] 费孝通.乡土中国[M].北京大学出版社.2012

[5] Charles Petzold(著).左飞,薛佟佟(译).编码——隐匿在计算机软硬件背后的语言[M].电子工业出版社,2012

#火山引擎数据飞轮接入大模型

#让老板心里有点数

展开阅读全文

页面更新:2024-02-23

标签:工具   数据   算盘   简史   飞轮   火山   计算器   数据仓库   模型   资产   数据库   业务   引擎   计算机   系统   企业

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top