根植于存算分离,华为存储用“湖仓一体”让数据价值最大化

用户对于数据处理的需求有多迫切?

无论是数字经济腾飞还是“东数西算”战略的落地,都要求强大的数据处理能力,但这种能力并不是与生俱来,而是经过不断的应用实践、不断的技术演进、不断的产品迭代而逐渐形成的。

根植于存算分离,华为存储用“湖仓一体”让数据价值最大化

华为海量存储解决方案总监赵顺存在大数据局长论坛发表主题演讲

针对大数据时代的全新应用需求,7月28日-29日,以“数智转型 融合共生”为主题的2021(第六届)中国大数据产业生态大会在北京举行,大会针对产业服务数字化发展和行业数智化转型进行交流讨论。华为海量存储解决方案总监赵顺存在大数据局长论坛发表主题演讲《三大融合,引领下一代数据湖架构演进》,阐述华为智能数据湖方案,通过业务融合、算力融合和数据融合,三大融合构筑“一湖多云”,解决企业多云数据分析的问题。

大数据处理呼唤“存算分离”

2000多年前,汉高祖刘邦与大将军韩信曾有过一场统兵能力的对话。

上问曰:“如我能将几何?”信曰:“陛下不过能将十万。”上曰:“于君何如?”曰:“臣多多而益善耳——西汉·司马迁《史记·淮阴侯列传》

在刘邦看来自己能带10万兵已经算是非常出色了,但是韩信的回答显然出乎了他的意料。所谓“多多益善”,就是突破了统领的极限,也是自古以来兵家所向往和努力的目标。

其实任何领域都有“多多益善”的目标,无论是在学习还是工作中。在如今的数字化时代,我们每天都会产生大量的数据,而对于这些数据的处理也需要快速、高效、安全,自然也催生了”多多益善“的需求——谁能够在有限的时间里处理更多的数据,谁就能够更好的把握应用,进而实现对用户的有效服务。

根植于存算分离,华为存储用“湖仓一体”让数据价值最大化

事实上由于传统应用的影响,许多用户的数据还存储在老旧的设备中,这些数据的应用和处理都是问题,甚至连有效读取都要耗费大量的时间。更重要的是,以往架构很多强调“存算一体”,这样的好处是在当时优化了设计结构,但是从数据处理来说却也实现了数据与计算的“绑定”,也为应用造成了困难。

因此,想要优化数据利用率,“存算分离”是必须进行的第一步。尤其是在当下数字化的时代,数据的产生方式多种多样,从每个人的手机、平板等终端到边缘侧的工业设备再到后端的数据中心,我们对于数据的存储产生了新的需求,自然也就需要“存算分离”的应用形式。

存算分离的出现,使得计算从数据中“解放”出来,同时ARM、FPGA等多元化算力的出现使得计算百花齐放……这都是因为我们总是希望数据处理能够“多多益善”。而在这个移动互联时代,互联网金融逐步兴起,也使得银行越来越重视应用的体验,如何更是在保障安全的同时提供及时、高效的服务,成为整个行业面临的全新挑战,而解决这个问题也势必会对数据处理的实时性提出新的要求。

颠覆ETL依赖,华为提供全新存储解决方案

是时候改变传统的ETL依赖了。所谓ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。往往我们提到这个词的时候都是指的数据仓库,ETL所扮演的更多则是一个“备货员”的角色。

就好比饭店中“配菜员”的角色。比如有客人点了一盘“宫保鸡丁”,配菜员首先要熟悉做这道菜的原料,比如鸡丁、花生、葱、姜、辣椒等哪里买,怎么运输过来。其次需要用刀、砧板、碗等工具和器材来处理这些食材。再次,要知道鸡丁切多大,葱花多碎等。最后,把所有准备好的材料递给主厨即可。

以银行业为例,对于传统的数据分析来说,ETL需要做的首先是理解用户对数据的需求,比如知道数据的来源和获取时长。其次要使用数据库和编程语言进行数据抓取,比如Redshift、SQL、Python等等,最后还要为客户展现数据分析应用的价值和方向。从这个角度来说,ETL实现的流程比较长,而且对于系统能力和软件效能的要求较高,因此在数据处理中也要耗费很多的时间。

一方面,现有的业务系统数据分散,依赖多系统间架设ETL实现数据的流动,导致数据流动周期长,数据消费延迟。另一方面,金融行业像互联网金融转型,IT人员技能逐步增强,已不满足过去固定的的报表业务,需要自主性的数据探索业务,以满足银行客户的诉求,不断提升银行的服务体验。

但是正如我们之前提到的,智能手机、电脑、智能硬件设备的计算能力越来越强,而业务需求要求数据实时响应需求能力也越来越强,过去传统的中心化、非实时化数据处理的思路已经不适应现在的大数据分析需求,ETL的应用也就不再变得那么“必需”。事实上,对于用户来说,最终的数据应用和业务指导才是最重要的,至于是好用了ETL还是用了ELT来完成,并不那么重要。

也就是说,银行过去湖、仓分离的业务系统已经不再符合互联网金融的全新要求,跨系统关联分析业务实现难,业务开发难度大,代价高,更不能满足实时性的要求。因此,湖仓融合的方案已经成为了大势所趋,而减少数据跨系统分析的代价,提高IT人员对数据加工的便利性,也将成为未来互联网金融乃至整个银行业发展的必然选择。

也正是看到了客户最终的、真实的业务需求,华为在新一代大数据数据湖存储设备中也使用了全新的“湖仓一体”设计,通过“去ETL”实现了统一的数据湖底座。具体说来,华为新一代存储通过感知数据分析的语义与格式,提供统一的元管理、开放的数据格式,实现数据分析引擎的即插即用。由此也就实现了,“去ETL”化,将越来越多数仓的特征应用在数据湖里,真正支撑业务从T+N越来越迈向T+0。

根植于存算分离,华为存储用“湖仓一体”让数据价值最大化

对比上面的图,最大的变化就是原本的“数据分析引擎”变成了“融合分析引擎”,即原本的流处理、批处理等环节都被后来的“批流融合分析”所替代。从表面看来这只是流程上的简化,实现了流处理和批处理的融合,但事实上这也就实现了将传统意义上的数据湖与数据仓库“合二为一”,实现了从数据抓取到数据应用的整合,这样也便于后续的数据分析和结构化应用,也更符合未来大数据发展的趋势。

非结构化数据分析是当下大数据应用的主要方向,而传统数据分析则更是通过结构化、报表的形式出现。如今华为存储所实现的“湖仓一体”,实现了对两种数据类型的兼顾,同时借助于“存算分离”的平台使得数据能够在被生成的第一时间在本地或者后端实现分析,这样也就大大提升的数据利用的效率,也让数据分析的实时化成为了可能。

以往我们谈数据分析,很多时候还是谈硬件平台、谈算法框架,而华为新一代数据湖存储更多从客户应用的场景、从客户的真正需求入手,通过“湖仓一体”和存算分离的设计实现了对于数据的充分采集和本地化、实时化分析,可以进一步推动业务加速,帮助客户更好的迈向数字化时代。

展开阅读全文

页面更新:2024-05-21

标签:华为   数据   鸡丁   数据处理   实时   需求   传统   能力   价值   客户   业务   银行   金融   时代   用户   系统   科技

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top