硬件解耦+资源池化,OCP大会将开放进行到底

我这人最喜欢聊天。


在我看来,聊天是一个很好的社交方式,也是很好的学习方式。跟不同的人聊天,你能学到许多书本上没有的知识,尤其是与智者聊天,可能短短几句话就能点拨你困扰多年的问题,甚至改变你的价值观。碰巧最近,我就获得了这样一次宝贵的机会。


硬件解耦+资源池化,OCP大会将开放进行到底


11月13日,开放计算中国社区技术峰会(第二届OCP China Day)在北京举行,也吸引了来自Facebook、Intel、微软、浪潮、百度、腾讯、阿里、NVIDIA、诺基亚、中国移动、希捷、燧原科技等多家企业的600多名IT工程师和数据中心从业者参与。就在这次大会上,我获得了成为“第二演播室”主持人的机会,能够近距离接触行业内的各位大咖。


这里我还是有必要解释一下OCP这个组织。OCP的全称叫做Open Compute Project,即开放计算项目。这是早在2011年由Facebook联合英特尔等多家企业联合发起的开放硬件组织,其宗旨是以开源开放的方式,重构当前的数据中心硬件,发展面向下一代数据中心的服务器、存储、网络、基础设施等创新硬件。而经过多年的发展,OCP也已经成为了全球三大开放标准组织之一,影响力巨大。


IT技术发展到今天,“硬件开放+软件开源”已经成为整个行业的共识,而在这次与众位专家的交流过程中,我令我感触最深的一个词就是——解耦。我最早听到这个词的时候还是好多年前,那时候我们还在争论小型机与x86的优劣。而现在看来,一切能够提供计算力的设备都可以为我所用,无论它采用了何种形态或者何种架构,解耦的出现让我们有了更多的选择,也更深刻的印证了“计算力就是生产力”这个判断。


硬件解耦+资源池化,OCP大会将开放进行到底


这同时也解释了为什么OCP能够成为当下开放数据中心的核心标准。试想一下我们曾经的诺基亚手机,许多人当年买某款手机可能就是为了其中的一项功能,比如与女朋友聊天用的QQ、与网友“开黑”用的贪吃蛇,再比如单纯的为了砸核桃。但是在智能手机出现之后,大家发现这些原本需要购买硬件才能实现的功能如今可以随意的安装在任意一款智能手机中,这就摆脱了硬件的束缚,实现了手机软硬件的“解耦”。


数据中心也是如此。相对于手机的简单应用来说,数据中心对于系统的稳定性与可靠性有极高的要求,同时对于性能的苛刻使得许多数据中心管理者必须或者不得不选择某款平台或者某款软件,这样的情形不要说在关键业务,即便是在被定义为开放的x86平台上也是屡见不鲜。也正因为如此,数据中心“解耦”也是势在必行。


硬件解耦+资源池化,OCP大会将开放进行到底

OCP China Day大会第二演播室留影


OCP的出现正好满足了这个要求。以“开源开放”为宗旨的它彻底摒除了软硬件紧耦合的概念,组织成员采用同样的标准、共享同样的设计,这样就保证起码在组织内部就能够实现软硬件的任意调动与使用,让用户不再被任何一个方面所束缚。也正因为如此,在推出短短几年后,OCP就已经成为行业领先的标准,如今更成为了开放标准的三巨头之一。


在这次OCP China Day大会的访谈中,我采访了来自浪潮、英特尔、百度、阿里巴巴、希捷、燧原科技等一众大咖,大家在采访中无一例外的提到了“解耦”的价值,提到了开源开放对于整个组织乃至整个行业的推动力。这也让我对OCP这个组织有了全新的认识——一个真正为实现开源开放所努力的科技巨头结合体。


异构计算是当下IT产业发展的主流与方向。伴随着AI技术的兴起,越来越多的企业都开启了智能化的脚步,而这种变化也使得整个行业都朝着智能化的时代迈进。看看我们身边,无论是早上叫你起床的智能音响、戴在手腕的智能手表或者智能手环,出门上班时的车联网、智慧交通,办公室里的在线会议等等五一不体现出智能化的无处不在。而推动这种变革的,正是异构计算。


与传统印象中许多人以为的CPU+GPU计算不同,如今的异构计算已经呈现出了多种模式,比如大家耳熟能详的ARM、FPGA、ASIC等等架构产品同样可以加入异构计算的阵营。为了能够让成员们更多感受到异构计算的价值与魅力,OCP成立了名为OAI(Open Accelerator Infrastructure)的小组推进开放技术规范。


与许多人印象中的单纯计算不同,OAI小组所负责的范围更大,涵盖结构设计、温度、管理、供电、硬件安全性、可用性等诸多方面,这样就可以从源头层面保证开放与开源,从而建立一整套可兼容各类AI加速器的技术标准,解决AI计算基础设施建设中硬件分裂化和生态割裂化的重大挑战。


“芯片的发展已经进行到了多种形态的新阶段,未来的AI计算将更多以一种解耦的、池化的方式来实现”,浪潮信息主任系统架构师王磊在访谈中表示。在王磊看来,即便是在不同的异构芯片之间,这种解耦依然是存在的。通过将计算力释放形成池化,使得用户不必再纠结于采用何种计算形态或者计算设备,只要在计算尺内选择对应的计算力即可,真正实现了“哪里不会点哪里”。


硬件解耦+资源池化,OCP大会将开放进行到底

百度系统架构师黎世勇


百度系统架构师黎世勇则从池化的角度解答了“解耦”的问题,在他看来解耦更多需要底层架构与上层应用的结合,有类似于OAI这样的组织推动,使得包括百度、浪潮等成员能够在统一的标准和方向下进行。而针对不同的计算、存储、互连等需求,解耦之后的资源池也可以根据不同业务的场景需要,提供不同的服务能力。“池化的架构的情况下,我可以局部去优化,针对不同的业务,去分别优化这些子系统”。


硬件解耦+资源池化,OCP大会将开放进行到底

百度超级AI计算平台X-MAN 4.0


这也是百度在开放计算设计上的终极理念。熟悉百度的朋友可能知道,百度有一款名为X-MAN的计算设备,面向的就是顶尖AI计算。而经过不断的迭代与优化,如今已经升级到了X-MAN 4.0版本,在这一代中丰富的IO设计能带来灵活的扩展性,释放出极大的计算性能。同时结合百度自研与生态伙伴的芯片,下一代X-MAN也已积极开展OAI相关的设计。


在黎世勇看来,OAI标准赋予了X-MAN更高的精神内涵,使其不仅仅作为一款AI服务器出现,而是更多成为了践行OAI标准的先行者。“百度目前的方向就是积极推动,OAI(开放计算模型)等类似生态,更好的让大家都在这个生态中发挥异构计算的作用和价值,与此同时百度也希望将自己的标准带入并贡献于OCP组织中,形成合力”。


燧原科技成立于2018年3月,专注人工智能领域云端算力平台,也是目前业内炙手可热的AI新秀。在本次OCP China Day上,燧原科技以OCP社区成员和OAI JDA成员的身份亮相,并介绍了基于OAM spec1.0的云燧T11人工智能训练加速模组。


硬件解耦+资源池化,OCP大会将开放进行到底

燧原科技系统架构和设计总监江斌


异构计算这个话题对于燧原科技系统架构和设计总监江斌来说可谓是深有感悟。作为OCP组织的新晋者,他更看重组织成员间的协作与开放包容。“作为OAM的提供商,燧原科技可以促进整个OCP的互补,我们也有很多创新的地方可以开放给OCP,让人工智能以及数据中心在异构计算层面可以获得更快的发展”。


正因为秉承了开放、开源的基因,OCP的成员之间更多呈现出的不是竞争,而是相互之间的协作与交流。也同样是在此次大户上,燧原科技与浪潮携手发布了全新一代的OAI开放标准AI计算系统——浪潮MX1。这款设备搭载国内首款OAM训练模组云燧T11,具备了强大的AI计算能力,更能够引领高性能、高能效开放计算的发展。


对于数据中心内部来说,异构计算已经成为了未来发展的趋势,特别是伴随着AI应用的发展而进一步高歌猛进。但是如果我们将目光放在整个IT产业链来说,最火爆的话题莫过于“云边端”协同发展,在边缘计算出现之后,越来越多的人也将目标从原有的数据中心分散到如何实现边缘计算与数据中心的协同,而在这个问题上,还是绕不开我们刚刚提到的两个字——解耦。


硬件解耦+资源池化,OCP大会将开放进行到底

英特尔数据中心平台事业部的高级平台架构师张骏(右一)


与之前我们谈到的软硬件解耦不同,在谈云边协同的时候,我们更关注的是如何实现边缘与核心的“解耦”——“中心云跟边缘云,根据特定的业务场景形成一种弹性的耦合关系,不同业务之间有些是紧耦合、有些是松耦合,还有些可能是半紧半松耦合”,英特尔数据中心平台事业部的高级平台架构师张骏介绍说。


张骏甚至列举了一个体育场的案例——在体育场中有进行不同运动的健身者,而体育场边缘侧的实时屏幕则可以根据这些健身者每个人的不同信息给与针对性的介绍,这一点是传统体育场难以实现的。而在他看来,边缘计算是云计算的一个有效补充,两者更多是互补性的关系,边缘侧更为灵活,核心侧更为高效,面对不同的应用场景。


硬件解耦+资源池化,OCP大会将开放进行到底

浪潮边缘计算事业部的总经理孙波


对于未来的云边协同场景,浪潮边缘计算事业部的总经理孙波同样是深有感触。他甚至将这些应用场景分为了“今天、明天和后天”三个阶段。在他看来,未来的云边协同是基于5G、物联网、大数据、人工智能等多种技术协同作用的结果,而面对边缘侧的不同应用场景,浪潮也准备了不同的边缘服务器解决方案,以便于应对各种严苛环境的挑战。


比如在沙漠地区的石油勘探应用、比如在冰天雪地中的气象监测应用、再比如在尘土环境中的户外开采应用,不同的环境下,对于边缘服务器的要求不同,而浪潮所要实现的就是即便面对再严苛的环境,也能够提供稳定、可靠、安全的计算存储服务。


“首先在设计层面,浪潮通过模块化组合来提升产品灵活性,支持不同应用场景;其次在开发过程中,浪潮通过各种可靠性手段来提升产品品质,保证质量;同时在业务层面,浪潮也在不断拓展生态合作伙伴,以多样化、复杂化的生态建设满足各方面的客户需求”,孙波解释道。


就这样,作为OTII和OpenEdge的共同成员,浪潮已经在边缘计算领域积极布局,并研制了边缘微数据中心、边缘云服务器、边缘AI服务器、智算小站等多种边缘计算方案,未来还将深耕ICT融合、泛CDN、智能网联汽车、工业互联网、产业+AI、城市治理、智能终端接入这七个场景,以支撑不同场景对于边缘算力的差异性需求。


众多场景的管理如何实现?很显然不可能单纯的依赖人工,而从整个产业发展的趋势来说自动化、智能化也是大势所趋。尤其是面对数据中心规模化、集中化的大趋势,数据中心对IT设施管理,设备的快速配置、远程故障定位及自动化、智能化运维提出更高要求,为此OCP社区专门设立数据中心自动化运维套件技术项目。


硬件解耦+资源池化,OCP大会将开放进行到底

浪潮信息技术研发部高级技术总监郭洪昌


“IT运维实际上防患于未然,可以让运维的成本降到最低,而OpenBMC和OpenRMC提供了很好的方式,因为OpenBMC可以在节点级做到模块化实现,而OpenRMC其实是基于OpenBMC的基础上实现了机柜级实现管理,因此两者是分阶段、渐进式开源的管理技术”,浪潮信息技术研发部高级技术总监郭洪昌如是说。


如果说异构计算是解耦之后的资源池化,云边协同是解耦应用的多种形态的话,那么IT运维实际上就是针对解耦之后的资源池进行分配与管理。“对我们实现的就是把池化的资源更好的管理起来,同时把相关参数提取出来进行分析,并指导客户的业务发展”。


如今OpenRMC工作组已经启动OpenRMC代码框架I9000硬件验证,并计划在2021年第四季度发布OpenRMC 3.0。对于客户来说,在解耦与池化之后,已经不需要再关注某台设备或者某个集群的运行状况,计算、存储、网络资源的池化让业务调用更加方便与顺滑,同时OpenRMC也使得集群管理更加智能化。


硬件解耦+资源池化,OCP大会将开放进行到底


从核心到边缘,从计算到生态,从资源池化到智能管理,在这次OCP China Day大会上我看到的众多成员之间的通力合作,也看到了基于OCP标准所生产的多种产品与解决方案。正如我们在文章开篇提到的,开源与开放已经成为了OCP的宗旨和灵魂,而OCP所开创的“以社区的方式加速领先技术的产品化和产业化,加速数据中心的进化“的模式,也正在推动整个IT产业向着健康、有序、开放的方向发展。


从更大的角度来说,我们每个人都在享受着互联网、智能化带来的福利,这同样也是开放计算带来的福利。

展开阅读全文

页面更新:2024-05-04

标签:英特尔   硬件   科技   人工智能   数据中心   浪潮   架构   场景   边缘   生态   成员   组织   业务   标准   资源   技术

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top