GPU、ASIC想换就换,AI计算迈出了开放的第一步

北京时间11月19日,SC19全球超算大会在美国丹佛举行,在本次大会上,英伟达,英特尔,AMD三大芯片厂战火升级,在高性能计算上新动作连连。对于几家芯片大厂来说,HPC的市场可能没有数据中心的市场那么大,但是随着人工智能时代的到来和数据科学的爆发,它的增长趋势将不容忽视。

GPU、ASIC想换就换,AI计算迈出了开放的第一步

这不他们展开了正面交锋。英伟达CEO黄仁勋宣布三项重大发布:基于 GPU 加速器的 Arm 服务器、可在微软 Azure 云服务上使用的 GPU 加速型超级计算机 NDv2 以及几分钟即可实现数据移动的 Magnum IO 软件套件。英特尔也高调宣布其推出的首款为高性能计算设计的 GPU。AMD 同样宣布将超算能力带到云上,将推出两个新的 Amazon Elastic Compute Cloud(Amazon EC2)计算优化实例。

那么问题来了。除了以上三家巨头,全球已有上百家公司投入新型AI芯片的研发与设计,AI计算芯片多元化趋势愈发明显,然而各厂商在AI开发中采用了不同的技术路线,芯片的接口、互联、协议上互不兼容,很多用户需要用几个月时间对不同平台进行测试,才能找到合适的AI计算方案。

GPU、ASIC想换就换,AI计算迈出了开放的第一步

针对于此,浪潮与Facebook、微软、百度、英特尔、NVIDIA等业界领先的AI公司一起,将开放计算的理念引入AI生态中,共同推出了全球首个开源的完整AI加速器规范OAM,这也是OAI项目下首个设计规范。

等等,什么叫做OAI?OAM规范又是指什么?

OAI标准的确定与AI应用的加速

OAI的全称叫做Open Accelerator Infrastructure,翻译过来就是开放加速器基础设施,比如我们看到的包括GPU在内的许多加速卡就是属于这个范畴。那么对于这些加速器来说,为什么需要这样的一种标准呢?因为目前AI可以说是整个IT行业最热门的词,全球范围内有无数人都在投入这个领域的研究。但是作为基础设施来讲,由于迭代的速度不如软件那么快,自然在面向AI应用的时候也要有前瞻性,同时也需要有一定的标准,让整个组织的成员能够有章可循。

为此,也才有了OAI标准项目技术小组,主要针对AI硬件加速模块和系统设计进行标准制定,计划开发OAI、OAM、UBB、HIB等9个开放技术规范,这些技术规范内容涵盖了结构设计、温度、管理、供电、硬件安全性、可用性等诸多方面,以促进不同AI加速器技术的开放融合,让AI计算平台设计更加敏捷,产业配套更为简化。目前,OAI小组已经公布了正式版的OAM标准,OAI-UBB(Universal Baseboard,通用基板)标准即将公布。

GPU、ASIC想换就换,AI计算迈出了开放的第一步

不过,条目细致的OAM规范对于实现能力的要求极高。作为全球AI计算的领导厂商与OCP铂金会员,浪潮自OAM规范推出后仅耗时3个月,就设计并发布了全球首款OAM通用基板,在结构尺寸、芯片方案、电源方案、连接器选型、Pin 定义、系统架构等方面均做出创新设计。

MX1是基于这款OAM通用基板的AI开放加速系统。MX1采用了高带宽、双供电等技术,可以兼容各类符合OAM规范的AI加速芯片。此次发布的MX1的芯片互联总带宽达到224Gbps,并提供全互联(Fully-connected)和混合立体互联HCM(Hybrid Cube Mesh)两种互联拓扑,方便用户针对不同神经网络模型,根据芯片通信的需求灵活设计芯片互联方案。针对不同AI芯片的功耗差异,MX1设有12V和54V两套独立的供电方案,12V供电最大功率为300W,54V供电最大功率为450W-500W,可支持各类高功耗的AI加速器。MX1单节点设计支持8颗AI加速器,并可通过高速互联Scale-up扩展支持到32颗AI加速器,可适用超大规模深度神经网络模型的AI计算需求。

OAI UBB,让“通用”更简便

MX1的出现给行业一种全新的选择,而且MX1面向超大规模数据中心的部署也非常适合。但是如果你的业务没有百度、Facebook那样庞大,是不是就与OAI无缘了呢?并不是这样。在9月底的OCP欧洲峰会上,OCP基金会首席技术官Bill Carter还展示了首款符合OAI 标准的、由浪潮开发设计的UBB。

GPU、ASIC想换就换,AI计算迈出了开放的第一步

UBB这个名字听起来有点耳熟,跟我们常说的USB却不是一回事。UBB的英文叫做Universal Baseboard,翻译成中文叫做“通用基板”,简单说来就是符合OAI标准的服务器主板。按照Bill Carter的说法,这款基板可扩展8个Intel即将上市的NervanaNNLP-100加速器,加速器之间采用了混合立体互联HCM(HybridCube Mesh),可以点对点全互联,互联总带宽为224Gbps,可支持FPGA、GPU以及ASIC等不同类型AI芯片直接更换。

需要说明的是,这次浪潮发布的UBB共有19英寸和21英寸两款产品,其中19英寸产品应用于与百度携手发布的X-MAN4.0当中,而另一款是21英寸的UBB则是与OCP联合开发的,也有具体的BOX产品展示。另外,这两款UBB均支持风冷和液冷散热,客户可以依照需求自行选择。

所谓“巧妇难为无米之炊”,OAI UBB的出现让整个行业和广大OCP会员能够以此为蓝本开发基于OAI标准的服务器,让AI服务器的开发有章可依、有据可循,也从根本上推动了OCP乃至整个AI产业的进一步发展。正如浪潮AI&HPC总经理刘军所提到的:“从技术规范到产业标准的升级是OAI发展关键,浪潮在这个过程中将发挥骨干作用,促进AI走向开放,赋能更广泛的AI客户和AI应用。”

GPU、ASIC想换就换,AI计算迈出了开放的第一步

开放的浪潮,推动产业标准共识

OAI项目仅是浪潮参与的众多开放计算项目之一。在OCP、ODCC等开放计算社区公布的多种标准和项目中,我们总能够听到浪潮的名字。事实上,浪潮一直在积极的推动开放计算技术的发展,发起了OpenRMC等开放标准项目,在天蝎、OpenRack等开放标准的产业化进程中发挥了重要作用。

在今年6月,浪潮还与OCP基金会联合主办了的OCP China Day 2019中国开放日大会,并邀请众多合作伙伴共建开源数据中心生态系统。如今,浪潮正大力推动人工智能基准性能测试国际标准建立,成为国际权威测试机构SPEC下设的Machine Learning技术委员会首届主席。这也意味着,浪潮已经正在为未来的Machine Learning测试指定规则并提供参照,整个行业也将以此作为权威的判定标准。

在开放的道路上,浪潮正在努力前行。

展开阅读全文

页面更新:2024-05-21

标签:英伟   英特尔   神经网络   加速器   数据中心   浪潮   技术规范   芯片   产业   方案   标准   项目   全球   行业   技术   科技

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top