GPU王者降临,AMD时隔半年再创性能巅峰

每一次AMD的新品发布都带给人惊喜,但比惊喜更重要的是信心。

从当年的“Zen 1”到如今的“Zen 3”,AMD正在快速打开自己的加速计算高级模式,甚至都不需要看第三方的统计数据,只要你留意观察这几年业界有影响力的大会,都会看到AMD的身影,而业界对于AMD平台的使用率和呼声也越来越高。更多的核心、更强的性能、更好的性价比,AMD通过这些优势快速赢得了用户的支持,而不断迭代的产品特性也越来越符合这些企业级客户的“胃口”,也自然吸引了越来越多的关注。

今天,AMD再度对自家产品线进行了刷新,以代号为Milan-X的产品进一步丰富了第三代EPYC(霄龙)处理器家族,并且AMD发布了全新的AMD Instinct MI200计算加速卡。如果说Milan-X还可以看作是对于”Zen 3”产品线的定制化补充的话,那么MI200计算加速卡的发布则是一次全新的升级,成为了当下业界最强的GPU加速卡。也正是得益于在CPU和GPU领域的双重布局,在帮助业界迈向百亿亿次计算的道路上,AMD也起到了关键性的作用。

GPU王者降临,AMD时隔半年再创性能巅峰

3年4迭代,AMD用“小步快跑”持续领先

2019年8月,AMD发布第二代EPYC(霄龙)处理器 ,

8个月后的2020年4月发布了第二代霄龙的升级版本7Fx2系列;

2021年3月,AMD发布第三代EPYC(霄龙)处理器,

同样8个月后的今天,AMD再度发布了Milan-X,这也被视为是“Zen 3”系列产品的“终极版”;

历史就是这样惊人的相似。如果你留意过AMD的产品线迭代速度,你会发现它似乎正在以一种互联网的理念升级,即大家都听过的词——“小步快跑”。25个月的时间里产品上了四个台阶,这已经大大超越了摩尔定律的要求。在许多人还在质疑摩尔定律已经“不行了”的时候,AMD却用实践证明了摩尔定律已经跟不上它前进的脚步。同时AMD还表示未来全新一代的“Zen 4”平台也在按部就班的研发中,这也传递出AMD会继续保持领先的信号,也进一步增强了支持者的信心。

许多朋友可能会好奇——大半年前刚刚更新的“Zen 3”平台如今又有哪些变化?所谓的Milan-X优势在哪里呢?其实这一次,AMD发布的Milan-X在定位上与之前第二代EPYC(霄龙)处理器中的7Fx2系列类似,依然是一款面向专业应用的定制化产品,其最大的特性就是采用了3D Chiplets (3D V-Cache)技术,通过3D Fabric先进封装实现了缓存容量的巨大提升,进而实现了应用加速。

GPU王者降临,AMD时隔半年再创性能巅峰

3D V-Cache技术最早公开露面是在今年6月的Computex上,当时AMD CEO苏姿丰博士就展示了基于这种技术的概念芯片。我们知道,随着半导体工艺节点越来越接近物理极限,每一代工艺带来的收益提升也在不断递减,这就势必需要从其他领域实现突破;而3D V-Cache技术就是在传统芯片的平面上实现了双层堆叠,使得每个CCD芯片上堆叠64MB SRAM作为额外的三级缓存,加上原本就有的最多64MB,合计达192MB,这就在处理器内部打造了“海量缓存池”。甚至根据官方资料显示,每插槽的缓存数量最大可以实现804MB,这让人惊掉下巴的数字无疑大大提升了处理效率。

GPU王者降临,AMD时隔半年再创性能巅峰

其实这并非是AMD第一次在封装技术上实现突破。从2015年开始使用HBM技术,到2019年推出使用Chiplet的产品,再到今天推出3D Chiplet,每一步都可以看见AMD对于先进封装领域投入的决心。而从整个业界来看,提升缓存与内存能力是提升性能最直接、最有效的方法——相对于其他替代方式来说,AMD 3D V-Cache技术最大的特点就是在提升高密度互联的同时能够将通信延迟尽可能将到最低,从而在原有7nm工艺上让性能向前迈了一大步。

GPU王者降临,AMD时隔半年再创性能巅峰

这种大缓存的优势在科学计算中表现得尤为明显,无论是有限元分析、结构分析、计算流体力学还是电子设计自动化模拟等应用中,超大缓存都可以带来更快的计算速度,也让运算变得更加高效。有数据显示,在SYNOPSYS VCS应用中,具备3D V-Cache技术的Milan-X相对于Milan平台性能提升了66%,平均每小时处理工作量达到了40.6项,实现了质的飞跃。

“洞中方一日,世上已千年”。每一次芯片级别的提升都会带来巨大的应用进步,而借助于3D V-Cache技术,全新发布的Milan-X在科学计算应用中也带来了显著的性能优势,这对于AMD一直瞄准的HPC领域来说无疑是巨大的利好消息。相对于频率的提升,这种芯片架构层面带来的效果更为明显,同时在上述提到的有限元分析、结构分析、流体力学等多个项目中,相同核心数量下Milan-X相对于竞争对手也有三分之一强的性能优势,这势必会影响到用户的最终决策。

秒杀A100,最强GPU加速卡来了

如今越来越多的应用都采用了异构计算的方式,哪怕是刚刚提到的、最为传统的HPC应用,除了依仗CPU强大的计算性能优势之外,用户也同样看中GPU的加速性能,因为如今不少人工智能的应用都需要GPU的加持。也正是看到了这一趋势,AMD这次也发布了一款名为Instinct MI200的计算加速卡。虽然从命名上看它只是上一代MI100的升级产品,但是这个升级对于数字来说可能是一小步,但是对于AMD乃至所有GPU用户来说,却是一大步。

GPU王者降临,AMD时隔半年再创性能巅峰

去年11月的SC20大会上,AMD发布了Instinct MI100计算加速卡,这是第一款采用CDNA架构的产品,以区别于实时游戏渲染的RDNA架构。而这一次发布的Instinct MI200计算加速卡则采用的是CDNA2架构,一字之差带来的却是全面的创新——首先在工艺上,它采用的是6nm工艺制造,内部同时集成两个Die,共有220个计算单元,并专门添加了880个第二代矩阵核心以加速HPC和AI操作,集成了128GB HBM2E显存,传输速率达到3.2TB/s。仅就这些参数来说,Instinct MI200计算加速卡达到了当之无愧的王者地位,也成为了业界最强大的GPU加速卡。

GPU王者降临,AMD时隔半年再创性能巅峰

其实早在Instinct MI200计算加速卡发布之前,业界就有不少人一直在猜测它的最大性能,甚至有人预估出其FP64双精度浮点性能超过了20TF(上一代的Instinct MI100为11.5TF)。但当看到这些数字之后,所有人都震惊了——Instinct MI200计算加速卡的最大性能达到了47.9TF,是竞争对手的近5倍,人们这时候才觉得原本的预估有多么保守。

GPU王者降临,AMD时隔半年再创性能巅峰

除了双精度浮点性能之外,在单精度、半径定等多项算力标准和内存带宽等吞吐量标准中,Instinct MI200计算加速卡都是完胜竞争对手,甚至出现了大幅度碾压的情况。记得当年英伟达A100刚刚问世的时候,就凭借强大的性能打破了16项AI性能的世界纪录,也被业界称为最强GPU。但是风水轮流转,或许接下来这些殊荣就要被Instinct MI200所取代了,希望这样的良性竞争也能推动GPU行业进入快速发展期。

GPU王者降临,AMD时隔半年再创性能巅峰

也是为了便于整个业界的应用,AMD也宣布随着Instinct MI200的发布其生态系统ROCm也正式进入了5.0时代。ROCm开放式生态系统是第一个针对加速式计算且不限定编程语言的超大规模开源平台。相对于传统的机器学习来说,ROCm平台为追求高灵活性和高性能而构建,让机器学习和高性能计算社区的参与者能够借助各种开源计算语言、编译器、库和重新设计的工具来加快代码开发,从而解决他们面临的艰巨挑战。

GPU王者降临,AMD时隔半年再创性能巅峰

从2018年的2.0时代到如今的5.0时代,AMD实现了ROCm每年一个版本的迭代,其应用范畴也从最初的平台搭建到如今的为机器学习和HPC而优化,使其更好的适应未来E级计算的发展趋势。如今AMD面向百亿亿次已经提供了包括CPU和GPU在内的强大基础设施支持,而未来Instinct MI200系列也会有板载和插卡两种形态的产品,以满足不同的需要。据悉包括戴尔、HPE、联想、ATOS、超微等多家硬件供应商都将会对Instinct MI200实现支持,以帮助客户更好的应对百亿亿次计算的挑战。

虽然距离3月的发布会只有大半年的时间,但这次AMD交出的答卷依然非常亮眼。无论是3D V-Cache新技术的应用还是重磅产品的发布,都带来了太多的惊喜,也让业界看到了AMD在技术上不断突破、精益求精的努力,更是坚定了支持者们的信心。有人说——信心比黄金更重要,AMD所代表的并不是某款产品或者某种技术,而是借助于这些所能实现的无限可能以及应用这些所创造的美好未来。

展开阅读全文

页面更新:2024-06-18

标签:加速卡   性能   小步   缓存   巅峰   王者   架构   处理器   芯片   信心   强大   业界   半年   优势   工艺   产品   平台   技术   科技

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top