全球AI芯片市场的硝烟从未如此浓烈,AMD今日举行的Advancing AI大会,将成为挑战英伟达地位的关键转折点。在现场第一时间发出本文,解析本次大会的核心发布与战略布局。 太平洋时间2025年6月12日上午9:30,AMD董事会主席及首席执行官苏姿丰(Lisa Su)博士登上圣何塞会议中心的舞台,宣布了业界瞩目的下一代Instinct MI350系列GPU,并剧透了预计明年推出的MI400,以及构建开放AI 生态系统的进展。此外,她强调了全新的、开放的机架级设计及路线图,甚至将领先的机架级AI性能规划已经延伸至2027年以后。
除了硬件上的不断迭代,AMD真正的挑战还在于ROCm软件生态系统的建设,其持续突破也是业界的关注重点,最新版本ROCm 7已经面向生成式AI和高性能计算工作负载日益增长的需求做足准备。 此外,包括Meta、甲骨文、微软等生态合作伙伴,都在会上展示了由AMD驱动的AI进展,特别是甲骨文首批采用了AMD Instinct MI355X GPU打造开放机架级AI基础设施。这既是AMD Instinct系列GPU的“里程碑时刻”,也证明了市场对于打造多元化的基础设施持有浓厚兴趣,得益于全新架构的计算集群设计,如今的AMD正在迎来一波新的AI高性能设备的市场风口。 在全球AI硬件市场突破4000亿美元规模的背景下,AMD这场大会承载着行业对多元化AI算力格局的深切期待。从Lisa Su博士所阐述的全面的端到端集成 AI 平台愿景,以及基于行业标准构建的、开放且可扩展的机架级AI基础设施来看,AMD正在通过一系列广泛的硬件、软件和解决方案组合,加速打造开放AI生态系统,硬撼英伟达在AI芯片领域的绝对地位。
图:MI350系列提供更快的AI推理速度、支持更大的模型
MI350系列在封装方面的三大创新点包括:首先是延续小芯片设计,N3P工艺的计算芯片(XCD)堆叠在N6工艺的I/O芯片(IOD)上,集成 AMD Infinity Fabric AP互联总线,这种异构集成既能提升性能又能降低功耗;其次是封装技术,采用成熟的COWOS-S封装而非更昂贵的COWOS-L;第三,采用混合键合架构,3D堆叠提升计算密度,2.5D集成HBM3E显存和互联技术。
图:MI350系列在封装和小芯片领域的创新
Instinct MI350系列提供风冷和直接液冷的灵活配置,风冷机架中最多可部署64 个 GPU,直接液冷机架中最多可部署128个GPU,提供高达2.6 exaFLOPS 的 FP4/FP6 性能。这意味着在基于行业标准的基础设施上,能够实现更快的AI应用部署并能够降低成本。
图表:Instinct MI350系列具体规格
图:Instinct MI355X系列GPU在内存和带宽方面的具体表现
图:AMD Instinct MI350 系列专为严苛工作负载而设计
根据Lisa Su博士的介绍,AMD Instinct MI300X系列GPU相比英伟达B200,每美元可处理的Token数量提升高达40%,这其实是对性价比的直接量化,相当于在运行大语言模型(LLM)时,单位成本下的计算效率提升40%。 值得注意的是,Tokens/$并非纯算力对比,而是更贴近用户的实际成本考量出发,这也是AMD“硬刚”英伟达最先进GPU的核心考量。
此外,在主流大模型推理任务中,AMD Instinct MI355X系列吞吐量超越了英伟达B200和GB200,关键数据如下:
同样,在大模型的训练和微调方面,AMD Instinct MI355系列与英伟达B200、GB200相比,也展现出了有竞争力的性能,关键数据如下:
目前看来,MI350系列GPU的生态系统势头非常强劲,处于准备就绪、随时部署的状态。它将通过领先的云服务提供商(包括主要超大规模云厂商和下一代新锐云厂商)广泛上市,戴尔 (Dell)、慧与 (HPE) 和超微 (Supermicro) 等顶级OEM厂商正在将MI350系列解决方案集成到他们的平台中,提供强大的混合AI 基础设施。
凭借持续的更新、先进的FP4等数据类型以及FAv3等新算法,ROCm 不仅赋能下一代 AI 性能,同时以超越闭源替代方案的速度推动着vLLM和SGLang等开源框架的发展。 “ROCm 不仅是在追赶——它正在引领开放的 AI 革命”,Lisa Su博士强调。随着 AI 应用从研究转向真实世界的企业部署,ROCm 也在同步演进。ROCm企业级AI 将一套全栈式MLOps 平台推向台前,凭借支持超过 180万个 Hugging Face 模型的开箱即用体验,以及行业基准测试的引入,ROCm提供用于微调、合规、部署和集成的开箱即用工具,以实现安全、可扩展的AI。
在提升开发者体验方面,AMD提供更多的开箱即用工具、实时CI仪表板、丰富的技术资料以及活跃的开发者社区,让开发者在ROCm上构建应用变得前所未有的简单。此外,AMD还推出了开发者云(Developer Cloud),让开发者能够即时、无障碍地访问ROCm和AMD GPU。无论是优化大型语言模型还是扩展推理平台,ROCm 7、AMD开发者云都为开发者提供了快速从实验迈向生产所需的全套工具, 在AMD直面英伟达的生态竞争方面,多年以来,CUDA的发展积累是AMD必须面对的挑战。Lisa Su博士指出,ROCm 正以开源速度、开发者优先的设计理念和突破性性能,开启 AI 创新纪元。从推理到训练再到全栈部署,其架构专为伴随 AI 未来演进而扩展设计。而随着 ROCm 7 与 AMD 开发者云的推出,AMD才刚刚启程。
从目前了解到的信息来看,AMD Instinct MI400 系列将实现巨大的跨代性能飞跃,为大规模训练和分布式推理提供完整的机柜级解决方案。其关键性能创新包括:432GB的 HBM4 内存;19.6TB/s的内存带宽;40 PFLOPS的FP4性能和20 PFLOPS的FP8性能;300GB/s 的横向扩展带宽。
此外还有Helios AI 机柜基础设施,从底层开始构建,旨在将下一代领先的硬件——包括 AMD EPYC “Venice” CPU、Instinct MI400系列GPU和Pensando “Vulcano” AI 智能网卡——与 ROCm 软件统一整合为一个完全集成的解决方案。 Helios 设计为一个统一的系统,支持一个紧密耦合的纵向扩展域(scale-up domain),最多可容纳72个MI400系列GPU,提供每秒260太字节的纵向扩展带宽,并支持 Ultra Accelerator Link。
Lisa Su博士表示,“当我们展望以即将推出的 MI400系列和‘Helios’机柜架构为标志的AI 新时代时,Instinct MI400 系列将树立全新标杆——赋能企业快速行动、智能扩展,全面释放生成式AI与高性能计算的无限潜能。” 目前,70%的顶级AI客户已采用了AMD的GPU产品,通过最新发布的MI350系列和下一代MI400系列和 Helios机柜基础设施等,Lisa Su博士对于在AI领域的发展前景信心十足。
值得强调的还有AMD Pensando Pollara 400 AI智能网卡的可编程特性,它基于AMD的第三代全硬件可编程Pensando P4引擎,客户可启用UEC功能,为网络监控与性能调优注入智能化能力。依托全可编程P4引擎,用户可通过升级使任何Pollara 400网卡适配新行业标准(包括UEC制定的规范),从而助力企业、云服务提供商及研究人员最大化基础设施投资价值。 凭借400Gbps的GPU间通信速度,该网卡可显著加速以下场景任务完成时间:训练超大规模AI模型、部署下一代AI模型、开展前沿技术研究等。此外,它具备智能网络监控功能,能够大幅缩减传统网络监控与性能调优耗时,在执行网络负载均衡的同时,能够实时监控网络指标,使运维团队能在潜在网络问题升级为严重故障前主动识别并处理。
更新时间:2025-06-15
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号