AMD全局AI战略揭秘：硬撼英伟达，从更强GPU到开源革命

全球AI芯片市场的硝烟从未如此浓烈，AMD今日举行的Advancing AI大会，将成为挑战英伟达地位的关键转折点。在现场第一时间发出本文，解析本次大会的核心发布与战略布局。太平洋时间2025年6月12日上午9：30，AMD董事会主席及首席执行官苏姿丰（Lisa Su）博士登上圣何塞会议中心的舞台，宣布了业界瞩目的下一代Instinct MI350系列GPU，并剧透了预计明年推出的MI400，以及构建开放AI 生态系统的进展。此外，她强调了全新的、开放的机架级设计及路线图，甚至将领先的机架级AI性能规划已经延伸至2027年以后。

除了硬件上的不断迭代，AMD真正的挑战还在于ROCm软件生态系统的建设，其持续突破也是业界的关注重点，最新版本ROCm 7已经面向生成式AI和高性能计算工作负载日益增长的需求做足准备。此外，包括Meta、甲骨文、微软等生态合作伙伴，都在会上展示了由AMD驱动的AI进展，特别是甲骨文首批采用了AMD Instinct MI355X GPU打造开放机架级AI基础设施。这既是AMD Instinct系列GPU的“里程碑时刻”，也证明了市场对于打造多元化的基础设施持有浓厚兴趣，得益于全新架构的计算集群设计，如今的AMD正在迎来一波新的AI高性能设备的市场风口。在全球AI硬件市场突破4000亿美元规模的背景下，AMD这场大会承载着行业对多元化AI算力格局的深切期待。从Lisa Su博士所阐述的全面的端到端集成 AI 平台愿景，以及基于行业标准构建的、开放且可扩展的机架级AI基础设施来看，AMD正在通过一系列广泛的硬件、软件和解决方案组合，加速打造开放AI生态系统，硬撼英伟达在AI芯片领域的绝对地位。

Instinct MI350系列GPU：AI算力提升4倍，推理性能暴增35倍

AMD发布了Instinct MI350 系列 GPU，为生成式 AI 和高性能计算设定了性能、能效和可扩展性的新基准。该系列包含了基于CDNA 4架构打造的Instinct MI350X和MI355X GPU及平台，采用了台积电的3nm工艺，集成1850亿晶体管。MI350系列实现了代际AI计算性能提升4倍，以及推理性能代际“飞跃式”提升35倍，这是其挑战英伟达的最新技术武器之一，也代表了AMD目前在AI加速计算领域的实力。内存带宽和容量优势是AMD对抗英伟达尖端GPU芯片的重要筹码，该优势在Instinct MI350系列GPU上得到进一步放大，其内存容量（288GB HBM3E）和带宽（最高 8TB/s）性能表现十分抢眼，使得推理和训练工作都能获得更好的吞吐量，特别适用于对AI并行化算力负载要求较高的生成式AI模型训练和推理任务。

图：MI350系列提供更快的AI推理速度、支持更大的模型

MI350系列在封装方面的三大创新点包括：首先是延续小芯片设计，N3P工艺的计算芯片(XCD)堆叠在N6工艺的I/O芯片(IOD)上，集成 AMD Infinity Fabric AP互联总线，这种异构集成既能提升性能又能降低功耗；其次是封装技术，采用成熟的COWOS-S封装而非更昂贵的COWOS-L；第三，采用混合键合架构，3D堆叠提升计算密度，2.5D集成HBM3E显存和互联技术。

图：MI350系列在封装和小芯片领域的创新

Instinct MI350系列提供风冷和直接液冷的灵活配置，风冷机架中最多可部署64 个 GPU，直接液冷机架中最多可部署128个GPU，提供高达2.6 exaFLOPS 的 FP4/FP6 性能。这意味着在基于行业标准的基础设施上，能够实现更快的AI应用部署并能够降低成本。

图表：Instinct MI350系列具体规格

图：Instinct MI355X系列GPU在内存和带宽方面的具体表现

图：AMD Instinct MI350 系列专为严苛工作负载而设计

根据Lisa Su博士的介绍，AMD Instinct MI300X系列GPU相比英伟达B200，每美元可处理的Token数量提升高达40%，这其实是对性价比的直接量化，相当于在运行大语言模型（LLM）时，单位成本下的计算效率提升40%。值得注意的是，Tokens/$并非纯算力对比，而是更贴近用户的实际成本考量出发，这也是AMD“硬刚”英伟达最先进GPU的核心考量。

此外，在主流大模型推理任务中，AMD Instinct MI355X系列吞吐量超越了英伟达B200和GB200，关键数据如下：

DeepSeek-R1模型（FP4精度）：MI355X 吞吐量为B200性能 1.2倍。
Llama 3.1 405B模型（FP4精度）：MI355X 吞吐量为B200的 1.3倍；
Llama 3.1 405B模型（FP4精度）：MI355X 吞吐量与GB200持平。

同样，在大模型的训练和微调方面，AMD Instinct MI355系列与英伟达B200、GB200相比，也展现出了有竞争力的性能，关键数据如下：

预训练场景： Llama 3 70B / Llama 3 8B（FP8，BF16）：MI355X性能与B200持平。
微调场景： Llama 2 70B（纯FP8精度）：MI355X性能是B200的 1.13倍，是GB200的1.1倍。

目前看来，MI350系列GPU的生态系统势头非常强劲，处于准备就绪、随时部署的状态。它将通过领先的云服务提供商（包括主要超大规模云厂商和下一代新锐云厂商）广泛上市，戴尔 (Dell)、慧与 (HPE) 和超微 (Supermicro) 等顶级OEM厂商正在将MI350系列解决方案集成到他们的平台中，提供强大的混合AI 基础设施。

ROCm 7超过3.5倍推理性能提升，引领开放AI革命

除了硬件方面的不断迭代优化，AMD真正的挑战还在于ROCm软件生态系统的建设，这也是AMD能否真正撼动英伟达的关键。AMD 对 ROCm 的愿景是通过一个开放、可扩展且专注于开发者的平台，为所有人解锁创新潜能。根据Lisa Su博士的介绍，过去一年中，ROCm 迅速成熟，可提供领先的推理性能，扩展了训练能力，并深化了与开源社区的集成。如今，ROCm驱动着全球最大型的一些AI平台，支持Llama、DeepSeek 等主流模型，特别是在最新的ROCm 7版本中实现了超过 3.5 倍的推理性能提升。

凭借持续的更新、先进的FP4等数据类型以及FAv3等新算法，ROCm 不仅赋能下一代 AI 性能，同时以超越闭源替代方案的速度推动着vLLM和SGLang等开源框架的发展。 “ROCm 不仅是在追赶——它正在引领开放的 AI 革命”，Lisa Su博士强调。随着 AI 应用从研究转向真实世界的企业部署，ROCm 也在同步演进。ROCm企业级AI 将一套全栈式MLOps 平台推向台前，凭借支持超过 180万个 Hugging Face 模型的开箱即用体验，以及行业基准测试的引入，ROCm提供用于微调、合规、部署和集成的开箱即用工具，以实现安全、可扩展的AI。

在提升开发者体验方面，AMD提供更多的开箱即用工具、实时CI仪表板、丰富的技术资料以及活跃的开发者社区，让开发者在ROCm上构建应用变得前所未有的简单。此外，AMD还推出了开发者云（Developer Cloud），让开发者能够即时、无障碍地访问ROCm和AMD GPU。无论是优化大型语言模型还是扩展推理平台，ROCm 7、AMD开发者云都为开发者提供了快速从实验迈向生产所需的全套工具，在AMD直面英伟达的生态竞争方面，多年以来，CUDA的发展积累是AMD必须面对的挑战。Lisa Su博士指出，ROCm 正以开源速度、开发者优先的设计理念和突破性性能，开启 AI 创新纪元。从推理到训练再到全栈部署，其架构专为伴随 AI 未来演进而扩展设计。而随着 ROCm 7 与 AMD 开发者云的推出，AMD才刚刚启程。

明年见面：Instinct MI400 系列与 “Helios” AI 机柜

AMD的产品路线图也显示出前所未有的“激进”。根据Lisa Su博士公布的蓝图，AMD计划以大约每年一次的周期发布新品：MI325X于2024年第四季度上市，MI350系列在2025年推出，MI400系列则将在2026年推出。这一发布节奏与英伟达“一年一次AI GPU新品发布”的计划直接对标，表明AMD已准备好与英伟达展开长期、持续的正面竞争。

从目前了解到的信息来看，AMD Instinct MI400 系列将实现巨大的跨代性能飞跃，为大规模训练和分布式推理提供完整的机柜级解决方案。其关键性能创新包括：432GB的 HBM4 内存；19.6TB/s的内存带宽；40 PFLOPS的FP4性能和20 PFLOPS的FP8性能；300GB/s 的横向扩展带宽。

此外还有Helios AI 机柜基础设施，从底层开始构建，旨在将下一代领先的硬件——包括 AMD EPYC “Venice” CPU、Instinct MI400系列GPU和Pensando “Vulcano” AI 智能网卡——与 ROCm 软件统一整合为一个完全集成的解决方案。 Helios 设计为一个统一的系统，支持一个紧密耦合的纵向扩展域（scale-up domain），最多可容纳72个MI400系列GPU，提供每秒260太字节的纵向扩展带宽，并支持 Ultra Accelerator Link。

Lisa Su博士表示，“当我们展望以即将推出的 MI400系列和‘Helios’机柜架构为标志的AI 新时代时，Instinct MI400 系列将树立全新标杆——赋能企业快速行动、智能扩展，全面释放生成式AI与高性能计算的无限潜能。” 目前，70%的顶级AI客户已采用了AMD的GPU产品，通过最新发布的MI350系列和下一代MI400系列和 Helios机柜基础设施等，Lisa Su博士对于在AI领域的发展前景信心十足。

业界首款超以太网AI NIC，为下一代AI部署做好准备

为了充分满足未来AI工作负载需求、兼容开放生态系统，使客户在降低资本支出的同时，能够保持面向未来基础设施扩展的灵活性，AMD推出了业界首款支持超以太网联盟（UEC）特性的AI智能网卡——AMD Pensando Pollara 400，该AI智能网卡专为加速后端网络应用而设计，实现了400千兆比特每秒（Gbps）的以太网传输速率。如下图所展示，AMD Pensando Pollara 系列AI智能网卡在RoCEv2协议下，能够提供领先业界的RDMA性能，较主流竞品提升 20%，在RCCL吞吐量测试中，Pollara是英伟达CX7的1.1倍、博通Thor2的1.2倍。

值得强调的还有AMD Pensando Pollara 400 AI智能网卡的可编程特性，它基于AMD的第三代全硬件可编程Pensando P4引擎，客户可启用UEC功能，为网络监控与性能调优注入智能化能力。依托全可编程P4引擎，用户可通过升级使任何Pollara 400网卡适配新行业标准（包括UEC制定的规范），从而助力企业、云服务提供商及研究人员最大化基础设施投资价值。凭借400Gbps的GPU间通信速度，该网卡可显著加速以下场景任务完成时间：训练超大规模AI模型、部署下一代AI模型、开展前沿技术研究等。此外，它具备智能网络监控功能，能够大幅缩减传统网络监控与性能调优耗时，在执行网络负载均衡的同时，能够实时监控网络指标，使运维团队能在潜在网络问题升级为严重故障前主动识别并处理。

写在最后

AI芯片竞争早已超出单纯的技术参数比拼，演变为软硬件系统性能、生态构建等能力的综合实力比拼。面对英伟达的先发优势，AMD需要的不仅是GPU晶体管数量的领先，更是一场从开发习惯到产业标准、生态的全方位变革。今日Advancing AI大会，Lisa Su博士揭幕的不仅是芯片，也是AMD重塑AI算力版图的宣言。正如Lisa Su博士所强调的，AMD 是唯一具备全面覆盖数据中心、边缘及终端设备端到端AI能力的供应商，拥有支撑全栈AI所需的广度产品阵容与深厚软件实力。目前，AMD已在构建市场核心竞争力的基石——涵盖底层产品、关键技术及客户生态方面取得重大突破。 AMD坚信，凭借数据中心AI业务的规模化扩张（2024年营收超50亿美元，未来数年将增长至数百亿美元年营收），AMD正步入一条长期高速增长轨道。

展开阅读全文

更新时间：2025-11-27

标签：科技英伟全局战略系列性能模型开发者博士基础设施机架芯片网卡

1 2 3 4 5

AMD全局AI战略揭秘：硬撼英伟达，从更强GPU到开源革命

Instinct MI350系列GPU：AI算力提升4倍，推理性能暴增35倍

ROCm 7超过3.5倍推理性能提升，引领开放AI革命

明年见面：Instinct MI400 系列与 “Helios” AI 机柜

业界首款超以太网AI NIC，为下一代AI部署做好准备

写在最后

硬罡CUDA！AMD ROCm 7发布：AI训推性能暴涨3.8倍

谷歌Pixel 10手机将支持Qi2磁吸充电、扬声器升级

传京东在沙特已有超千人团队，最新回应：对传言不予评论

钟南山：对待当前新冠病毒感染不要慌

应对全球空间天气灾害！我国科学家发起国际子午圈大科学计划

全国宇航专用计量测试技术委员会获批成立

蒋崇华调度财政领域巡视反馈问题整改和“财政提质增收年”工作

茅台“杀疯了”？批发参考价跌破2000元

险资，继续“扫货”银行股！

佛山工会百万消费券发放，单件最高补贴1000元！领券攻略>>

盘前公告淘金：*ST金比复牌元一成物入主，中天火箭小型制导火箭主要为军贸出口

6月11日永赢先进制造智选混合发起C净值增长0.87%，今年来累计上涨42.15%

镍：短期基本面回暖后期偏空，价格有运行区间

央行今日开展1193亿元7天逆回购操作，操作利率为1.40%，与此前持平

四维图新：多家车企承诺支付账期不超60天现金有望快速回笼

硬罡CUDA！AMD ROCm 7发布：AI训推性能暴涨3.8倍

忻州市政府与农行山西分行签署战略合作协议

东土科技：公司与国内工业机器人合作伙伴基于国产化方案

厦企科技展团亮相第十一届上交会

成都天府会智云枢科技有限公司成立，注册资本1000万人民

力源信息：预计下半年公司仍有新的芯片产品型号上市

豆包推“按需降价”，新一轮大模型“价格战”开打！

下一波AI催化剂来了？大摩详解英伟达GTC三大亮点：欧洲投

中国企业亮相法国“科技万岁”科技创新展

突发利空！芯片巨头大跌！