摩尔线程又搞大事了!MiniMax M2.5发布当天就完成适配!



你可能没注意到,国产GPU正在悄悄完成一场逆袭。

就在昨天,MiniMax发布了新一代大模型M2.5,主打编程和Agent能力,性能直接对标Claude Opus 4.5。而就在发布的当天,摩尔线程就宣布:已经在旗舰产品MTT S5000上完成了Day-0适配。

没错,就是发布当天,国产GPU就能跑通最新的大模型。

这已经不是第一次了。从GLM-4.6、GLM-4.7到GLM-5,摩尔线程一直在玩"发布即适配"。智谱刚发GLM-5,他们就宣布适配成功;MiniMax刚发M2.5,他们又跟上。

这种速度,以前想都不敢想。

为什么这次适配这么重要?

MiniMax M2.5可不是普通的大模型。它在编程能力上相当猛,SWE-Bench Verified得分80.2%,Multi-SWE-Bench得分51.3%,直接超过了Claude Opus 4.6。这意味着它能够处理从系统设计到代码审查的全流程开发,就像一个真正的软件架构师。

更重要的是,它速度快、成本极低。100 TPS的输出速度是主流模型的两倍,运行一小时成本只要1美元。换句话说,1万美元能让4个Agent连续工作一年。

但这样的模型,对算力的要求也极高。尤其是长上下文处理能力,对计算效率提出了前所未有的要求。

MTT S5000凭什么能扛起这个任务?

简单说,就是三个硬核技术的叠加。

第一个,原生FP8加速。

如果你把数据传输比作物流,以前要搬运厚重的大木箱,既占空间又费力气。FP8就像是把这些木箱换成了轻便、标准化的真空压缩包,能在保证AI"智商"不掉线的前提下,把计算效率直接翻倍。

MTT S5000是国内最早一批原生支持FP8精度的训练GPU,专门针对这种"压缩包"的处理逻辑做了优化,让同样的硬件能干两倍的活。实测显示,在DeepSeek-V3 671B满血版的推理中,单卡Prefill吞吐超过4000 tokens/s,Decode吞吐超过1000 tokens/s,刷新了国产GPU的推理纪录。

第二个,ACE异步通信引擎。

在大模型集群里,成千上万块显卡要频繁"交流"数据。以前显卡就像一个既要搬砖又要接电话的工人,刚接电话的时候就不能搬砖。

MTT S5000的ACE引擎就像给搬砖工人配了一个专职秘书,所有的"接打电话"任务都由秘书处理,工人只管24小时埋头搬砖。这样一来,计算和通信互不干扰,整体效率自然起飞。

实测显示,从64卡扩展到1024卡,系统始终保持90%以上的线性扩展效率,训练速度随算力增加几乎同步倍增。

第三个,专用加速单元。

大模型在计算时有一些固定、重复的问题,每次都要算。以前遇到这种情况基本都是靠通用计算单元去硬算,不仅算力浪费大,效率也很一般。

S5000专门划出了一块区域来做这些重复的问题,遇到这种特定算法需求直接走"VIP通道",这种有针对性的设计让它在处理大语言模型时有着天然的加速优势。

这些不是纸面上的参数,是实打实的战绩。

今年1月,智源研究院基于MTT S5000千卡集群完成了具身大脑模型RoboBrain 2.5的训练与验证。结果显示,S5000与H100集群的训练损失值差异仅为0.62%,整体训练效果甚至实现了小幅超越。

在典型端到端推理及训练任务中,S5000的性能可达英伟达H20的2.5倍左右。这意味着在某些场景下,国产GPU已经不再只是"能用",而是"更好用"。

这背后是一个完整的生态体系。

摩尔线程的MUSA软件栈原生适配PyTorch、Megatron-LM、vLLM、SGLang等主流框架,开发者可以"零成本"完成代码迁移。TileLang原生算子单元测试覆盖率已超过80%,使得绝大多数通用算子可直接复用,显著降低移植成本。

更重要的是,他们已经构建了从千卡到万卡的规模化部署能力。基于S5000的夸娥万卡集群已经落地,浮点运算能力达到10EFLOPS,在Dense稠密模型训练中MFU达到60%,在MoE专家模型中维持在40%左右,有效训练时间占比超过90%。

国产GPU已经走出了"能用就不错"的阶段。

以前提到国产GPU,大家的印象往往是"能跑"、"勉强能用"。但现在,情况已经完全不同了。

摩尔线程创始人张建中曾是英伟达全球副总裁兼中国区总经理,在GPU行业深耕超过十五年。2020年他创立摩尔线程,联合创始人周苑和张钰勃同样出身英伟达。这支团队对GPU从芯片设计到市场生态的每一个环节都了如指掌。

正是这种深度的技术积累,让他们在短短几年内就完成了从跟跑到并肩的跨越。从2024年推出S5000,到2025年12月在上交所科创板上市,成为国产GPU领域首家公开挂牌企业,他们只用了5年时间。

这不仅是摩尔线程的胜利,是整个国产AI算力的胜利。

在当前的国际环境下,英伟达高端芯片对中国市场的供应受到限制。H100、H200等高端产品无法正常出口中国,国内企业能买到的只有性能大幅缩水的H20。

在这个背景下,MTT S5000的意义就不仅仅是"对标"了——它提供了一个真正可用的、高性能的国产替代方案。

随着MiniMax M2.5、GLM-5等国产大模型的崛起,再加上摩尔线程、沐曦、天数智芯等国产GPU的快速迭代,一个完整的国产AI算力生态正在形成。

从"发布即适配"到"越用越好用",国产GPU正在用实际行动证明:差距在缩小,生态在成熟,属于中国AI的时代正在加速到来。

记住这个时间点,因为几年后回过头看,这可能就是国产AI算力真正崛起的转折点。

展开阅读全文

更新时间:2026-02-24

标签:科技   线程   当天   模型   英伟   集群   效率   能力   能用   生态   成本   中国

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight All Rights Reserved.
Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号

Top