国产GPU“核弹”参数曝光：1000 TFLOPS算力，性能直逼Blackwell？

摩尔线程AI旗舰级计算卡MTT S5000性能首次曝光，这是摩尔线程2024年推出的、专为大模型训练、推理及高性能计算而设计的训推一体全功能GPU智算卡。

摩尔线程在其官网中，首次公布了S5000的硬件参数：支持FP8到FP64的全精度计算，其单卡AI算力（FP8）最高可达1 PFLOPS，显存容量为80GB，显存带宽达到1.6TB/s，卡间互联带宽为784GB/s。业内人士表示，MTT S5000实测性能对标H100，在多模态大模型微调任务中，部分性能甚至超越H100。

在芯片架构层面，S5000采用第四代MUSA架构“平湖”，专为大规模AI训练优化，依托MUSA全栈软件平台，原生适配PyTorch、Megatron-LM、vLLM及 SGLang等主流框架，让用户能够以“零成本”完成代码迁移，兼容国际主流CUDA生态。

在计算精度方面，S5000作为国内一批最早原生支持FP8精度的训练GPU，配置了硬件级FP8 Tensor Core加速单元。相比传统的BF16/FP16，FP8可将数据位宽减半，显存带宽压力降低50%，理论计算吞吐量翻倍。其FP8引擎全面支持DeepSeek、Qwen等前沿架构，可提升30%以上训练性能。

基于S5000构建的夸娥万卡集群已经落地，其浮点运算能力达到10Exa-Flops，在Dense模型训练中MFU达60%，在MoE模型中维持在40%左右，有效训练时间占比超过90%，训练线性扩展效率达95%。依托原生FP8能力，它能够完整复现顶尖大模型的训练流程，其中Flash Attention算力利用率超过95%，多项关键指标均达到国际主流水平。

在集群通信层面，S5000采用独创的ACE技术，将复杂通信任务从计算核心卸载，实现计算与通信的零冲突并行，大幅提升模型算力利用率（MFU）。实测显示，从64卡扩展至1024卡，系统保持90%以上的线性扩展效率，训练速度随算力增加几乎同步倍增。

2026年1月，智源研究院基于S5000千卡集群，完成了前沿具身大脑模型RoboBrain 2.5的端到端训练与对齐验证。结果显示，与英伟达H100集群的训练结果高度重合，训练损失值（loss）差异仅为0.62%。

除了训练，S5000在推理场景同样表现优异。2025年12月，摩尔线程联合硅基流动，基于S5000完成了对DeepSeek-V3 671B满血版的深度适配与性能测试，实测单卡Prefill吞吐超4000 tokens/s，Decode吞吐超1000 tokens/s，这一成绩刷新了国产GPU的推理纪录。

展开阅读全文

更新时间：2026-02-23

标签：科技核弹性能参数模型集群线程显存精度架构带宽主流利用率

1 2 3 4 5

国产GPU“核弹”参数曝光：1000 TFLOPS算力，性能直逼Blackwell？

“信号通了，村子就‘活’了” 看中国移动山西公司如何织密深山通信网

全都“叛变”了，台积电、三星接连宣布，外媒：中国不买了？

年关将至，收起赌性！

一顿饭上百万，8年敛财14亿，“金融才女”朱丽丽最终下场如何？

美国惨败中国！对付霸权的方法，毛主席早在70年前就已经挑明

美国真衰落？别被忽悠了！把中国拿掉再看，结果吓你一跳！

〖复盘·解密〗2月12日市场最强热点

80岁老两口炒股几十年稳赚：他们的“笨办法”，才是股市人活命招

再创历史新高！史诗级爆涨…这个板块注定是今年最具潜力增长空间

刷新下限！美财长贝森特：万亿贸易顺差，中国赚的太多，必须调整

a股最后两天交易，过了今天持股不出，明天钱就出不来了

美国后花园是南美，俄罗斯的后花园是中亚，中国的后花园是哪里？

破防！A股洗盘洗到低点，底在哪？基民抄底实操指南

王中磊消费降级，小年和老婆吃25元套餐，亲自取餐喂老婆像服务生

中国将迎人口死亡高峰！22年1041万，23年1100万，去年死亡多少？

百年老街涌动科技年味树莓VR未来影院中英街快闪店开

vivo X300 Max(S)入网：天玑9500+7000mAh电池，大屏性能旗

马斯克公布 xAI 新组织架构，提出月球人工智能卫星工厂

A股:周四下午传来3个核弹级利好!A股很可能会迎更大级

纳指承压，科技熄火？美股逻辑重构：盯紧AI基建与能源主升浪

这4种坚果不建议购买，满满的“科技与狠活”，别再吃了！

内存暴涨不慌！青云科技云易捷柔性算力破局成本黑洞

首届河南省无人机足球联赛热身赛在郑州航空港区科技一

红米K90至尊版参数实锤！10000mAh+主动风扇，2500档

要过年了，建议这4种年货不要碰，都是科技与狠活，看看都有