昇腾做了一件英伟达都做不成的事!万亿模型只认国产算力

6月8日,深圳发布一则不起眼的通报,却在全球AI行业炸开了锅——深圳河套学院联合哈工大(深圳)、深圳市大数据研究院、华为等团队,依托昇腾910C国产AI算力集群,成功完成1.6万亿参数大模型DeepSeek-V4-Pro的全参数后训练。这不仅是技术层面的国产化突破,更是中国AI产业底层算力格局的一次根本性重塑。南华早报等海外主流科技媒体当天也跟进报道,称这一进展标志着在美国制裁持续收紧的背景下,中国半导体正从基础的AI推理,正式迈向更复杂的模型训练阶段。


1.6万亿参数意味着什么?


DeepSeek-V4-Pro是目前全球最大的开源MoE(混合专家)模型,总参数规模达1.6万亿,激活参数490亿。为了训练这个庞然大物,其预训练数据量高达33万亿Token,相比上一代V3直接翻了一倍还多。行业长期存在一个共识:国产芯片跑跑推理、做做微调没问题,但要全参数训练这么大的模型,几乎不可能。此次攻关证明这一判断已被彻底打破,国产AI芯片不仅“能用”,而且“能训”。


“全参数后训练”六个字的含金量


为什么说这是“最难的门槛”?很多人分不清“推理”和“训练”的区别。推理是模型已经学好了,按部就班回答问题,相当于一条“单行道”,这也是国产芯片此前主攻的领域。而全参数训练要同时调整1.6万亿个参数,模型需不断自我反思、多层反馈迭代,计算和通信量翻了好几倍。若用比喻,推理就像给模型修了一条单行道,输入问题就输出答案;而全参数后训练相当于在单行道之上,还要搭建立交桥和复杂的反馈回路,难度不可同日而语。更棘手的是,DeepSeek-V4-Pro采用MoE架构,推理时只激活少数“专家”,训练时却要所有专家同时学习,海量通信造成的数据交换量是普通模型的几十倍。此前业内普遍认为,国产芯片根本扛不住这种级别的全参数训练。


三个工程绝招:硬生生把不可能啃下来


面对技术天堑,联合攻关团队打了三场硬仗:


“显存拼图” :1.6万亿参数不是任何一张芯片能独自装下的。团队构建了权重、梯度、激活、优化器状态的分布式承载方案,将巨量参数如同拼图般精准拆分到千卡级算力集群的每一块芯片上,让数据并行、张量并行、流水并行与专家并行四者协同工作。


“负载均衡” :MoE架构最怕“忙闲不均”。团队优化了MoE路由与稀疏注意力算子,建立专家负载均衡机制,动态分配任务,彻底解决了跨卡通信拥堵与负载失衡问题。


“全程不掉线” :大模型训练最怕中途崩溃,功亏一篑。团队构建全指标可视化长稳监控体系,千卡集群同步运行,最终完成1500多步稳定迭代,全程零中断、零报错、无NaN异常迭代。关键训练算子效率较初始版本提升约14%,最终MFU稳定达34.9%,单步训练仅27秒。即便用顶配海外芯片,很多团队也仅在40%左右。


这个突破让国产算力站上了新台阶:仅用1个月时间,项目就基于昇腾910C国产算力集群实现了DeepSeek-V4-Pro全参数续训练/SFT稳定运行。深圳发布在报道中明确指出,“此次实践为全球第三方机构在国产算力平台上完成该级别模型训练的相关探索积累了重要经验,也印证了国产AI芯片可支撑世界级超大参数模型训练工作”。


昇腾910C:一颗扛起国运的芯片


能“驯服”1.6万亿参数的庞然大物,昇腾910C绝非等闲之辈。它采用中芯国际7nm(N+2)工艺,集成约530亿个晶体管,FP16精度下算力高达640-800TFLOPS,内存带宽3.2TB/s,HBM容量128GB。性能对标英伟达H100,在DeepSeek R1模型推理等场景中甚至超越H800。有市场消息称,华为目前每个月昇腾910C产能已达约20万颗。整卡国产化率约55%,支撑着“国模+国芯”方案的全面落地。


不只算力突破,更是人才孵化


比技术突破更被低估的价值,是人才的培养。这次攻坚变成了一场真枪实弹的练兵场,累计培养42名在校学生从环境搭建开始全程参与万亿级模型训练,形成了“青年教师指导-博士生攻坚-工程团队支撑”的完整梯队。此前,没有高端算力平台,年轻人连摸一摸万亿集群的机会都很难得到。现在这批经历过真实工程挑战、知道哪里会出问题、知道怎么解决问题的实战工程师,正是国产AI产业未来最宝贵的资产。


看懂中国半导体的“弯道超车”逻辑


表面看,这是一颗芯片、一个团队在训练一个大模型的技术事件。但剖开来看,背后藏着三大深层信号:


第一, 从“可用”到“好用” 。过去行业一直觉得国产芯片能跑模型就不错了,这次证明了国产芯片可以稳定跑通世界级超大参数模型的全参数训练。国产算力已经跨过了从“推理主力”到“训练主力”最关键的鸿沟,进入全球超大规模AI训练的核心赛场。


第二, 生态闭环正在形成 。DeepSeek-V4发布时,就已原生支持华为昇腾NPU部署,华为昇腾超节点系列宣布全面支持该系列模型。黄仁勋在闭门讲话录音中坦言,中国100万AI从业者几乎全天扑在AI研发上,美国硅谷最多不超过2万人,投入体量不在一个量级;他还明确表示,千万不要低估华为的实力,在大量实际负载场景里,昇腾910C已展现出了相当亮眼的性能表现。当顶尖大模型与国产算力基座完成绑定,美国长期推行的芯片封锁就会失去关键抓手。


第三, 市场格局已变。国际数据公司数据显示,英伟达在华市场占有率已由三年前的95%以上骤降至2025年的55%。2026年第一季度,国产芯片市场份额首次过半数。多家机构预测,华为昇腾系列2026年或将占据中国AI芯片市场半壁江山。摩根士丹利发布报告认为,到2030年中国AI芯片自给率将达到86%,潜在总体市场规模达670亿美元。


从“受制于人”到“势在人为”


这场突破不止关乎一颗芯片、一个模型,它是整条国产AI产业链的一次集体宣誓。正如深圳发布在通报中所言,此次实践“印证了国产AI芯片可支撑世界级超大参数模型训练工作”。这次突破证明了,在海外垄断的重镇——大模型训练领域,我们不仅能做,而且能做得好。当越来越多国内顶尖团队开始用国产芯片跑通万亿大模型,属于国产AI的黄金时代,才刚刚揭开序幕。

展开阅读全文

更新时间:2026-06-10

标签:科技   英伟   模型   芯片   参数   华为   团队   深圳   集群   中国   数据   单行道

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302034903号

Top