第一时间,寒武纪原生适配DeepSeek-V4!两大国产之光再次强强联合

机器之心发布

今天上午,AI 圈心心念念的国产大模型之光 —— DeepSeek-V4 终于上线了!

第一时间,寒武纪基于 vLLM 推理框架完成了对此次 285B DeepSeek-V4-flash 和 1.6T DeepSeek-V4-pro 两个版本的 Day 0 适配,适配代码已开源到 GitHub 社区

连同去年 DeepSeek-V3.2 的发布,寒武纪连续两次都是第一时间发布适配的国产芯片。双方的紧密合作,得益于寒武纪长期积累的自研 NeuWare 软件生态与芯片设计技术,也是寒武纪对芯片与算法联合创新持续投入的延续。DeepSeek-V4 原生运行在寒武纪芯片上,这对中国人工智能产业具有里程碑意义。此前寒武纪对 DeepSeek 系列模型开展深入的软硬件协同性能优化,并达到了业界领先的算力利用率水平。

GitHub 项目地址:
https://github.com/Cambricon/vllm-mlu?sessionid=

本次适配从 “快速模型迁移” 与 “极致性能优化”两个维度,充分展现了寒武纪的核心技术实力。

快速完成 DeepSeek-V4 新模型适配,实现 Day 0 首发

在软件生态层面,寒武纪 NeuWare 软件栈全面拥抱开源社区,原生支持 PyTorch、vLLM、Diffusers 等主流 AI 框架,新模型可快速迁移至寒武纪平台;

在国产软件生态层面,寒武纪与众智 FlagOS 生态持续深度合作,解耦模型与不同架构芯片之间的生态壁垒,进一步降低模型适配迁移成本;

在算子开发层面,寒武纪充分利用 Triton 良好的社区兼容性和易用性进行快速算子开发适配,进一步缩短功能适配周期;

在 AI 协同层面,寒武纪研发了代码生成智能体 CNAgent,实现算子生成、模型迁移的全流程加速;

在硬件层面,寒武纪芯片原生支持主流低精度数据格式,无需额外转换即可快速完成功能适配与精度验证。通过软硬件协同,寒武纪在模型发布当日即可实现稳定运行,真正做到 Day 0 适配

极致性能优化,释放 DeepSeek-V4 推理潜能

针对 DeepSeek-V4 的新结构,寒武纪通过自研高性能融合算子库 Torch-MLU-Ops,对 Compressor、mHC 等模块进行专项加速;利用 BangC 高性能编程语言,编写稀疏 / 压缩 Attention、GroupGemm 等热点算子的极致优化 Kernel,充分释放硬件底层性能。

在推理框架优化层面,寒武纪在 vLLM 中全面支持 TP/PP/SP/DP/EP 5D 混合并行、通信计算并行、低精度量化以及 PD 分离部署等优化技术,通过策略优化,在满足延时约束下达到最佳的词元吞吐能力,显著提升端到端推理效率。

硬件特性同样被深度挖掘:利用 MLU 访存与排序加速能力,有效加速稀疏 Attention、Indexer 等结构;高互联带宽与低通信延时,将 Prefill 和 Decode 两种不同工作负载场景下的通信占比降至最低,最大化分布式推理的利用率。

正是这种软硬件一体化的设计思路,使得寒武纪能够在大模型部署中持续降低算力成本,提升性能上限。寒武纪将继续深耕大模型软硬件协同生态,为开发者与客户提供更快、更省、更高效的大模型部署方案。

展开阅读全文

更新时间:2026-04-25

标签:科技   寒武纪   强强联合   模型   算子   层面   芯片   生态   软硬件   性能   快速   极致

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight All Rights Reserved.
Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号

Top