今天,市场虽然冲高回落,但是hw算力链全线走强。
板块内利和兴直接20c封板,另外烽火通信等涨停(只是举例子,不是推荐)。
主要的消息面是,今天hw在全联接大会上发布了昇腾AI芯片的技术路线图,以及新一代Atlas超节点计算系统。
从行业发展来看,这不是一次孤立的产品发布,而是国产AI基础设施在经历多年投入后,进入系统性兑现阶段的一个信号。
那么站在当下,国产AI算力的投资机会如何?这个位置怎么看到hw的昇腾AI芯片的技术升级?
昇腾950不是一张追求峰值算力的“秀肌肉”产品,而是一个为大规模AI训练场景设计的工程化解决方案。
它包含两个版本:
昇腾950PR(2026年Q1发布):支持FP8精度计算,算力达1 PFlops,配备128GB显存,互联带宽2TB/s,首次采用自研内存接口HiBL 1.0;
昇腾950DT(2026年Q4发布):显存提升至144GB,互联带宽翻倍至4TB/s,重点优化推理与解码效率。
从参数看,它的单卡性能并未对标当前国际最高水平,但设计目标明确:服务于万卡级集群下的高效协同。
换句话说,它不追求“跑得最快”,而是“跑得最稳、最可持续”。
这一点从其配套系统——Atlas 950 SuperPoD的设计中也能看出:支持8192卡集群,算力8EFlops@FP8,采用全光互联架构,总带宽16.3PB/s。
这意味着,昇腾950的本质,是作为超节点系统中的标准化计算单元存在,而非独立销售的消费级产品。
它的核心任务,是在大模型训练中降低通信开销、提高资源利用率、减少故障中断。
在这个语境下,单卡算力只是分子,系统效率才是分母。
过去五年,千亿参数已成为主流,万亿级模型也开始进入训练阶段。
这种变化带来一个根本性转变:算力瓶颈从“芯片”转移到了“系统”。
一张高性能加速卡,在小规模集群中表现优异,但在上万卡并行时,可能因通信延迟、负载不均、散热不稳等问题,导致实际利用率不足40%。
这才是当前真实世界的挑战。
昇腾950的设计逻辑正是回应这一现实:
通过MatrixLink互联架构,实现NPU与CPU之间的低延迟直连,通信带宽达269TB/s,端到端延迟压至200纳秒以内;
采用液冷散热方案,支持单机柜50kW功耗密度,PUE控制在1.1以下,提升长期运行稳定性。
根据公开报道的情况,在LLaMA3类密集模型训练中,该系统的有效算力利用率可达传统架构的2.5倍以上。
在Qwen、DeepSeek等稀疏激活模型上,性能增益更高。
这说明,昇腾950的价值不在“纸面参数”,而在单位算力的实际产出效率。
对于需要长期运行大模型训练任务的企业而言,这才是决定成本的关键。
技术再先进,如果开发者用不起来,也无法形成正向循环。
目前已有超过50家国内企业基于昇腾平台开发服务器和解决方案,部分大模型团队也在推进迁移适配。
这种协同不是靠补贴或行政指令推动的,而是因为——系统稳定性提升了,调试周期缩短了,运维成本下降了。
这才是生态建设的本质:不是谁号召力强,而是谁能帮客户省成本、提效率、降风险。
国产算力走到今天,已经过了“有没有”的阶段,正在进入“好不好用、经不经得起规模化考验”的新周期。
昇腾的选择很明确:不打参数战,不搞概念营销,而是回到计算机科学的基本命题,如何让更多的晶体管,真正服务于有效的计算。
这条路一旦走通,在特定集群场景下形成差异化优势。
特别声明:以上内容绝不构成任何投资建议、引导或承诺,仅供学术研讨。
如果觉得资料有用,希望各位能够多多支持,您一次点赞、一次转发、随手分享,都是笔者坚持的动力~
更新时间:2025-09-20
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号