英伟达突然宣布全面液冷:AI真正的大机会,开始转向基础设施

过去三年,AI圈全在狂热争抢GPU门票。

但随着新一代芯片功耗跨过千瓦大关,机架内热量爆表,算力进化的咽喉正从芯片性能悄然转移。2026年6月,英伟达抛出重磅炸弹,宣布其Vera Rubin平台将成为全球首个100%全面液冷的AI计算节点,彻底打破原有的产业共识。

高达45℃的冷却液直达发热腹地,不仅大幅降低能耗,更将物理部署空间极限压缩。当底牌从单纯的算力堆砌翻转至深层热管理时,冷酷的物理规律再次占据上风。

要想在这个时代存活,就必须直面供电、散热和数据中心基建。

我们能从早期的行业摸索中发现端倪。最核心的一点是,云计算不是商品化服务,它是一种非常复杂、高度垂直整合的服务,涵盖从土地、土地审批、建设到高性能计算设计,再到软件虚拟化,以及上层云服务。

世界上最大的那些市值数万亿美元的公司,不管是Amazon、Microsoft、Google还是Oracle,都在做云计算业务,这是有原因的,因为这是一门好生意。

当时大家最根本的误解,就是以为GPU云服务和普通云服务本质差不多,只不过是为AI时代设计的云服务。甚至出现了2023年的H100,现在租出去的价格比当初买的时候还贵的情况。

有观点认为GPU的租赁价格是在下降,但实际情况要拆分不同的定价体系来看。市场里有两种不同费率,一种是公有云的按需费率,另一种是长期租赁费率。

有些指数没有把这一点正确纳入进去,导致统计结果和实际情况有偏差。实际运行中相关负责人看到的是,长期租赁费率非常稳定甚至在上升,按需租赁费率也非常稳定,而且在上升。

当时很多人以为囤积GPU便能高枕无忧,但现实是,AI真正的大机会已随着高耗能芯片落地,悄然转向基础设施。算力建设的瓶颈在成为全局问题之前,通常都是局部问题,比如某一个项目可能卡在发电机上,或者卡在UPS系统上,这取决于具体站点的特殊情况。

但从整个行业来看,主要瓶颈基本上是土地和电力资源,也就是一块土地已经获准使用,并且公用事业公司承诺给它一定兆瓦数的电力。当然还有数据中心本身,以及进入数据中心的机械电器和管道设备,也就是MIP设备。

现在全球确实存在反数据中心运动,这件事经常上新闻,肯定是真实存在的。任何承接大型资本项目的社区,不管是承接电厂、太阳能农场、数据中心还是配送中心,都理应希望参与决策。

总体来看,社区居民想要工作机会,想要税收收入,任何大型资本建设都会带来大量税收,也会带来很多工作机会,还会把投资带进他们的社区。

他们真正表达的诉求是希望在这些项目开发过程中有发言权,让他们的声音被听见,这很重要,开发方也需要真正理解这个社区。

另外现在外界有很多关于数据中心的错误信息,比如有人说数据中心耗水很多,实际上几乎每一个现代的Blackwell级别或者Rubin级别GPU部署,很多时候都用封闭的直达芯片液冷系统并连接到干冷气,几乎没有蒸发,不会消耗大量水。

除此之外,大多数数据中心开发项目还会给电网带来大量电力,它们要么建设表后供电,要么把电池储能系统接入电网。它们还会带来很多附带好处,能增强和加固电网,而且从长期看,也会帮助维持社区所承受的成本水平。

现在有一条很清楚的路径,可以把数据中心到底会带来什么这些事实讲得更广一些,因为现在错误信息太多了。在美国,几乎没有新的数据中心建设会用蒸发冷却去做这种闭环直达芯片液冷系统。

行业现在都在努力优化和公众的沟通,把收益和成本清晰直接地呈现给社区,让他们能够好好判断自己社区里想要什么样的工作机会,想要什么样的发展。

业界关于冷却方案的争辩一直没断过,但随着2026年全面液冷架构确立,突破电力与土地硬约束成了云厂商生死的考卷。当运行一个云服务时,会训练模型,或者上传已经训练好的模型,然后准备开始做大规模推理。

这时候需要一个地方来放数据,这些数据可能是训练时用的数据,也可能是从终端客户那里流进来的数据,所以高速存储是非常重要的一部分。他们提供的基本上是面向AI优化的文件系统服务,它比标准的云文件系统快很多。

标准云文件系统可能更像传统的NFS那类东西,而这个是高度优化的并行文件系统,设计目标是高性能读写,尤其是高性能读取,大多数工作负载主要都是读。有人问他们这个存储是完全内部做的吗?

首先得明确,所谓完全内部做的定义到底是什么?比如该公司从来没有自己画过PCB,也没有自己写虚拟化软件。

举个例子,他们用的是KVM、QEMU来做虚拟化,一部分存储用的是现成的通用硬件,上面装他们自己的软件,他们也会和一些存储合作伙伴一起做。但总体来说,他们在云上做的东西,该负责人一般会说是他们借助更大的生态自己搭出来的。

因为说到底,除非自己去开采超高纯硅,再自己搞一个ASML出来,否则根本不存在什么完全从零自己做这件事。说完存储,还有网络部分。

大家可以这样理解,人们手里有一堆GPU,假设有一个一万块GPU的集群,本质上就是一堆GPU加一些CPU服务器,因为还需要一组编排用的服务器,然后还有一些存储。

所有CPU服务器、存储服务器和GPU服务器都要和存储互联,这样他们才能快速读写,这类通信发生在所谓的带内网络上。另外还有计算网络,各种权重和特征激活会在这张计算网络里共享。

还有一张带外监控网络,通过它可以访问BMC或者一些DPU。当想要从一万个GPU的集群里切出一个子分区时,必须同时切分带内网络、带外网络和计算网络,所以这里面有很复杂的协调。

要从一堆裸金属系统变成一个虚拟化系统,而且它还要有RDMA,也就是远程直接内存访问,让它们能快速读写,不只是从磁盘读写,还要能从彼此的内存里读写,从GPU的HBM内存里读写。

这种直接内存访问要让数据可以直接从一块GPU到另一块GPU,而不是先复制到CPU里。要让这一整套东西都跑起来,是一个极其庞大的软件工程。

把时间线拉长来看,单靠堆硬件已临近物理极限,深水区整合的终极体现,正是这些承载算力底座的基础设施。回到最开始那个问题,大家到底哪里没理解AI云服务?

首先答案是大多数AI云服务商并没有这种技术,然后还要让它和存储一起正常工作。也可以由此理解,一个现代AI数据中心里面有多少不同的活动部件,一个AI数据中心到底怎么工作?

很多人会说AI数据中心是什么,但其实还得再往下一层看。如果去问一个传统的AI数据中心房东,数据中心里面到底在发生什么?

他们会说他们是做地产的,这部分他们外包给总包,但总包当然也不知道里面具体跑的是什么,真正知道的是他们的租户。所以这才是AI数据中心内部真正发生的事。

如果人们更清楚地知道一个AI数据中心其实就是在处理发给大语言模型的那些请求,他们的理解会不一样,有时候他们甚至没有意识到AI数据中心做的其实就是这些事。由此可见,未来的算力角逐已彻底变为硬核基建比拼。

技术跃迁终将迎来价值重分配。上半场大家拼算力核心;下半场,随着全面液冷第一枪打响,财富流向骤然倒转。

从高压水泵到冷板等隐形基建,正一跃成为大模型的生死命脉。千瓦时代,拼散热就是拼算力。

唯有顺应此势,方能抓住AI真正的大机会,看懂全面转向基础设施的终极底牌。

#上头条 聊热点#

展开阅读全文

更新时间:2026-06-27

标签:科技   英伟   基础设施   机会   数据中心   网络   费率   社区   芯片   工作   文件系统   系统   土地   服务器

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight All Rights Reserved.
Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号

Top