英伟达发布AI新“核弹”

今年的春季GTC活动中没有来自NVIDIA的任何新GPU或GPU架构，但该公司仍在推出基于过去一年推出的Hopper和Ada Lovelace GPU的新产品。在高端市场，该公司今天宣布推出一款新的H100加速器变体，专门针对大型语言模型用户：H100 NVL。

H100 NVL是NVIDIA H100 PCIe卡的一个有趣变体，标志着时代和NVIDIA在人工智能领域的广泛成功，旨在针对一个特定市场：大型语言模型（LLM）部署。这张卡片有几个不同于NVIDIA通常的服务器产品的特点--其中最重要的是它是2个H100 PCIe板，已经桥接在一起--但最重要的是它拥有大容量的内存。这个组合的双GPU卡提供了188GB的HBM3内存--每张卡94GB--比迄今为止任何其他NVIDIA部件的每个GPU提供更多的内存，甚至在H100系列中也是如此。

这个SKU的主要特点是：内存容量。像GPT系列这样的大型语言模型在许多方面都受到内存容量的限制，因为它们很快就会填满即使是H100加速器的所有参数（在最大的GPT-3模型中为175B）。因此，NVIDIA决定组合一个新的H100 SKU，每个GPU提供比它们通常的H100部件更多的内存，其最大容量为每个GPU 80GB。

在内部，我们所看到的基本上是GH100 GPU的一个特殊bin，放置在一个PCIe卡上。所有的GH100 GPU都带有6个HBM内存堆栈--可以是HBM2e或HBM3--每个堆栈容量为16GB。然而，出于产量的原因，NVIDIA只会启用其常规H100部件中的5个HBM堆栈。因此，虽然每个GPU名义上有96GB的VRAM，但常规SKU上只有80GB可用。

相应地，H100 NVL是神秘的完全启用的SKU，所有6个堆栈都已启用。通过启用第6个HBM堆栈，NVIDIA能够访问额外的内存和额外的内存带宽。这将对产量产生一些影响--NVIDIA保持着严密的秘密--但LLM市场显然足够大，愿意支付足够高的溢价以获得几乎完美的GH100包装，这使得NVIDIA值得付出。

即使如此，需要注意的是，客户并没有完全获得每张卡的96GB内存。而是在总容量为188GB的情况下，他们实际上获得了每张卡的94GB内存。在今天的主题演讲之前，NVIDIA在我们的预览中没有详细介绍这个设计特点，但我们怀疑这也是为了产量的原因，在HBM3内存堆栈内给予NVIDIA一些余地来禁用坏单元（或层）。最终结果是，新的SKU为每个GH100 GPU提供了14GB更多的内存，内存增加了17.5%。同时，该卡的总内存带宽为7.8TB /秒，单个板的内存带宽为3.9TB /秒。

除了内存容量的增加，从很多方面来看，大型双GPU /双卡H100 NVL内的个别卡看起来很像放置在PCIe卡上的H100的SXM5版本。而普通的H100 PCIe由于使用较慢的HBM2e内存，较少的活动SM /张量核心和较低的时钟速度而受到限制，NVIDIA为H100 NVL引用的张量核心性能数据与H100 SXM5相同，表明该卡片不像普通的PCIe卡片那样被进一步削减。我们仍在等待产品的最终和完整规格，但假设这里的一切都如所呈现，那么进入H100 NVL的GH100将代表目前可用的最高分选GH100。

在这里需要强调复数形式。正如前面提到的，H100 NVL不是单个GPU零件，而是双GPU /双卡零件，并且向主机系统呈现为这样。硬件本身基于两个PCIe形态因子的H100，使用三个NVLink 4桥连接在一起。从物理上讲，这与NVIDIA现有的H100 PCIe设计几乎相同--可以使用NVLink桥连接，因此两个板/四个插槽巨兽的构造没有区别，而是硅片内部的质量不同。换句话说，今天可以将普通的H100 PCIe卡绑在一起，但它不会匹配H100 NVL的内存带宽，内存容量或张量吞吐量。

令人惊讶的是，尽管规格令人惊叹，TDP几乎保持不变。H100 NVL是一个700W至800W的零件，其中每个板的下限为350W至400W，其中下限与常规H100 PCIe相同。在这种情况下，NVIDIA似乎优先考虑兼容性而不是峰值性能，因为很少有服务器机箱可以处理超过350W的PCIe卡（甚至更少的是超过400W的），这意味着TDP需要稳定。但是，鉴于更高的性能数据和内存带宽，尚不清楚NVIDIA如何承担额外的性能。在这里，功率分选可以起到很大的作用，但这也可能是NVIDIA将卡片的增压时钟速度提高了一倍，因为目标市场主要关注张量性能，而不会一次点亮整个GPU。

此外，NVIDIA决定发布基本上是最佳H100分选的决定是不寻常的，考虑到他们通常更喜欢SXM零件，但考虑到LLM客户的需求，这是一个明智的决定。基于SXM的大型H100集群可以轻松扩展到8个GPU，但是任何两个之间可用的NVLink带宽受到需要通过NVSwitches的限制。对于仅有两个GPU的配置，配对一组PCIe卡要直接得多，固定链接保证卡之间的带宽为600GB /秒。

但或许更重要的是能够在现有基础设施中快速部署H100 NVL。LLM客户不需要安装专门构建用于配对GPU的H100 HGX载体板，而可以将H100 NVL直接添加到新的服务器构建中，或作为相对快速的现有服务器构建的升级。毕竟，NVIDIA在这里针对一个非常特定的市场，所以SXM的正常优势（以及NVIDIA集体施加影响的能力）可能不适用于这里。

总的来说，NVIDIA标榜H100 NVL的推理吞吐量是上一代HGX A100的12倍（8个H100 NVL与8个A100）。对于希望尽快部署和扩展其系统以处理LLM工作负载的客户来说，这肯定是诱人的。正如前面提到的，H100 NVL在架构特征方面没有带来任何新的东西--这里的大部分性能提升来自Hopper架构的新变压器引擎--但H100 NVL将作为最快的PCIe H100选项以及具有最大GPU内存池的选项服务于特定的利基市场。

展开阅读全文

页面更新：2024-03-31

标签：张量英伟堆栈核弹内存容量卡片零件模型带宽内存性能市场

1 2 3 4 5

英伟达发布AI新“核弹”

每16天重复一次！科学家收到来自深空的神秘信号，会是外星人吗？

47岁腾讯技术大佬突然被裁，干了16年也不行，这是什么原因呢？

叶刘淑仪斥谷歌拒撤国歌错误信息，建议香港特区政府停止投放广告

LockBit 勒索软件团伙攻击了美国奥克兰市

双色球第2023032期，Python神经网络学习

太阳日益活跃，将在2025年达到顶峰？科学家们紧张地球会出现灾难

款款堆料到极致！OPPO华为三星旗舰各有亮点，选谁最合适？

珍爱网相亲平台有效增强平台安全性，保障用户网络安全

官宣！正式加入XRMA，青洲身份又多一项……

讯飞听见用“AI”助力全国两会高效记录

战胜客观挫败之后，华为正式回归，不止旗舰发力，性价比更香

iOS16.4准正式版今日推送推送，加入21个新Emoji表情，流畅省电！

创新领跑加速度深圳移动携手各界奔向极速先锋城市“星辰大海”

观察 - 推动行业发展为什么只有腾讯？

西邮通院科研团队获得国家重点研发计划重点专项子课题支持

黄德几：美国银行危机扰动市场港股下挫后逐渐企稳反弹

盘前必读丨华为相关人士称“进军ERP市场”系误读；瑞士

中国手机市场：华为排名下滑，苹果第二，VIVO成为新贵

骁龙7+Gen2背刺？综合性能比肩骁龙8+，中端手机市场终于有

资讯 - 国轩高科与爱迪生能源达成战略合作，将布局日本

近5亿消费人口的庞大市场农村消费者消费能力如何？

华为宣布杀入ERP软件市场，用友、金蝶股价大跌，这样回应

阿里VP贾扬清被曝将离职创业：建大模型基础设施，已锁定首

处理器决定性能，四款搭载性能天花板骁龙8+芯片手机，最低

小米手机推荐：全是高性能性价比机型，口碑很不错，低至1769