英伟达发布AI新“核弹”


今年的春季GTC活动中没有来自NVIDIA的任何新GPU或GPU架构,但该公司仍在推出基于过去一年推出的Hopper和Ada Lovelace GPU的新产品。在高端市场,该公司今天宣布推出一款新的H100加速器变体,专门针对大型语言模型用户:H100 NVL。

H100 NVL是NVIDIA H100 PCIe卡的一个有趣变体,标志着时代和NVIDIA在人工智能领域的广泛成功,旨在针对一个特定市场:大型语言模型(LLM)部署。这张卡片有几个不同于NVIDIA通常的服务器产品的特点--其中最重要的是它是2个H100 PCIe板,已经桥接在一起--但最重要的是它拥有大容量的内存。这个组合的双GPU卡提供了188GB的HBM3内存--每张卡94GB--比迄今为止任何其他NVIDIA部件的每个GPU提供更多的内存,甚至在H100系列中也是如此。


这个SKU的主要特点是:内存容量。像GPT系列这样的大型语言模型在许多方面都受到内存容量的限制,因为它们很快就会填满即使是H100加速器的所有参数(在最大的GPT-3模型中为175B)。因此,NVIDIA决定组合一个新的H100 SKU,每个GPU提供比它们通常的H100部件更多的内存,其最大容量为每个GPU 80GB。

在内部,我们所看到的基本上是GH100 GPU的一个特殊bin,放置在一个PCIe卡上。所有的GH100 GPU都带有6个HBM内存堆栈--可以是HBM2e或HBM3--每个堆栈容量为16GB。然而,出于产量的原因,NVIDIA只会启用其常规H100部件中的5个HBM堆栈。因此,虽然每个GPU名义上有96GB的VRAM,但常规SKU上只有80GB可用。


相应地,H100 NVL是神秘的完全启用的SKU,所有6个堆栈都已启用。通过启用第6个HBM堆栈,NVIDIA能够访问额外的内存和额外的内存带宽。这将对产量产生一些影响--NVIDIA保持着严密的秘密--但LLM市场显然足够大,愿意支付足够高的溢价以获得几乎完美的GH100包装,这使得NVIDIA值得付出。

即使如此,需要注意的是,客户并没有完全获得每张卡的96GB内存。而是在总容量为188GB的情况下,他们实际上获得了每张卡的94GB内存。在今天的主题演讲之前,NVIDIA在我们的预览中没有详细介绍这个设计特点,但我们怀疑这也是为了产量的原因,在HBM3内存堆栈内给予NVIDIA一些余地来禁用坏单元(或层)。最终结果是,新的SKU为每个GH100 GPU提供了14GB更多的内存,内存增加了17.5%。同时,该卡的总内存带宽为7.8TB /秒,单个板的内存带宽为3.9TB /秒。

除了内存容量的增加,从很多方面来看,大型双GPU /双卡H100 NVL内的个别卡看起来很像放置在PCIe卡上的H100的SXM5版本。而普通的H100 PCIe由于使用较慢的HBM2e内存,较少的活动SM /张量核心和较低的时钟速度而受到限制,NVIDIA为H100 NVL引用的张量核心性能数据与H100 SXM5相同,表明该卡片不像普通的PCIe卡片那样被进一步削减。我们仍在等待产品的最终和完整规格,但假设这里的一切都如所呈现,那么进入H100 NVL的GH100将代表目前可用的最高分选GH100。


在这里需要强调复数形式。正如前面提到的,H100 NVL不是单个GPU零件,而是双GPU /双卡零件,并且向主机系统呈现为这样。硬件本身基于两个PCIe形态因子的H100,使用三个NVLink 4桥连接在一起。从物理上讲,这与NVIDIA现有的H100 PCIe设计几乎相同--可以使用NVLink桥连接,因此两个板/四个插槽巨兽的构造没有区别,而是硅片内部的质量不同。换句话说,今天可以将普通的H100 PCIe卡绑在一起,但它不会匹配H100 NVL的内存带宽,内存容量或张量吞吐量。

令人惊讶的是,尽管规格令人惊叹,TDP几乎保持不变。H100 NVL是一个700W至800W的零件,其中每个板的下限为350W至400W,其中下限与常规H100 PCIe相同。在这种情况下,NVIDIA似乎优先考虑兼容性而不是峰值性能,因为很少有服务器机箱可以处理超过350W的PCIe卡(甚至更少的是超过400W的),这意味着TDP需要稳定。但是,鉴于更高的性能数据和内存带宽,尚不清楚NVIDIA如何承担额外的性能。在这里,功率分选可以起到很大的作用,但这也可能是NVIDIA将卡片的增压时钟速度提高了一倍,因为目标市场主要关注张量性能,而不会一次点亮整个GPU。

此外,NVIDIA决定发布基本上是最佳H100分选的决定是不寻常的,考虑到他们通常更喜欢SXM零件,但考虑到LLM客户的需求,这是一个明智的决定。基于SXM的大型H100集群可以轻松扩展到8个GPU,但是任何两个之间可用的NVLink带宽受到需要通过NVSwitches的限制。对于仅有两个GPU的配置,配对一组PCIe卡要直接得多,固定链接保证卡之间的带宽为600GB /秒。

但或许更重要的是能够在现有基础设施中快速部署H100 NVL。LLM客户不需要安装专门构建用于配对GPU的H100 HGX载体板,而可以将H100 NVL直接添加到新的服务器构建中,或作为相对快速的现有服务器构建的升级。毕竟,NVIDIA在这里针对一个非常特定的市场,所以SXM的正常优势(以及NVIDIA集体施加影响的能力)可能不适用于这里。

总的来说,NVIDIA标榜H100 NVL的推理吞吐量是上一代HGX A100的12倍(8个H100 NVL与8个A100)。对于希望尽快部署和扩展其系统以处理LLM工作负载的客户来说,这肯定是诱人的。正如前面提到的,H100 NVL在架构特征方面没有带来任何新的东西--这里的大部分性能提升来自Hopper架构的新变压器引擎--但H100 NVL将作为最快的PCIe H100选项以及具有最大GPU内存池的选项服务于特定的利基市场。

展开阅读全文

页面更新:2024-03-31

标签:张量   英伟   堆栈   核弹   内存容量   卡片   零件   模型   带宽   内存   性能   市场

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top