大模型训练为什么只能用SXM卡


此篇文章为今日头条首发文章,其他账号如出现相同文章,均为搬运

近期,围绕英伟达的PCIe卡和SXM卡,有了许多讨论,特别是关于PCIe卡在大型模型训练中的适用性。为了深入了解这个问题,我收集整理了一些资料,并将其作为学习笔记分享给大家。

一、PCIe卡:快速周边组件互连

首先,让我们了解一下PCIe,它是一种高速串行通信互联标准。串行通信意味着每次传输一个位元数据,并连续进行这个过程,就像食堂里大家排队一个一个打饭一样。


在台式电脑中,我们通常可以找到PCIe插槽,这些插槽用于插入显卡、网卡等硬件设备,而相应的硬件卡就被称为PCIe卡。这是一种广泛使用的连接方式。不同的PCIe版本使用不同数量的通道来传输数据,通道越多,带宽就越大。例如,“x4”表示4个通道,“x16”表示16个通道。

英伟达的A100显卡有两个版本,其中PCIe版本支持PCIe 4.0 x16,其传输速度为32GB/s。


PCIe卡的主要用途是连接GPU和CPU,但速度相对较慢,只有64GB/s,而且两个CPU之间无法直接互连,这在多GPU系统中会引发问题。

为了解决这个问题,英伟达在2018年推出了P100GPU,同时引入了NVLink高速互联技术,可以实现多张GPU之间的高速连接。当前的NVLink已发展到第四代,最高速度可达900GB/s,而A100使用的是第三代,速度为600GB/s,比起原来的PCIe卡快了10倍。


因此,通过在PCIe卡之间添加NVLink,可以优化其性能,但仍然存在一个限制,即只能直接连接两张GPU,不能实现多张GPU的互连。

二、SXM卡:可扩展模块

现在,让我们转向SXM卡,这是一种高带宽接口解决方案,用于连接多张英伟达GPU。与PCIe卡相比,SXM卡的区别在于,SXM卡的连接方式是通过多对导线直接印在电路板上,而不是插槽上。

SXM卡具有明显的优势,首先,它可以连接多张卡,因此通常用于DGX系统,这是一种封装良好的服务器,可以将20台或更多的DGX组装成DGXSuperPOD,以构建一个高性能的数据中心。


此外,SXM卡无需外部电源,采用双插槽卡设计,在传输数据的同时供电,这提高了冷却效率,允许GPU在更高的热功耗下运行,并降低了维护成本。

以A100为例,SXM版本的功耗支持400瓦,而PCIe版本的功耗则为300瓦。这意味着SXM卡在性能和功耗方面具有显著的优势。

总结

综上所述,PCIe卡和SXM卡之间的主要区别在于传输速度。对于大型模型训练来说,处理的数据量巨大,因此传输速度非常关键。


以A100为例,PCIe卡的传输速度只有64GB/s,而SXM卡通过使用NVLink技术,最高可达600GB/s,是前者的10倍。当然,在只有两张卡时,通过PCIe卡的NVLink也可以实现类似的性能。然而,在多张卡互联时,SXM卡的优势显而易见,其高速互连性能在处理大型模型时非常重要,甚至有些版本的SXM卡速度更高,达到了900GB/s。

因此,为了进行大型模型训练,SXM卡是更为合适的选择,而使用PCIe卡可能会导致性能瓶颈。

展开阅读全文

页面更新:2024-03-02

标签:插槽   模型   英伟   功耗   通道   性能   优势   速度   版本   数据

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top