在今天的 Vision 2024 活动中,Intel 宣布了一系列重大消息。其中包括其新款 Gaudi 3 AI 处理器的详细信息。Intel 称这些处理器在训练性能上比英伟达提高了 70%,在推理性能上提高了 50%,在效率上比英伟达市场上占主导地位的 H100 处理器高出 40%,而且价格更加亲民。此外,Intel 还推出了其数据中心 CPU 组合的新品牌,将 Granite Rapids 和 Sierra Forest 芯片重新命名为新的 'Xeon 6' 系列。这些芯片预计将在今年上市,支持新的、能够提升性能的标准化 MXFP4 数据格式。
Intel 同时宣布,正在开发一款适用于 Ultra Ethernet Consortium 标准网络的 AI 网络接口卡 ASIC(AI NIC ASIC),以及一款将被应用于未来的 XPU 和 Gaudi 3 处理器的 AI 网络接口卡芯片组(AI NIC chiplet)。这些产品不仅将用于 Intel 自家产品,还将通过 Intel Foundry 提供给外部客户。不过,关于这些网络产品的更多细节,Intel 没有透露太多。
英伟达在 AI 基础设施和软件领域的领导地位毋庸置疑。尽管如此,面对英伟达在 AI GPU 领域的长期供应短缺,Intel 与 AMD 一样,正在努力成为英伟达的主要替代者。为此,Intel 详细阐述了其 AI 计划的全貌,这些计划涵盖从硬件到软件的各个方面,旨在在英伟达和 AMD 目前主导的繁荣发展的 AI 市场中获得一席之地。Intel 正在努力发展其合作伙伴生态系统,以提供完整的 Gaudi 3 系统解决方案,同时也致力于构建一个开放的企业级软件栈,以此作为英伟达专有 CUDA 技术的替代方案。
Intel 还提供了 Gaudi 3 架构的深度解析,并展示了与现有英伟达 H100 GPU 的多项令人信服的性能对比数据(目前还没有 Blackwell 系统的数据)。接下来,让我们更深入地了解一下 Gaudi 3 架构的精妙之处。
Intel 的 Gaudi 3 是继 Gaudi 加速器系列的第三代产品,这一系列产品源于 Intel 于 2019 年斥资 20 亿美元收购 Habana Labs 的成果。Gaudi 加速器预计将于 2024 年第三季度开始大规模生产,并首次应用于 OEM 系统中。此外,Intel 还计划在其开发者云中提供 Gaudi 3 系统,为潜在客户提供一个快速体验和测试这些芯片的途径。
Gaudi 有两种形式,其中 OAM(OCP 加速模块)HL-325L 是在基于高性能 GPU 的系统中常见的一种形式。这种加速器配备了 128GB 的 HBM2e 内存,提供了高达 3.7 TB/s 的带宽。它还配备了 24 个 200 Gbps 的以太网 RDMA 网络接口卡。HL-325L OAM 模块的热设计功耗(TDP)为 900W(更高的 TDP 也是可能的,尤其是采用液体冷却时),并且它的 FP8 性能评级为 1,835 TFLOPS。OAM 通常按每服务器节点 8 个的方式部署,可以扩展至多达 1,024 个节点。
Intel 声称 Gaudi 3 提供了前代产品两倍的 FP8 性能和四倍的 BF16 性能,以及两倍的网络带宽和 1.5 倍的内存带宽。
OAM 被安装在一个通用底板上,该底板可以容纳 8 个 OAM。Intel 已经向其合作伙伴发送了 OAM 和底板,为今年晚些时候的大量上市做准备。在 HLB-325 底板上部署 8 个 OAM 可以将性能提升到 14.6 PFLOPS 的 FP8,而其他指标,如内存容量和带宽,均实现线性增长。
Intel 还推出了一款 TDP 为 600W 的 Gaudi 3 PCIe 双插槽加入卡。这款卡也配备了 128GB 的 HBMeE 内存和 24 个 200 Gbps 的以太网网络接口卡 —— Intel 表示,为了实现扩展,使用了双 400 Gbps 的网络接口卡。Intel 称这款 PCIe 卡的 FP8 峰值性能与 OAM 相同,为 1,835 TFLOPS,尽管其 TDP 低了 300W(在长时间运行的工作负载下可能无法持续)。然而,由于设计上的限制,箱内的扩展能力更受限,它被设计为以每组 4 个的方式工作。Intel 表示这款卡也可以扩展以构建更大的集群,但没有提供具体细节。
Dell、HPE、联想和 Supermicro 将为 Gaudi 3 的推出提供系统支持。Gaudi 空冷型号的样品已经出炉,液冷型号的样品将在第二季度推出。这些产品预计将分别在 2024 年第三季度和第四季度进行批量生产并大量上市。PCIe 卡也将在第四季度上市。
Gaudi 3 采用了与前代产品相同的架构和基本原理,但使用了比 Gaudi 2 加速器所用的 TSMC 7nm 工艺更先进的 TSMC 5nm 工艺。
OAM 设计包含了两个中央的 5nm 芯片,它们之间共享了 96MB 的 SRAM,提供了 12.8 TB/s 的带宽。这些芯片周围是 8 个 HBM2E 封装,总共 128GB,提供高达 3.7 TB/s 的带宽。两个芯片之间有一个高带宽互连,可以访问两个芯片上的所有内存,从而使其在软件看来表现为一个单一设备(尽管延迟可能有所不同)。Gaudi 3 还配备了一个 x16 PCIe 5.0 控制器,用于与主处理器(CPU)通信,并可以采用不同比例的 CPU 和 Gaudi 加速器。
计算由 64 个第五代张量处理核心(TPC)和 8 个矩阵数学引擎(MME)处理,工作负载由图编译器和软件栈在两个引擎之间协调。Gaudi 3 芯片包还包括了 24 个 200 Gbps 的 RoCE 以太网控制器,提供箱内(scale-up)和节点间(scale-out)的连接能力,将 Gaudi 2 上的 100 Gbps 连接提高了一倍。
在当今 AI 训练和推断工作的竞争中,一个关键因素是将加速器有效地扩展成更大的集群。Intel 的 Gaudi 采用了与英伟达即将推出的 B200 NVL72 系统不同的策略。Gaudi 通过快速的 200 Gbps 以太网连接将 Gaudi 3 加速器相互连接,并将服务器与叶片和主干交换机配对,以形成集群。
英伟达的系统级架构利用 PCIe 接口上的 NVLink 来实现 GPU 之间的箱内连接,并通过其 NVLink 交换机使用无源铜缆将整个机架连接起来。AMD 则采用了自己的方式,使用 PCIe 接口和 Infinity Fabric 协议来处理服务器内 GPU 之间的通信,并使用外部网络接口卡与其他节点通信,这种方式比 Intel 将网络 NIC 直接集成到芯片中的方法更加增加了网络成本和复杂性。
多亏了加倍的网络带宽,Gaudi 3 可以从一个包含 8 个 OAM Gaudi 的单节点扩展到最多包含 1,024 个节点(服务器)的集群,这个集群可以容纳多达 8,192 个 OAM 设备。
每个服务器由 8 个 Gaudi 3 加速器组成,它们通过每个加速器 21 个 200 Gbps 的以太网连接进行相互通信。每个设备上剩下的 3 个以太网端口用于通过叶片交换机与集群外部进行通信。该交换机将这些连接汇总为六个 800 Gbps 的以太网端口,并配备 OFSP 连接器,以便与其他节点通信。
每个机架通常包含四个节点,但这取决于机架的功率限制和集群的大小而有所不同。最多 16 个节点可以形成一个单独的子集群,这些节点通过三个以太网叶片交换机连接到主干交换机,主干交换机通常拥有 64 个端口,用以形成更大的集群。在 800 Gbps 叶片交换机上的 64 个端口中,一半连接到这 16 个节点,而另一半则连接到主干交换机。
根据集群的大小,使用不同数量的主干交换机。例如,Intel 提供了一个使用三个主干交换机的例子,用于由 512 个节点(4,096 个 Gaudi)组成的 32 个子集群。Intel 表示,这种配置为所有服务器之间的连接提供了等量的带宽(非阻塞全互连)。通过添加另一层以太网交换机,可以支持多达数万个加速器。
Intel 将 Gaudi 3 与公开可用的 Nvidia H100 系统基准测试进行了比较,但由于缺乏与英伟达即将推出的 Blackwell B200 的实际比较数据,所以没有进行比较。同样,Intel 也没有提供与 AMD Instinct MI300 GPU 的比较,因为 AMD 一直避免在业界认可的 MLPerf 基准测试中发布公开的性能数据。
Intel 提供了 Gaudi 3 与 H100 在训练和推断工作负载上的大量比较,例如 LLAMA2-7B(70 亿参数)和 LLAMA2-13B 模型分别使用 8 和 16 个 Gaudi,以及使用 8,192 个 Gaudi 加速器测试的 GPT 3-175B 模型,所有这些都使用 FP8。有趣的是,Intel 没有与英伟达的 H200 进行比较,后者比 H100 的内存容量多 76%,内存带宽多 43%。
在推断性能的比较中,Intel 与 H200 进行了比较,但只涉及单卡性能,而不是集群的扩展性能。结果显示,LLAMA2-7B/70B 的五个工作负载比 H100 GPU 低 10% 到 20%,而有两个与 H200 相当,一个略高。Intel 声称,Gaudi 在更大输出序列中的性能扩展性更佳,使用 Falcon 180 亿参数模型和 2,048 长度输出时,Gaudi 的性能提升高达 3.8 倍。
在推断工作负载的功耗方面,Intel 也声称有高达 2.6X 的优势,这一点在考虑数据中心的功率限制时尤为重要。但对于训练工作负载,Intel 没有提供类似的基准测试。在这些工作负载上,Intel 测试了公共实例中的一个 H100,并记录了 H100 的功耗(由 H100 报告),但没有提供单节点或更大集群推断的示例。在处理更大输出序列时,Intel 再次声称有更好的性能和效率。
正如英伟达通过 CUDA 所展现的那样,软件生态系统与硬件一样,都是极为关键的因素。Intel 称赞其一体化的软件栈,并表示目前 “大部分” 工程师都在致力于加强支持。Intel 当前的重点是支持多模态训练和推断模型,以及 RAG(检索增强生成)。
Hugging Face 拥有超过 600,000 个 AI 模型检查点。Intel 表示,通过与 Hugging Face、PyTorch、DeepSpeed 和 Mosaic 的合作,简化了软件移植过程,从而加快了部署 Gaudi 3 系统的周转时间。Intel 指出,大多数程序员在框架层面或更高层面进行编程(例如,只使用 PyTorch 和 Python 编写脚本),并非如人们普遍认为的那样广泛进行低层次的 CUDA 编程。
Intel 设计的工具旨在简化移植过程,并在此过程中隐藏底层的复杂性。OneAPI 作为底层的核心和通信库。这些库遵循由包括 Arm、Intel、高通和三星等在内的行业联盟统一加速器基金会(UXL)制定的规范,意图提供 CUDA 的替代方案。针对 Intel CPU 和 GPU 的推断和训练,PyTorch 2.0 已经优化以使用 OneAPI。此外,Intel 还表示其 OpenVino 工具也在快速普及,今年迄今已经有超过一百万次下载。
如前所述,Intel、英伟达和 AMD 都在走不同的路线,以提供关键的 AI 训练和推断工作负载所需的集群可扩展性。每种方法都有各自的优势,但英伟达的专有 NVLink 解决方案最为成熟和广泛应用,其能够扩展到机架级架构的能力是一个明显优势。然而,Intel 使用基于以太网的网络,提供了一个开放的解决方案,支持多个供应商的网络交换机,为定制提供了丰富的选择,并且其内置的网络接口卡(NIC)在成本上也比 AMD 的 Instinct MI300 系列有优势。
但是,英伟达基于 Grace 的产品和 AMD 的 MI300A 提供了复杂的融合 CPU+GPU 方案,这在某些工作负载中将难以匹敌,而 Intel 由于取消了融合 CPU+GPU 的 Falcon Shores 版本,仍依赖于单独的 CPU 和加速器组件。据报道,英伟达的新 GB200 CPU+GPU 服务器占据了该公司 Blackwell 订单的大部分,这凸显了行业对这种紧密耦合产品的巨大需求。
Intel 未来的 Falcon Shores 产品将作为纯 AI 加速器设计推出,因此仍将能够与英伟达和 AMD 的 GPU-only 集群竞争。我们也看到 Gaudi 3 的下一代可能从 HBM2E 转向 HBM3/E,AMD 和英伟达在其 AI 产品中都采用了这种更快的内存。虽然 Intel 没有分享具体数据,但表示计划在定价上积极竞争,这可能是一个强有力的策略,因为英伟达将继续面临其 GPU 由于巨大需求而造成的短缺问题。
Falcon Shores 也将与为 Gaudi 优化的代码兼容,提供向前兼容性。Intel 引用过去几个季度 Gaudi 2 平台 3 倍的改进作为其平台日益增长采用率的一个例子。
值得注意的是,Intel 在此次活动中并未大力推广其 Ponte Vecchio GPU,鉴于其取消了下一代 Rialto Bridge GPU,因此我们预计该公司的 AI 工作将主要集中在 Gaudi 3 上,同时为明年推出 Falcon Shores 做准备。
空冷型 Gaudi 3 模型已经向合作伙伴提供样品,预计将在第三季度广泛上市。液冷型将在第四季度推出。
原文链接:https://www.tomshardware.com/pc-components/cpus/intel-details-guadi-3-at-vision-2024-new-ai-accelerator-sampling-to-partners-now-volume-production-in-q3
页面更新:2024-04-14
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号