Intel推出新芯片，推理性能比英伟达H100快50%

在今天的 Vision 2024 活动中，Intel 宣布了一系列重大消息。其中包括其新款 Gaudi 3 AI 处理器的详细信息。Intel 称这些处理器在训练性能上比英伟达提高了 70%，在推理性能上提高了 50%，在效率上比英伟达市场上占主导地位的 H100 处理器高出 40%，而且价格更加亲民。此外，Intel 还推出了其数据中心 CPU 组合的新品牌，将 Granite Rapids 和 Sierra Forest 芯片重新命名为新的 'Xeon 6' 系列。这些芯片预计将在今年上市，支持新的、能够提升性能的标准化 MXFP4 数据格式。

Intel 同时宣布，正在开发一款适用于 Ultra Ethernet Consortium 标准网络的 AI 网络接口卡 ASIC（AI NIC ASIC），以及一款将被应用于未来的 XPU 和 Gaudi 3 处理器的 AI 网络接口卡芯片组（AI NIC chiplet）。这些产品不仅将用于 Intel 自家产品，还将通过 Intel Foundry 提供给外部客户。不过，关于这些网络产品的更多细节，Intel 没有透露太多。

英伟达在 AI 基础设施和软件领域的领导地位毋庸置疑。尽管如此，面对英伟达在 AI GPU 领域的长期供应短缺，Intel 与 AMD 一样，正在努力成为英伟达的主要替代者。为此，Intel 详细阐述了其 AI 计划的全貌，这些计划涵盖从硬件到软件的各个方面，旨在在英伟达和 AMD 目前主导的繁荣发展的 AI 市场中获得一席之地。Intel 正在努力发展其合作伙伴生态系统，以提供完整的 Gaudi 3 系统解决方案，同时也致力于构建一个开放的企业级软件栈，以此作为英伟达专有 CUDA 技术的替代方案。

Intel 还提供了 Gaudi 3 架构的深度解析，并展示了与现有英伟达 H100 GPU 的多项令人信服的性能对比数据（目前还没有 Blackwell 系统的数据）。接下来，让我们更深入地了解一下 Gaudi 3 架构的精妙之处。

Gaudi 3 规格

Intel 的 Gaudi 3 是继 Gaudi 加速器系列的第三代产品，这一系列产品源于 Intel 于 2019 年斥资 20 亿美元收购 Habana Labs 的成果。Gaudi 加速器预计将于 2024 年第三季度开始大规模生产，并首次应用于 OEM 系统中。此外，Intel 还计划在其开发者云中提供 Gaudi 3 系统，为潜在客户提供一个快速体验和测试这些芯片的途径。

Gaudi 有两种形式，其中 OAM（OCP 加速模块）HL-325L 是在基于高性能 GPU 的系统中常见的一种形式。这种加速器配备了 128GB 的 HBM2e 内存，提供了高达 3.7 TB/s 的带宽。它还配备了 24 个 200 Gbps 的以太网 RDMA 网络接口卡。HL-325L OAM 模块的热设计功耗（TDP）为 900W（更高的 TDP 也是可能的，尤其是采用液体冷却时），并且它的 FP8 性能评级为 1,835 TFLOPS。OAM 通常按每服务器节点 8 个的方式部署，可以扩展至多达 1,024 个节点。

Intel 声称 Gaudi 3 提供了前代产品两倍的 FP8 性能和四倍的 BF16 性能，以及两倍的网络带宽和 1.5 倍的内存带宽。

OAM 被安装在一个通用底板上，该底板可以容纳 8 个 OAM。Intel 已经向其合作伙伴发送了 OAM 和底板，为今年晚些时候的大量上市做准备。在 HLB-325 底板上部署 8 个 OAM 可以将性能提升到 14.6 PFLOPS 的 FP8，而其他指标，如内存容量和带宽，均实现线性增长。

Intel 还推出了一款 TDP 为 600W 的 Gaudi 3 PCIe 双插槽加入卡。这款卡也配备了 128GB 的 HBMeE 内存和 24 个 200 Gbps 的以太网网络接口卡 —— Intel 表示，为了实现扩展，使用了双 400 Gbps 的网络接口卡。Intel 称这款 PCIe 卡的 FP8 峰值性能与 OAM 相同，为 1,835 TFLOPS，尽管其 TDP 低了 300W（在长时间运行的工作负载下可能无法持续）。然而，由于设计上的限制，箱内的扩展能力更受限，它被设计为以每组 4 个的方式工作。Intel 表示这款卡也可以扩展以构建更大的集群，但没有提供具体细节。

Dell、HPE、联想和 Supermicro 将为 Gaudi 3 的推出提供系统支持。Gaudi 空冷型号的样品已经出炉，液冷型号的样品将在第二季度推出。这些产品预计将分别在 2024 年第三季度和第四季度进行批量生产并大量上市。PCIe 卡也将在第四季度上市。

Gaudi 3 采用了与前代产品相同的架构和基本原理，但使用了比 Gaudi 2 加速器所用的 TSMC 7nm 工艺更先进的 TSMC 5nm 工艺。

OAM 设计包含了两个中央的 5nm 芯片，它们之间共享了 96MB 的 SRAM，提供了 12.8 TB/s 的带宽。这些芯片周围是 8 个 HBM2E 封装，总共 128GB，提供高达 3.7 TB/s 的带宽。两个芯片之间有一个高带宽互连，可以访问两个芯片上的所有内存，从而使其在软件看来表现为一个单一设备（尽管延迟可能有所不同）。Gaudi 3 还配备了一个 x16 PCIe 5.0 控制器，用于与主处理器（CPU）通信，并可以采用不同比例的 CPU 和 Gaudi 加速器。

计算由 64 个第五代张量处理核心（TPC）和 8 个矩阵数学引擎（MME）处理，工作负载由图编译器和软件栈在两个引擎之间协调。Gaudi 3 芯片包还包括了 24 个 200 Gbps 的 RoCE 以太网控制器，提供箱内（scale-up）和节点间（scale-out）的连接能力，将 Gaudi 2 上的 100 Gbps 连接提高了一倍。

Gaudi 3 的可扩展性

在当今 AI 训练和推断工作的竞争中，一个关键因素是将加速器有效地扩展成更大的集群。Intel 的 Gaudi 采用了与英伟达即将推出的 B200 NVL72 系统不同的策略。Gaudi 通过快速的 200 Gbps 以太网连接将 Gaudi 3 加速器相互连接，并将服务器与叶片和主干交换机配对，以形成集群。

英伟达的系统级架构利用 PCIe 接口上的 NVLink 来实现 GPU 之间的箱内连接，并通过其 NVLink 交换机使用无源铜缆将整个机架连接起来。AMD 则采用了自己的方式，使用 PCIe 接口和 Infinity Fabric 协议来处理服务器内 GPU 之间的通信，并使用外部网络接口卡与其他节点通信，这种方式比 Intel 将网络 NIC 直接集成到芯片中的方法更加增加了网络成本和复杂性。

多亏了加倍的网络带宽，Gaudi 3 可以从一个包含 8 个 OAM Gaudi 的单节点扩展到最多包含 1,024 个节点（服务器）的集群，这个集群可以容纳多达 8,192 个 OAM 设备。

每个服务器由 8 个 Gaudi 3 加速器组成，它们通过每个加速器 21 个 200 Gbps 的以太网连接进行相互通信。每个设备上剩下的 3 个以太网端口用于通过叶片交换机与集群外部进行通信。该交换机将这些连接汇总为六个 800 Gbps 的以太网端口，并配备 OFSP 连接器，以便与其他节点通信。

每个机架通常包含四个节点，但这取决于机架的功率限制和集群的大小而有所不同。最多 16 个节点可以形成一个单独的子集群，这些节点通过三个以太网叶片交换机连接到主干交换机，主干交换机通常拥有 64 个端口，用以形成更大的集群。在 800 Gbps 叶片交换机上的 64 个端口中，一半连接到这 16 个节点，而另一半则连接到主干交换机。

根据集群的大小，使用不同数量的主干交换机。例如，Intel 提供了一个使用三个主干交换机的例子，用于由 512 个节点（4，096 个 Gaudi）组成的 32 个子集群。Intel 表示，这种配置为所有服务器之间的连接提供了等量的带宽（非阻塞全互连）。通过添加另一层以太网交换机，可以支持多达数万个加速器。

Gaudi 3 与 Nvidia H100 性能对比

Intel 将 Gaudi 3 与公开可用的 Nvidia H100 系统基准测试进行了比较，但由于缺乏与英伟达即将推出的 Blackwell B200 的实际比较数据，所以没有进行比较。同样，Intel 也没有提供与 AMD Instinct MI300 GPU 的比较，因为 AMD 一直避免在业界认可的 MLPerf 基准测试中发布公开的性能数据。

Intel 提供了 Gaudi 3 与 H100 在训练和推断工作负载上的大量比较，例如 LLAMA2-7B（70 亿参数）和 LLAMA2-13B 模型分别使用 8 和 16 个 Gaudi，以及使用 8，192 个 Gaudi 加速器测试的 GPT 3-175B 模型，所有这些都使用 FP8。有趣的是，Intel 没有与英伟达的 H200 进行比较，后者比 H100 的内存容量多 76%，内存带宽多 43%。

在推断性能的比较中，Intel 与 H200 进行了比较，但只涉及单卡性能，而不是集群的扩展性能。结果显示，LLAMA2-7B/70B 的五个工作负载比 H100 GPU 低 10% 到 20%，而有两个与 H200 相当，一个略高。Intel 声称，Gaudi 在更大输出序列中的性能扩展性更佳，使用 Falcon 180 亿参数模型和 2,048 长度输出时，Gaudi 的性能提升高达 3.8 倍。

在推断工作负载的功耗方面，Intel 也声称有高达 2.6X 的优势，这一点在考虑数据中心的功率限制时尤为重要。但对于训练工作负载，Intel 没有提供类似的基准测试。在这些工作负载上，Intel 测试了公共实例中的一个 H100，并记录了 H100 的功耗（由 H100 报告），但没有提供单节点或更大集群推断的示例。在处理更大输出序列时，Intel 再次声称有更好的性能和效率。

Gaudi 3 软件生态系统

正如英伟达通过 CUDA 所展现的那样，软件生态系统与硬件一样，都是极为关键的因素。Intel 称赞其一体化的软件栈，并表示目前 “大部分” 工程师都在致力于加强支持。Intel 当前的重点是支持多模态训练和推断模型，以及 RAG（检索增强生成）。

Hugging Face 拥有超过 600,000 个 AI 模型检查点。Intel 表示，通过与 Hugging Face、PyTorch、DeepSpeed 和 Mosaic 的合作，简化了软件移植过程，从而加快了部署 Gaudi 3 系统的周转时间。Intel 指出，大多数程序员在框架层面或更高层面进行编程（例如，只使用 PyTorch 和 Python 编写脚本），并非如人们普遍认为的那样广泛进行低层次的 CUDA 编程。

Intel 设计的工具旨在简化移植过程，并在此过程中隐藏底层的复杂性。OneAPI 作为底层的核心和通信库。这些库遵循由包括 Arm、Intel、高通和三星等在内的行业联盟统一加速器基金会（UXL）制定的规范，意图提供 CUDA 的替代方案。针对 Intel CPU 和 GPU 的推断和训练，PyTorch 2.0 已经优化以使用 OneAPI。此外，Intel 还表示其 OpenVino 工具也在快速普及，今年迄今已经有超过一百万次下载。

思考

如前所述，Intel、英伟达和 AMD 都在走不同的路线，以提供关键的 AI 训练和推断工作负载所需的集群可扩展性。每种方法都有各自的优势，但英伟达的专有 NVLink 解决方案最为成熟和广泛应用，其能够扩展到机架级架构的能力是一个明显优势。然而，Intel 使用基于以太网的网络，提供了一个开放的解决方案，支持多个供应商的网络交换机，为定制提供了丰富的选择，并且其内置的网络接口卡（NIC）在成本上也比 AMD 的 Instinct MI300 系列有优势。

但是，英伟达基于 Grace 的产品和 AMD 的 MI300A 提供了复杂的融合 CPU+GPU 方案，这在某些工作负载中将难以匹敌，而 Intel 由于取消了融合 CPU+GPU 的 Falcon Shores 版本，仍依赖于单独的 CPU 和加速器组件。据报道，英伟达的新 GB200 CPU+GPU 服务器占据了该公司 Blackwell 订单的大部分，这凸显了行业对这种紧密耦合产品的巨大需求。

Intel 未来的 Falcon Shores 产品将作为纯 AI 加速器设计推出，因此仍将能够与英伟达和 AMD 的 GPU-only 集群竞争。我们也看到 Gaudi 3 的下一代可能从 HBM2E 转向 HBM3/E，AMD 和英伟达在其 AI 产品中都采用了这种更快的内存。虽然 Intel 没有分享具体数据，但表示计划在定价上积极竞争，这可能是一个强有力的策略，因为英伟达将继续面临其 GPU 由于巨大需求而造成的短缺问题。

Falcon Shores 也将与为 Gaudi 优化的代码兼容，提供向前兼容性。Intel 引用过去几个季度 Gaudi 2 平台 3 倍的改进作为其平台日益增长采用率的一个例子。

值得注意的是，Intel 在此次活动中并未大力推广其 Ponte Vecchio GPU，鉴于其取消了下一代 Rialto Bridge GPU，因此我们预计该公司的 AI 工作将主要集中在 Gaudi 3 上，同时为明年推出 Falcon Shores 做准备。

空冷型 Gaudi 3 模型已经向合作伙伴提供样品，预计将在第三季度广泛上市。液冷型将在第四季度推出。

原文链接：https://www.tomshardware.com/pc-components/cpus/intel-details-guadi-3-at-vision-2024-new-ai-accelerator-sampling-to-partners-now-volume-production-in-q3

展开阅读全文

页面更新：2024-04-14

标签：英伟性能以太网推断节点加速器负载集群交换机芯片工作

1 2 3 4 5

Intel推出新芯片，推理性能比英伟达H100快50%

Gaudi 3 规格

Gaudi 3 的可扩展性

Gaudi 3 与 Nvidia H100 性能对比

Gaudi 3 软件生态系统

思考

华为新款MateBook X Pro正式发布全场景AI深度赋能华为智慧PC

酷睿第14代HX处理器加持的全能战士-惠普光影精灵10体验评测

国内首颗5000万像素BSI在合肥量产

嫉妒恨！晒27岁旧冰箱被厂家赠新款，看完评论区厂家得连夜跑路？

中兴发布全球首款二合一5G云电脑引领PC产业变革

一键动感花飞！大疆发布全新第一视角飞行体验无人机Avata 2

家人的担忧-手机“伪装”成饭卡引发的思考？

真我GT Neo6 SE正式发布！搭载第三代骁龙7+ 1699起

米兰达可儿生完四胎儿子后首次公开亮相！穿迷你花裙好美，少女脸

去了深圳才发现：满大街都是“宽腿裤+浅口鞋”，看着又高又时髦

去了杭州才发现：没人穿阔腿裤！满大街都在穿“无痕裤”，好洋气

于文文演唱会穿紧身裤，被质疑装扮过于大胆！心脏的人看什么都脏

门店数量少了近一半，网传ZARA遭粉丝清仓抢购？我们去杭州的门店看了看

你可以不买，但一定要知道的奢侈品冷知识！！！

初中生同款刘海引发审美讨论，还记得那些年的“鲶鱼须”么

华为新机正式开售！搭载全新华为芯片，首发价13999元！

中企宣布已生产7nm芯片，美国确认达到国际水平！并非重大

李栋旭在工作人员头上读剧本冲上热搜！男高女低，要笑死在

姚樱:让票务工作成为亚运“加分项”

科比雕像修复工作完成：赶上常规赛主场最后一战此前出

仝卓工作室再爆猛料：某超一线男演员团队疑欠50万不还

闹大了！退伍军人被银行工作人员要求证明自己身份，银行：搞

坐公交去漠河的小伙这次要去东南亚，就当工作前给自己“

科技早报｜英特尔称Gaudi 3芯片将超英伟达H100；全球PC出

中国大力发展芯片，但全球90%光刻胶都是日本产，若卡脖子