IBM在芯片领域掷下重磅炸弹

来源:内容由半导体行业观察(ID:icbank)编译自「nextplatform」,谢谢。

每个人都知道机器学习推理在未来几年对于商业应用来说将是一件大事,但没有人确切地确定需要多少推理。但越来越多的人产生了相同的共识,那就是对于企业客户——与超大规模、云构建者和 HPC 中心不同——进行此类推理的适当位置不仅是在其数据库和应用程序所在的后端服务器内部运行,而是在 CPU 本身上运行。

这有充分的理由,这也是我们认为 Nvidia 能够并愿意支付 400 亿美元收购收购Arm Holdings 的原因之一。如果推理主要在企业的 CPU 上保持原生,并且作为系统中计算的份额相当适中,那么 Nvidia 需要采取行动,因为它不会被卸载到专为更重的工作负载而设计的 GPU 上。虽然他们可以在推理方面提供出色的性价比,但不如 CPU 芯片上的几十亿个晶体管那么便宜,而且永远无法提供片上加速器所能提供的低延迟和绝对安全性。如果您从不离开服务器 CPU 内存空间,那么需要担心的东西就会少很多。

这就是为什么所有重要的服务器 CPU 制造商都在他们的芯片中添加某种矩阵数学加速——不仅仅是拥有一个矢量引擎。他们这样做不是为了消遣,而是因为他们的企业客户,多年来不得不处理外置加密和解密 PCI-Express 卡,他们告诉他们他们不想要那样。他们希望 AI 推理是原生的、快速的和简单的,像任何其他类型的片上加速器一样使用一些指令进行调用。他们也不想从芯学习 CUDA 或 ROCm 或 oneAPI 来使用它。

从长远来看,英特尔仍然是世界上最大和最赚钱的服务器 CPU 制造商——记住这一点非常重要——因为一直在调整其向量数学单元来进行混合精度整数和浮点数学以支持推理,并且即将推出的“Sapphire Rapids”至强 SP 处理器及其高级矩阵扩展 (AMX) 矩阵数学加速器将其提升了一个档次。AMD “Milan” Epyc 处理器中的 Zen 3 内核有一对 256 位 AVX2 兼容向量单元,可以执行混合精度整数和浮点指令进行推理。Neoverse “Zeus” V1 和 “Perseus” N2 内核Arm Holdings 分别拥有一对 256 位和 128 位可扩展向量引擎 (SVE) 数学单元,它们可以执行相同的混合精度数学推理。

最后,在IBM 几周后即将推出的 Power10 芯片上,每个内核都有八个支持 FP64、FP32、FP16 和 Bfloat16 运算的 256 位矢量数学引擎和四个支持 INT4 的 512 位矩阵数学引擎、INT8 和 INT16 操作;这些单元可以在 FP64、FP32 和 INT32 模式下累积操作。

近日,IBM 在 Hot Chips 33 大会上推出了全新的“Telum”z16 处理器,并将其用于公司的 System z 大型机系统。由这个芯片可以看到,蓝色巨人正在采取不同的方法来加速推理。该公司不是简单地采用z15 处理器中添加混合精度整数和浮点数学的方法,而是采用了IBM Research 开发的第三代 AI Core 推理加速器,并将其放入 z16 处理器中,然后将其与 z 架构紧密集成指令集将其作为本机函数公开。

看看 Telum z16 芯片,它以希腊女神阿尔忒弥斯在没有心情开弓时用来打猎的标枪命名,它有 225 亿个晶体管,并且与之前的 z14 和 z15 芯片相比,它的设计更加流线型:

IBM在芯片领域掷下重磅炸弹

八个 z16 内核及其 L2 缓存通过双环连接,双向带宽均为 320 GB/秒。如您所见,L2 缓存在芯片的中心占主导地位,但也仅为为 32 MB,取代了先前 CPU 上的大量 L3 缓存和前两代使用的 NUMA 互连芯片组上的 L4 缓存大型机处理器。IBM 显然也在用 z16 制造更小的 System z 处理器,以更好地利用新的代工合作伙伴三星的 7 纳米工艺,单芯片只有 8 个内核 。相比在单芯片中放置16个内核,这样做更能可以更显著地提高芯片的良率。为此IBM 正在通过将两个八核芯片放入一个插槽来弥补性能的差异,

z16 和 z15在架构上的对比是惊人的。看z15芯片:

IBM在芯片领域掷下重磅炸弹

z15 芯片在 GlobalFoundries 的14 纳米工艺上制造,并在其十二个内核中每个内核(一半用于数据,一半用于指令)具有 8 MB 的 L2 缓存。每个内核都有 256 KB 的 L1 缓存(同样,一半用于数据,一半用于指令)。在芯片的正中央是一个 L3 缓存复合体,带有两个 L3 控制器和八个 L3 缓存块,每个 32 MB,看起来像一个 256 MB 的统一 L3 缓存。高端 System z 机器有五个drawers四插槽处理器,其中一些用于计算,其中一些用于系统 I/O 处理器——IBM 称之为 CP 和 SP。每个drawers中都有一个 L4 缓存/互连芯片,如下所示:

IBM在芯片领域掷下重磅炸弹

z15 上的 Xbus 端口在单个drawer中的处理器之间提供 NUMA 链接,L4 缓存/互连芯片上的 ABus 端口则负责将drawers链接在一起。这些互连芯片中的每一个都有 960 MB 的 L4 缓存,这些缓存被送入 L3 缓存,在计算复合体中比主内存快得多,也比闪存快得多。

虽然我们一直钦佩所有这种层次结构,因为它的新颖性和它在创建巨大的 I/O 怪物处理器方面的有效性,IBM z 处理器的首席架构师 Christian Jacobi 从头开始使用 z16 设计并放弃了它所有这些都是为了提出更精简的设计,不仅可以为传统的事务处理和批处理工作负载提供线性可扩展性,还可以以极低的延迟提供可扩展的 AI 推理性能。而且,我们假设系统中需要更少的芯片和更低成本的芯片来启动。

在 z16 中,IBM 正在取消物理 L3 和 L4 缓存,Jacobi 告诉The Next Platform,他进一步指出,公司正芯片的L2 缓存设计,可以根据需要使其看起来像共享的 L3 或 L4 缓存。(我们以前从未见过这种方法,但很可能需要保持与 z14 和 z15 机器的兼容性,这些机器需要专用的 L3 和 L4 缓存。)

NUMA 互连芯片也一去不复返了。现在,z16 有一个双芯片模块 (DCM) 接口逻辑块,位于上图 z16 芯片底部的中央和右侧部分。顶部有一个逻辑块,用于实现 on-drawn XBus 互连(以及整体结构控制)和两个 DDR5 内存控制器上方的芯片右侧的相对较小的 cross-draw ABus 互连芯片。z16 系统现在非常紧密耦合,如下所示:

IBM在芯片领域掷下重磅炸弹

这对 z16 芯片在 DCM 封装中配对,看起来像一个 16 核芯片,具有 512 MB 的 L2 缓存,可根据需要分区为 L3 和 L4 缓存。其中四个插槽放置在一个drawer中,并与 XBus 互连紧密耦合,其中四个drawers使用 ABus 互连相互连接,形成一个具有 32 个芯片和 8 GB 二级缓存的计算复合体。重要的是,互连是一种扁平拓扑,所有芯片都互连。不再有 CP 和 SP。I/O 由位于左侧、顶部和底部的一对 PCI-Express 5.0 控制器处理。这看起来非常像 Power7、Power8、Power9,我们假设 Power10 NUMA 拓扑。

Telum 处理器将以超过 5 GHz 的基本时钟频率运行,并且具有 530 平方毫米的面积。(z15 的运行频率为 5.2 GHz。)相比之下,Power10 芯片在 SMT8 模式下的内核数是 SMT8 模式的两倍,是 SMT4 模式的四倍,其中一个内核被保留以提高良率;但它略大,为 602 平方毫米,然而电路却更少,有 180 亿个晶体管。

顺便说一下,z16 内核仅支持 SMT2 多线程。因此,其内核更多地与寄存器和分支表以及其他使快速而深的管道运行良好的东西有关。

在Telum z16芯片的左下方,大约三分之一区域的逻辑块,就在DCM接口的左侧,是AI加速器。这是该架构的精妙之处,让我们深入了解有多少推理企业客户和 IBM 的架构师一起工作,认为他们确实需要将推理嵌入到他们的工作负载中。

我们来看看这个AI加速器:

IBM在芯片领域掷下重磅炸弹

这个加速器有两位(bits)。有 128 个处理器块(图表中的 PT)的集合连接到一个阵列中,该阵列支持乘法累加浮点单元上的 FP16 矩阵数学(及其混合精度变体)。这被明确设计为支持机器学习的矩阵数学和卷积——不仅包括推理,还包括低精度训练,IBM 预计这可能会发生在企业平台上。AI Accelerator还有32个复杂函数(CF)tile,支持FP16和FP32 SIMD指令,针对RELU、Sigmoid、tanh、log、高效SoftMax、LSTM、GRU函数等激活函数和复杂运算进行了优化。

一个预取和回写单元连接到处理器和 L2 缓存环互连,还连接到暂存器,后者通过数据移动器和格式化单元连接到 AI 核心,顾名思义,它可以格式化数据,以便它可以运行矩阵数学单元以进行推理并产生结果。预取器可以以120GB/秒以上的速度从暂存器中读取数据,并且可以以80GB/秒以上的速度将数据存入暂存器中;数据移动器可以 600 GB/秒的速度将数据拉入 AI 单元中的 PT 和 CF 内核,或者从这些内核中推送数据,这个数据大约是目前 GPU 加速卡总带宽的三分之一。但它通过环形总线直接连接到 CPU 内核,与通过 PCI-Express 总线连接到外部 GPU 或 FPGA 进行推理相比,它的延迟要低得多。

编程模型方面的这种低延迟和不复杂性是将 AI 推断到 CPU 复合体上的重点。

IBM在芯片领域掷下重磅炸弹

在上图中,IBM 模拟了一个信用卡欺诈应用程序的性能,该应用程序在其全球银行客户之一上运行并使用多级循环神经网络。如您所见,将此应用程序从 DCM 中的一个芯片扩展到两个芯片,再到 drawers中的 8 个芯片,再到系统中的 32 个芯片,在性能和延迟方面都是非常线性的。介于 1.1 毫秒和 1.2 毫秒之间的某个时间,这对于实际应用程序进行推理来说是一个非常非常好的延迟。这些系统每秒将进行数万次交易,并且需要进行大量推理才能将欺诈检测提升一个档次。

“我们将从欺诈检测转向欺诈保护,”IBM 系统集团 System z 部门总经理 Ross Mauri 解释说。

★ 点击文末【阅读原文】,可查看本文原文链接!

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第2776内容,欢迎关注。

★重新审视摩尔定律

★李东生和王东升的“芯”目标

★芯片巨头的疯狂五年

晶圆|集成电路|设备|汽车芯片|存储|MLCC|英伟达|模拟芯片

IBM在芯片领域掷下重磅炸弹

原文链接!

展开阅读全文

页面更新:2024-04-24

标签:三星   插槽   芯片   复合体   浮点   重磅   矩阵   加速器   缓存   内核   精度   炸弹   处理器   单元   领域   数学   数据   财经   系统

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top