MLPerf最新测试结果出炉,巨头角逐AI赛道

MLCommons 发布了数据中心和边缘的最新 MLPerf Inferencing (v3.0) 结果。虽然 英伟达继续在结果中占据主导地位——在所有性能类别中名列前茅——但其他公司也以令人印象深刻的表现加入了 MLPerf 的行列。有 25 个提交组织,高于去年秋季的 21 个和去年春季的 19 个。英特尔展示了早期基于 Sapphire Rapids 的系统,高通的 Cloud AI 100 表现出色,尤其是在功率指标方面。新加入的参与者包括 CTuning、广达云科技、SiMa 和 xFusion。

目前,BERT(来自变压器的双向编码器表示)是 MLPerf 使用的 NLP 模型。生成式人工智能应用程序的预期激增——想想ChatGPT和DALL·E 2的目标版本 ——可能会导致对推理基础设施的需求激增。有趣的是,有一些共识认为 BERT 可以作为大型 LLM 的早期代理,即使它的规模要小得多(GPT3 有 1750 亿个参数,BERT large 有大约 3 亿个参数)。

英特尔 AI 产品高级总监 Jordan Plawner 附和其他人的说法,“在我们测试这些比大型 BERT 大得多的模型的早期结果中(该方法类似于 BERT)。我认为另一种思考方式是,像 GPT3 和 GPT4 这样的大型模型将使所有船只漂浮,因为它们将生成数百个甚至数千个从这些非常大的模型中提炼出来的较小模型。我认为任何将 BERT Large 作为训练模型、推理模型运行的人,(都可以使用它)至少作为运行这些较小的 GPT 模型的代理。”

最新的 MLPerf 展示令人印象深刻,报告了大约 6,700 个推理性能结果和 2,400 个能效测量结果。提交者包括阿里巴巴、ASUSTeK、Azure、cTuning、Deci.ai、戴尔、技嘉、H3C、HPE、浪潮、英特尔、Krai、联想、Moffett、Nettrix、NEUCHIPS、Neural Magic、Nvidia、高通、Quanta Cloud Technology、Rebellions、SiMa、Supermicro、VMware 和 xFusion,近一半的提交者还测量了能效。

推理虽然通常不像训练那样计算密集,但却是人工智能交付的关键要素。MLPerf Inference 3.0 中的测试套件没有变化,但添加了一个新场景——网络。

“我们希望我们的基准可用于比较解决方案,以帮助人们购买和做出设计选择,以弄清楚给定的技术是否真的值得追求。现实是最好的基准始终是您运行的工作负载。但是你可能无法分担该工作量,而且它可能只针对你。实际上,大多数使用 ML 的人都在使用各种不同的工作负载。所以,MLPerf 的目标是它具有代表性,公平和有用,”MLCommons执行董事David Kanter说。

与往常一样,随着提交者、系统规模和系统配置的多样性的增加,理解 MLPerf 结果变得越来越复杂。但这就是某种意义上的目标,因为 MLPerf 广泛的基准套件和部门(封闭式、开放式等)允许系统评估人员进行更精细的比较,但这需要一些努力。MLPerf 的父组织 MLCommons 已经使对结果进行切片和切块变得相当容易。MLPerf 作为系统比较工具越来越受欢迎,尽管这与希望看到更多非 英伟达加速器参与的愿望相结合。

IDC 基础设施系统副总裁 Peter Rutten 说:“MLPerf 3.0特别有用,因为所有系统在性能和功耗以及每个系统为优化性能而部署的软件方面存在巨大差异。能够以大多数 AI 行业支持的客观方式比较所有这些系统,使我们能够看到供应商如何进行比较。我们仍然需要谨慎解释结果。例如,将高端 GPU 的性能与 CPU 进行比较可能会产生误导。显然 GPU 会大放异彩,但 GPU 是一个协处理器,从采购、功耗和散热的角度来看,您需要花费大量成本添加到系统中,而 CPU 是主机处理器,是系统的一部分开始。”

Freund 指出,“英伟达再一次领先;他们通过软件不断提高性能。但是有一些有趣的发展。Deci 优化模型在 A100 上比在 H100 上运行得更快;相当了不起。他们通过应用 AI 来优化 AI 模型来做到这一点。高通在边缘数据中心的能效方面胜出,而新来者 SiMa.ai 表现出比英伟达Jetson 更好的能效。对于初入公司来说还不错!”

英伟达仍然闪耀光芒

英伟达在广泛的加速器市场仍然占据主导地位,并展示了其新的 H100 GPU 以及刚刚推出的 L4(T4 的替代品)的性能。

英伟达人工智能、基准测试和云主管 David Salvator 提供了一个很好的总结,“我们在短短六个月内看到了一些惊人的性能提升,与我们六个月前的第一次提交相比高达 54%。这证明了我们围绕软件创新正在进行的工作。通常,在我们在产品生命周期过程中构建的任何给定一代产品中,我们将从软件优化和我们的库、我们的驱动程序的持续调整中获得另外 2 倍的性能。”

“我们刚刚在 GTC 上推出的 L4 产品首次出现在 MLPerf 中,与我们的上一代产品相比,其结果提高了 3 倍以上。第三个兴趣点是我们的Jetson Orin平台也有了长足的进步。这不是它第一次出现在 MLPerf 中,但通过在平台级别结合软件和一些功率调整,我们已经能够在效率方面将性能和效率提高多达 57%,”他说。

Salvator 将软件改进归功于 H100 Transformer Engine(使用混合精度格式的库)。他还引用了非最大内核在对象检测推理中的使用。如下面的幻灯片所示,边界框通常用于帮助识别对象。“通常情况下,那些边界框是为了彻底而做的重叠,然而在幻灯片的右侧(下图),这是矫枉过正。通过优化NMS内核,我们能够在3D U-Net和ResNet-50中看到一些不错的性能提升,”他说。

英特尔Sapphire Rapids急速崛起

在上一次的 MLPerf Inference 练习中,英特尔在预览类别中提交了预览类别,这是针对预计在六个月内推出的产品。这一轮,英特尔在单节点系统 (1-node-2S-SPR-PyTorch-INT8) 的封闭数据中心提交了两个 CPU(英特尔至强铂金 8480+)。在过去的几年中,围绕通用 CPU 可能足以满足某些推理工作负载的概念进行了大量讨论,通常是在推理是偶尔需要而不是专用或主要需求的情况下。

最新的英特尔提交,虽然跟不上基于加速器的系统,但能够运行工作负载并显示出比上一个 MLPerf 有所改进。

“借助第四代至强可扩展处理器,之前代号为 Sapphire Rapids,我们实际上在我们的产品中拥有一个名为AMX(高级矩阵指令)的新加速器。上次提交的文件实际上是我们刚刚启用了 Amex。因此,在英伟达的观点(关于通过软件实现性能改进)的基础上,现在我们实际上正在调整它并改进软件,”Plawner说。

"我们看到,在短短的几个月内,所有型号的性能都有了1.2倍到1.4倍的提高。我们已经从仅仅启用AMX(这对我们来说也是一种新的CPU内核加速器)到有机会调整软件。与之前的评论类似,我们期望在这一代中,仅通过软件的改进,就能达到2倍左右。他说:"在英特尔,我们都喜欢摩尔定律,但唯一比摩尔定律更好的是,在同一硅片上,随着时间的推移,软件能给你带来什么。”

在这里值得一提的是,竞争供应商遵守 MLPerf 的规定,即在其整体媒体/分析师简报会上发表评论不能直接将一种产品与竞争对手的产品进行比较。如前所述,确实有必要深入研究结果数据并将相似/相似的系统(硬件、软件和新网络测试没有网络)与类似系统进行比较。

高通显示稳步增长

高通对 MLPerf 工作并不陌生,其 Cloud AI 100 加速器一直表现最佳,展示了低延迟和出色的能效。该公司报告称,其 MLPerf v3.0 推理结果超过了之前所有类别的峰值离线性能、能效和更低延迟的所有记录。

“配备 18 个 高通Cloud AI 100 Pro(75W TDP)加速器的 2U 数据中心服务器平台实现了每秒 430K+ 推理的 ResNet-50 离线峰值性能,并实现了 241 推理/秒/瓦的能效。高通Cloud AI 100 RetinaNet Network 跨所有平台的离线性能优化了约 40-80%,服务器性能优化了高达 110%,”高通表示。

“自首次提交 MLPerf 1.0 以来,高通Cloud AI 100 性能提升高达 86%,能效提升高达 52%。这些改进是通过软件优化实现的,例如 AI 编译器、DCVS 算法和内存使用方面的改进。这凸显了过去几年的持续努力和投资,”该公司表示。

VMware 展示了其与戴尔和英伟达合作虚拟化英伟达Hopper 系统的性能。“我们实现了 205% 裸机性能的 94%。值得注意的是,在 128 个逻辑 CPU 内核中,我们只使用了 16 个 CPU 内核。所有剩余的 112 个 CPU 代码应该在数据中心可用于其他工作负载,而不会影响运行推理工作负载的机器的性能。这就是虚拟化的力量,”VMware 高级工程师 Uday Kurkure 说。

什么样的 LLM/GPT 最适合 MLPerf?

在分析师简报会上围绕生成人工智能和大型语言模型进行了讨论,Kanter 指出 BERT 最接近 GPT3/4,但认为实施 LLM 所需的扩展可能会使 BERT 成为一个相对较差的代理,并且如前所述,他说 MLCommons 计划很快添加 LLM。

“ChatGPT 的计算方面与 BERT 最相似,但它要大得多。可能只是因为某些东西在 BERT 上做得很好并不一定能保证你可以在 ChatGPT 上使用相同的系统。您将需要更多的内存,或者可能需要非常聪明的方法来处理内存。当你深入研究模型的细节时,会有很多不同之处,”Kanter 说。

有趣的是提交者并不真正同意;许多人认为 BERT 实际上是良好的开端。

"对于你的观点,当然,层数扩大了,参数扩大了,序列长度扩大了。但从架构的角度来看,你知道,矩阵乘法,层的规范化,这个基础结构是类似的和BERT大,这是一个用于大多数目的的变压器,可以为GPT3扩大规模。三是。现在它开始迭代并发生了一些变化,但我认为--我相信没有人会反对这一点--我认为所有为BERT Large做了优化的提交者,这些类似的优化将转移到LLM工作负载上。这是一个规模和管理其他一切的问题,"Neural Magic的Michael Goin说。

英特尔的Plawner和英伟达的Salvator基本同意。

Salvator说,"我同意这些评论。因为它是一个基于变压器的模型,BERT Large是GPT等事物的一个不错的代理。我认为有趣的是,也许Kanter可以从MLPerf路线图的角度谈谈这个问题,对于像GPT和ChatGPT以及建立在它之上的其他服务,必须考虑到实时服务的要素。这不仅仅是一个吞吐量的问题。这也是一个能够非常、非常迅速地扭转答案的问题,无论这是否是规模的组合,还是与自动批处理等事情。例如,我们用我们的Triton推理服务软件来做这件事,你设置一个延迟预算,然后你至少能够自动发送一个在该延迟预算内尽可能大的批次。因此,你能够在维护的同时获得最佳的吞吐量。基本上,把它看成是一个SLA。"

Kanter 指出,延迟是服务器模式 MLPerf 基准定义的“固有部分”,也是 MLCommons 可以解决的问题。很明显,某种 LLM 很快就会加入 MLPerf 基准测试阵容。

*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。

展开阅读全文

页面更新:2024-05-07

标签:英伟   英特尔   赛道   加速器   负载   基准   巨头   模型   性能   测试   工作   系统   最新   软件

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top