SPEC CPU 2026发布,更新了什么?

公众号记得加星标⭐️,第一时间看推送不会错过。

今天对于CPU基准测试领域来说是个值得庆祝的日子,因为标准性能评估公司(SPEC:Standard Performance Evaluation Corporation)发布了其广受欢迎的SPEC CPU基准测试套件的最新版本。这款名为SPEC CPU 2026的套件是该组织众多CPU基准测试套件中的最新版本。凭借其严谨的技术要求和厂商的大力支持,SPEC CPU 2026已成为业界领先的CPU性能基准测试工具。因此,新版本的发布对于CPU和系统基准测试领域来说意义重大,因为它是未来十年衡量CPU性能最重要的基准测试套件之一。

SPEC CPU 2026 是 SPEC CPU 九年来的首个全新版本,旨在对 CPU 基准测试套件进行全面升级。该套件的大部分基准测试已被弃用,取而代之的是更新的工作负载,即使是保留下来的少数测试也进行了更新。一些常青软件,例如开源编译器和图像处理库,其工作负载也进行了更新,以适应更现代的需求。最终结果是,尽管 SPEC CPU 2026 仍然遵循与其前代产品相同的高级设计目标,但其底层运行的实际代码自 Skylake、Zen 1 和 Cortex-A75 时代以来已经发生了显著变化。

除了技术上的严谨性,SPEC CPU 测试套件的另一大亮点在于其广泛的行业参与;该基准测试由一个几乎囊括 CPU 领域所有巨头的团队持续开发,其中包括 AMD、Intel、Arm 和 SiFive。厂商的高度参与以及随后对该套件的认可,有助于提升 SPEC CPU 在业界的合法性和认可度,因为业界普遍认为它是一个公平的基准测试——更重要的是,几乎没有人质疑它的公平性。虽然这有时会带来一些政治风险,但也意味着该基准测试在发布前经过了极其严格的测试和验证,这再次巩固了其合法性和实用性。

最后,在今天 SPEC CPU 2026 正式发布之前,该联盟提前向我们提供了基准测试的发布版本,以便我们评估其性能。因此,除了今天发布的高级别公告之外,我们还有相当多的新数据需要仔细分析。那么,事不宜迟,让我们开始吧。

SPEC CPU 快速回顾

过去二十年来,SPEC CPU 和其他 SPEC 基准测试的平均发布频率约为每十年一次。尽管我们频繁使用 SPEC CPU 和其他 SPEC 基准测试,但我们却很少有机会探讨它们的起源或背后的设计决策。因此,如果您是第一次接触到新的 SPEC CPU 基准测试套件,以下是对 SPEC CPU 及其重要性的简要介绍。

标准性能评估公司 (SPEC) 的使命正如其名。它是一个非营利性行业联盟,旨在组织制定行业标准基准测试。与其他行业联盟一样,SPEC 的宗旨并非自行开发测试,而是汇聚来自工业界和学术界的主要参与者,共同开发基准测试套件。

在SPEC众多基准测试套件中,SPEC CPU无疑是最引人注目的。这不仅是因为它历史悠久——SPEC CPU是SPEC的首个基准测试套件,早在1989年就已发布——还因为它应用广泛。尽管SPEC CPU最初是为服务器和其他高性能系统设计,但随着处理器性能(以及内存容量)的提升,它已被广泛应用于各种设备,包括台式机、工作站,以及最近的移动设备。因此,SPEC CPU已成为比较不同CPU架构的主要基准测试之一,用于评估各种CPU的性能、能效和架构效率(IPC)。

SPEC CPU 基准测试套件的普及源于其可移植性。它并非以特定平台的预编译二进制文件形式分发,而是完全以源代码形式发布。因此,借助支持 C、C++ 和 Fortran 的现代编译器工具链,可以在任何系统上编译和运行 SPEC CPU,而无需考虑 CPU 架构,甚至包括尚未出现的架构。诚然,这其中存在一些细微差别(例如,需要符合标准的编译器),但这也就意味着该基准测试不依赖于 SPEC 对特定平台的支持,硬件开发人员可以立即使用并测试新的硬件特性,而无需等待上游发布新的二进制文件。

由此可见,SPEC CPU 的独特之处在于,它既是硬件的基准测试,也是编译器的基准测试。由于源代码是程序的完全可移植的高级实现,因此不包含任何 CPU 内部函数或其他架构特定的代码,基准测试的结果完全取决于优秀的编译器能否将其转换为快速高效的机器代码。这意味着,通过改进编译器来提升 SPEC CPU 得分是完全可行的(对于自行开发编译器的硬件厂商而言,这一点尤为重要),但关键在于,这些优化不能仅仅针对 SPEC,它们需要能够惠及更广泛的程序类型。

归根结底,这与大多数其他 CPU 基准测试程序有着显著的区别,后者通常以预编译二进制文件的形式分发。实际上,那些基准测试程序旨在衡量给定系统执行特定机器代码批次的性能,而 SPEC CPU 则专注于衡量算法和工作负载。这种区别对日常使用影响不大,但对于理解基准测试程序的设计标准以及 SPEC 的最终目标至关重要。

说到设计标准,值得注意的是,SPEC CPU 的设计目标是尽可能地专注于 CPU 性能测试。这听起来有点同义反复,但也 凸显了开发不涉及计算机设计其他方面的基准测试需要投入多少精力 。SPEC CPU 并非全系统基准测试(SPEC 有专门的 SPECworkstation 来负责这项工作),而是针对 CPU 和内存子系统的性能进行基准测试,其设计选择旨在最大限度地减少其他方面的瓶颈。

具体来说,SPEC CPU 尽可能避免文件 I/O,以防止其成为性能瓶颈。基准测试程序也经过重新编写或修改,以消除不确定的输入和操作(例如硬件随机数生成器和不稳定的排序),确保其确定性。最终,甚至操作系统也被尽可能地排除在外:SPEC 的目标是至少 95% 的基准测试执行时间都用于用户空间代码,从而避免基准测试沦为操作系统的代理测试。

最后,工作负载的选择旨在代表现代计算机的实际应用场景,避免测试过时的软件或学术界以外鲜有人问津的算法。实际上,这意味着 SPEC CPU 基准测试套件最终看起来更侧重于服务器和工作站。它是一个可移植的无头基准测试,因此不包含用户界面任务。尽管如此,该基准测试套件的整体范围仍然非常广泛,其中 SPEC CPU 2026 是迄今为止最全面的。在最新版本的 52 个基准测试中,涵盖了编程/编译、媒体、人工智能、电子设计、网络、数据库和计算科学等工作负载。最终结果是,该基准测试涵盖了非常广泛的算法,并进而对主机 CPU 的诸多不同方面进行了压力测试。

SPEC CPU 2026 有哪些新特性

抛开 SPEC CPU 的一般信息不谈,SPEC CPU 2026 有哪些新内容?简而言之:很多,但也没有你想象的那么多。

自 SPEC CPU 2017 发布以来的九年间,计算机的性能和内存容量持续提升。在服务器领域,英特尔 x86 架构的垄断地位已被 AMD、超大规模数据中心以及其他开发基于 Arm 架构芯片的公司打破。就连 RISC-V 也从最初的大学科研项目发展成为如今功能齐全、足以构建高性能处理器的指令集架构 (ISA)。因此,驱动全球计算机发展的架构发生了翻天覆地的变化,更不用说这些架构本身也在不断演进。

从宏观角度来看,这是一个变化非常有限的时期。SPEC CPU 2017 需要应对过去十年计算硬件的所有变化,主要是 Dennard 缩放的终结以及由此导致的 CPU 从单纯追求核心速度转向核心数量更多的趋势,而 2017 年至 2026 年这九年间并没有出现类似的转变。因此,尽管该联盟之前需要对 SPEC CPU 的许多方面进行调整以跟上 CPU 设计的变化,但 SPEC CPU 2026 则无需如此。所以,尽管基准测试套件在多个方面进行了现代化改造,但它并没有经历像 SPEC CPU 2017 发布时那样的大规模变革。

SPEC CPU 2026 的重点是更广泛的基准测试,以反映 2026 年的现代工作负载,同时在规模和兼容性方面也保持领先。

2026 版基准测试套件共包含 52 个测试项目,比 2016 版增加了 9 个。其中 38 个是全新的测试项目。只有 14 个测试项目保留自 2016 版,主要是一些常用软件,例如 GCC、LLVM 和各种数据压缩工具。即便如此,这些测试项目也都已更新,不仅使用了最新的代码,还采用了更新、更深入的工作负载。

总共有 52 个基准测试,内容远超本文篇幅所能涵盖。值得注意的是,Perl、x264 和 Blender 已从 2026 版测试套件中移除。取而代之的是 CPython、FLAC 和 SQLite 等新的基准测试。此外,还有大量计算科学工作负载,以及一些新的行业工作负载,例如 FPGA 布局布线 (VPR)。

代码总行数增加了一倍多,从约 710 万行增加到约 1670 万行。其中大部分代码属于 GCC、LLVM 和 FemFlow(一种有限元流体动力学模拟程序)。

正如您所预期的,最新版本的测试套件也更新了基准测试套件,使其使用更新的语言标准。SPEC CPU 2017 基于 C99、C++03 和 Fortran 2003,而 SPEC CPU 2026 基准测试则基于 C18、C++17 和 Fortran 2018——这些标准都比前者新了大约 15 到 20 年。因此,构成该测试套件的基准测试都可以使用许多新的语言特性,最值得注意的是 C++ 线程(std::thread)和 Fortran 并发(DO_CONCURRENT)。后者的变化主要影响 SPECspeed 基准测试,因为 SPECrate 会显式运行单个程序的多个副本,而不是在程序内部使用多线程。

硬件要求也有所提高,主要是为了跟上系统内存容量不断增长的步伐。SPECrate 每个实例仍然需要 2GB 内存,这意味着该基准测试套件的内存需求会随着 CPU 核心/线程数量的增加而迅速增长。实际上,这意味着一台现代高端桌面 CPU 需要 64GB 内存(足以覆盖 Arrow Lake 的全部 24 个核心或 Granite Ridge 的全部 32 个 SMT 线程)。巧合的是,SPECspeed 的内存需求也跃升至 64GB,这反映了其工作负载规模更大以及对多线程的更频繁使用。需要注意的是,我们尝试在一台配备 128GB 内存的 AMD Ryzen Threadripper 9980X 系统上运行该测试,但由于内存不足而失败。

最后值得注意的是,SPEC CPU 组织再次延续了其选择非主流架构作为参考处理器的偏好。在 SPEC CPU 2026 测试中,参考处理器是联想 ThinkSystem HR330A,它搭载了一颗 3.0GHz 的 Ampere eMAG 8180 处理器,这是一款 2018 年发布的 32 核 ARMv8 AArch64 架构处理器,采用 Skylark CPU 内核。这结束了 SPARC 处理器作为参考处理器的长期历史,但延续了使用非主流 CPU 内核(例如 Intel 或 AMD x86、Arm Cortex)作为参考处理器的趋势。

既然 SPEC CPU 2026 的亮点已经介绍完毕,接下来让我们来看看基准测试性能。

SPEC CPU 2026 性能

为了初步了解 SPEC CPU 2026 的性能,我们快速浏览了我们手头上仍运行基于 Ubuntu 24.04 操作系统的系统,这些系统可以立即使用,并且配置也比较相似。我们知道初始测试需要几天时间才能完成,而距离今天解除禁令也只有几天时间了。我们根据“四处走走看看哪些机器可以用于项目”的方法,选择了以下机器:

Dell Pro Max 16 Plus – Intel Core 9 Ultra 285HX(Lion Cove + Skymont)

GMKtec EVO-X2 – AMD Ryzen AI Max+ 395 (Zen 5)

NVIDIA DGX Spark – NVIDIA GB10(Cortex-X925 + Cortex-A725)

这三款系统均配备 128GB 内存,确保它们有足够的内存运行基准测试套件,并且在内存容量方面大致相当。Dell Pro Max 16 Plus 内置高通 AI 加速器,因此,从 AI 性能方面来看,它们或许可以作为一组有用的对比对象。

就性能而言,我们力求选择尽可能相似的系统,但毕竟戴尔是笔记本电脑,而另外两款系统是小型台式机。因此,这并非完全公平的比较。不过,这让我们得以了解大致相似的 x86 系统,以及一款性能相当高的 Arm 系统。重要的是,我们还想测试这些架构的 P 和 E 核心。我们运行了一台 AmpereOne 192 核系统,但由于我们实际上运行的是一个 2×2 的测试矩阵,其中包含 LLVM20 和 LLVM2022 编译并运行 CPU2017 和 CPU2026,因此无法进行测试。该测试矩阵直到上周晚些时候才开始,所以未能赶在今天解禁前完成。

请注意,这些是非官方成绩,根据 SPEC 运行规则,仅供参考。所有测试均在 Ubuntu 24.04 系统下进行,使用 LLVM 编译器的最新稳定版本 20.1.8。我们测试的是基础性能,而非峰值性能。LLVM22 的数据将在日后公布。

首先,我们来看一下单实例(1T)运行 SPEC CPU 2026 SPECrate 测试的得分。我们分别在各自架构的 P 核心和 E 核心(如果后者可用)上运行了这些基准测试。

首先,使用新的基准测试套件和新的参考机器,得分大幅下降。到 2026 年,在我们测试的三款处理器中,针对此单线程工作负载速度最快的 CPU 核心是 NVIDIA GB10 处理器中的 Arm Cortex-X925。即便如此,其性能也仅为 2018 年左右参考机器的 5.5 倍。

总体而言,在比较P核心时,NVIDIA平台在整数和浮点运算工作负载方面均表现最佳,比速度第二快的搭载Ryzen AI Max+ 395的Evo平台高出约10%。此外,值得注意的是,两款x86系统的性能非常接近,Intel和AMD分别在整数和浮点运算性能方面交替领先。

至于E核心,这些数据也清晰地表明了英特尔和英伟达各自的E核心性能差异巨大。285HX芯片中的Skymont E核心性能与功能齐全的Lion Cove P核心相当接近,性能达到后者的80%左右,而英伟达方面则差距更大。Cortex-A725核心的性能仅为Cortex-X925核心的45%到50%左右。

为了进行更深入的分析,让我们来看看各个基准分数,首先从 inrate 开始。

虽然 Coretex-X925 取得了最高的平均分,但各项测试的结果却更为复杂。NVIDIA 芯片内部的 Arm 核心并非在所有基准测试中都胜出,有时甚至落后于 Intel 和 AMD 的芯片。但这种情况仅偶尔发生。值得注意的是,NVIDIA 芯片在所有整数运算工作负载中都没有出现明显的劣势,反而有几项测试中它以显著优势胜出。

与此同时,即使在单一基准测试层面,AMD 和 Intel 的芯片性能也相当接近,尽管 Intel 芯片在某些方面略胜一筹,尤其是在编译基准测试中。

至于浮点运算工作负载,竞争格局相当复杂。Cortex-X925 在这方面优势明显不足,尤其是在 772.marian_r(一个神经机器翻译基准测试)中,它与 AMD 的芯片差距巨大。虽然 AMD 的芯片在这里也远超 Intel,但这对于 Zen 5 芯片来说无疑是一次巨大的胜利,弥补了它在接下来的基准测试 782.lbm_r 中遭遇的惨败。

现在,让我们来看看当这些 CPU 满负荷运行时,运行的 SPECrate 副本数量与它们的 CPU 核心数/SMT 插槽数一样多时,CPU 的性能和总吞吐量。

使用多个 SPECrate 实例并让相应的 CPU 满负荷运行后,结果截然不同。在 CPU 满负荷运行时,AMD Zen 5 系统在整数和浮点运算测试中均优于 Intel 和 NVIDIA/Arm 系统。尽管 AMD 系统理论上只有 16 个 CPU 核心,而 Intel 和 NVIDIA 分别有 24 个和 20 个核心,但 AMD 系统却拥有 16 个核心。然而,另一方面,AMD 芯片采用的是 16 个 P 核心的同构设计,而 Intel 和 NVIDIA 芯片则通过混合使用 P 核心和 E 核心来实现各自的核心数量。

总的来说,我们在单线程测试中看到的较高浮点分数在这里有所下降,因为这些系统已经完全负载,对缓存和其他内存资源的竞争更加激烈(更不用说电源和散热预算了)。

再次查看各项测试的得分明细,我们发现AMD系统在除一项之外的所有整数测试中都胜出,而最后一项测试的结果也基本持平。具体结果因测试而异,但AMD系统始终与其他芯片保持同步,甚至在少数情况下遥遥领先。

在浮点运算基准测试中,这种差距更加明显,正如整体几何平均分所暗示的那样。AMD芯片在782.lbm_r测试中仍然落后(即使只使用一份SPECrate测试结果,它也表现不佳),但它在其他测试中通常遥遥领先于其他芯片。需要重申的是,这些测试机器并非完全相同,但这无疑让AMD的表现看起来不错。

换一种方式来可视化,下图展示了每个芯片的扩展性与其单次测试得分的对比情况。

在这里我们再次看到 AMD 芯片的性能提升最为显著,这无疑部分归功于其对 P 核心的独家使用。

同时,就浮点运算性能而言,多核扩展性总体较弱。所有三个系统在运行单个 SPECrate 实例时均表现出较低的性能扩展性,这强烈表明浮点运算工作负载对缓存、内存和总线带宽等共享资源提出了更高的要求。

由于这是新一代的基准测试,接下来让我们看看它与 SPEC CPU 2017 的比较。

SPEC CPU 2026 与 SPEC CPU 2017 对比

我们还想快速对比一下 SPEC CPU 2026 和 SPEC CPU 2017 的性能。由于 SPEC CPU 2017 的数据很多,我们认为直接在两个测试平台上运行系统并比较差异会很有意思。需要注意的是,这两个基准测试套件的得分并不直接可比,2026 和 2017 的得分之间也没有官方的“缩放因子”。尽管如此,这仍然有助于突出每个系统在 SPEC CPU 2017 和 SPEC CPU 2026 之间的相对位置变化。

从单个 SPECrate 样本开始,以下是我们的 1T 结果。

对于整数运算工作负载,三款系统的性能提升幅度都相当接近。也就是说,在 SPEC CPU 2026 测试中,三款系统的得分均在 2017 年得分的 55% 到 58% 之间。然而,浮点运算性能的下降更为明显。英特尔系统不仅下降幅度更大,其 2026 年得分仅为 2017 年得分的 54%,并且在此基础上进一步下降。NVIDIA Arm 系统的下降幅度更大,其 2026 年得分仅为 2017 年得分的 46%。实际上,这意味着与 SPEC CPU 2017 相比,NVIDIA 系统在 SPEC CPU 2026 测试中落后于 AMD 和英特尔。(尽管它在 2026 年的整体 1T 性能表现最佳。)

同时,运行多个 SPECrate 测试用例的比率则更为稳定。所有结果均在 50% 左右,表明 SPEC CPU 2026 对多核吞吐量的压力与对单核吞吐量的压力相当。此外,所有测试用例的性能下降幅度均不超过 51%。即使是 NVIDIA Arm 系统,在 2026 fprate 测试中也达到了其 2017 fprate 性能的 52%。

最终,这些数值会因系统架构和配置而异,因此不应将其作为其他系统的经验法则。这表明,在Arrow Lake、Strix Halo和GB10这三款芯片中,它们的相对排名基本保持不变。简而言之,虽然SPEC CPU 2026显著改进了基准测试套件的底层工作负载,但到目前为止,我们尚未看到它改变当代CPU之间的性能对比。

结语

虽然“更大更强”这个词在业内无疑已被滥用,但就 SPEC CPU 2026 而言,这却是对这套基准测试套件最贴切的描述。SPEC CPU 2026 包含 52 个现代基准测试,代码量是之前的两倍多,并且工作负载旨在随着最新处理器的性能和内存容量而扩展,因此它不仅比以往规模更大,而且更能代表现代计算工作负载。

从我们初步的基准测试结果来看,最新的CPU基准测试套件乍看之下似乎与之前的版本并没有太大的变化。虽然该套件的大部分单项基准测试都是全新的,但整体几何平均得分始终稳定在SPEC CPU 2017的50%左右,整数和浮点工作负载均是如此。

需要注意的是,这种扩展性并不能保证在不同的 CPU 架构和系统中都能实现。总体而言,虽然 SPEC CPU 2026 测试总体上强度更高,但它并没有显著改变我们在本文中测试的 Intel、AMD 和 NVIDIA 芯片的相对排名。也就是说,虽然 SPEC CPU 2026 为我们提供了更多(且非常有价值的)数据点,让我们能够比较这些芯片的性能,但它目前并没有改变桌面芯片的既定排名。此外,我们必须指出,由于我们这里使用的是 LLVM,我们预期各公司会推出比我们目前看到的更优化的编译器。这里测试的只是 LLVM20,但 LLVM22 略有不同,一些公司可能拥有更优化的编译器。

即使 SPEC CPU 2026 并未给当前的 CPU 基准测试领域带来任何剧烈的变革,但距离上一版本发布已过去九年,能够拥有一个包含更多现代工作负载的更新版本仍然是一件好事。尤其是在业界正着手设计和评估未来十年 CPU 之际。

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

END

今天是《半导体行业观察》为您分享的第4398内容,欢迎关注。

加星标⭐️第一时间看推送

求分享

求推荐

展开阅读全文

更新时间:2026-05-07

标签:数码   测试   基准   套件   性能   负载   系统   核心   芯片   工作   架构

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight All Rights Reserved.
Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号

Top