公众号记得加星标⭐️,第一时间看推送不会错过。
来源:内容编译自semiwiki。
2003年,传奇计算机架构师迈克尔·J·弗林(Michael J. Flynn)发出警告,但当时业界大多数成员都对此感到迟疑。
众所周知,CPU 不断向更复杂的方向发展——例如推测执行、深度流水线和臃肿的指令处理——已变得难以为继。在一篇题为《omputer Architecture and Technology: Some Thoughts on the Road Ahead》的论文中,弗林预测,计算的未来将不再依赖于日益复杂的通用处理器,而是依赖于简单、并行、确定性和领域特定性的设计。
二十年后,随着推测执行的漏洞逐渐暴露,以及人工智能加速器的兴起重塑硬件格局,Flynn 的批评似乎颇具预见性。他倡导架构简洁性、确定性和专业化,如今已在谷歌、NVIDIA、Meta 等行业领导者以及 Simplex Micro 等新兴企业的设计理念中得到呼应。值得一提的是,Thang Tran 博士近期的两项专利——“具有矢量指令时间调度执行功能的微处理器”和“具有静态调度执行时间计数器的微处理器”——引入了一种确定性矢量处理器设计,用基于时间的指令调度取代了乱序推测。
这实现了可预测的高吞吐量执行、更低的功耗以及简化的硬件验证。这些创新与 Flynn 的论断相符:未来的性能提升并非来自复杂性,而是来自严谨的简单性和明确的并行性。
投机的幽灵
(The Spectre of Speculation)
Flynn 对推测执行的批评远早于 2018 年 Spectre 和 Meltdown 漏洞对整个行业造成冲击之前。这些侧信道攻击利用现代 CPU 中的推测执行路径,跨隔离边界泄露敏感数据——这正是 Flynn 所警告的复杂性带来的意外后果。推测执行的性能提升是以高昂的代价换来的:不仅在功耗和验证工作量方面,还在安全性和信任方面。
事后看来,弗林的警告非常有先见之明。早在 Spectre 和 Meltdown 暴露推测执行的危险之前,弗林就认为推测执行是一种脆弱的优化:它会引发深度设计颠覆,使形式验证更加困难,并且功耗与其性能提升不成比例。它所需的复杂性——分支预测器、重新排序缓冲区、推测缓存——随着工作负载变得越来越并行且受内存限制,其收益也越来越少。
如今,一场悄然的路线调整正在进行。英特尔等主要芯片制造商正在重新思考其架构优先级。英特尔的 Lunar Lake 和 Sierra Forest 核心优先考虑效率而非激进的推测,并针对每瓦吞吐量进行优化。苹果的 M 系列芯片采用宽广的乱序流水线,但它们越来越强调可预测的延迟和编译器主导的优化,而非纯粹的推测深度。在嵌入式领域,Arm 的 Cortex-M 和 Neoverse 产品线趋向于简化的流水线和明确的调度,通常会完全放弃推测逻辑以满足实时性和功耗限制。
或许最重要的是,开放的 RISC-V 生态系统使新一代 CPU 和加速器设计人员能够从第一原理出发进行构建——通常无需任何推测。像 Simplex Micro 这样的供应商正在倡导确定性、低开销的执行模型,利用向量和矩阵扩展或预测调度来取代推测。这些选择直接体现了 Flynn 的论点:当正确性、性能和可扩展性比峰值 IPC 更重要时,简洁性将胜出。
值得注意的是,Tenstorrent 虽然经常与 RISC-V 创新联系在一起,但目前其矢量处理器尚未实现确定性调度。他们的架构融合了推测执行和乱序执行以优化吞吐量,从而增加了控制复杂度。虽然这提升了原始性能,但却与 Flynn 所倡导的简洁性和可预测性背道而驰。尽管如此,Tenstorrent 对特定领域加速和并行性的运用与 Flynn 愿景的其他方面相符。
平行未来:
人工智能芯片与弗林的愿景
在人工智能加速器的兴起中,弗林的愿景得到了最生动的体现。从谷歌的张量处理单元 (TPU) 到英伟达的张量核心,从 Cerebras 的晶圆级引擎到 Groq 的数据流处理器,趋势显而易见:抛弃推测复杂性,转而拥抱大规模并行、确定性计算。
谷歌的 TPU 正是这种转变的典范。它摒弃了推测执行、乱序逻辑和深度控制流水线,而是通过脉动阵列(一种高度规则、可重复的架构,非常适合 AI 工作负载)来处理矩阵运算。这种方法实现了高吞吐量和确定性延迟,符合 Flynn 对简洁且针对特定领域进行优化的硬件的诉求。
Cerebras Systems 将这一概念进一步发展。其晶圆级引擎 (Wafer Scale Engine) 将数十万个处理元件集成到单个晶圆大小的芯片上。它没有缓存层次结构,没有分支预测,也没有推测控制流——只有紧密连接的网格上大规模、均匀的并行性。通过优化数据局部性和可预测性,Cerebras 完全符合 Flynn 的观点,即规律性和确定性是可扩展性能的关键。
Groq 由 TPU 架构师 Jonathan Ross 联合创立,围绕编译时调度数据流构建芯片。其架构具有极强的确定性:没有指令缓存或分支预测器。所有执行路径均已预先定义,从而消除了推测逻辑的时序可变性和设计复杂性。最终形成了一个可预测的、软件驱动的执行模型,体现了 Flynn 对显式控制和简化验证的重视。
即使是曾经完全依赖现成 GPU 的 Meta(前身为 Facebook),也在其定制的 MTIA(元训练和推理加速器)芯片中融入了 Flynn 式的思维。这些处理器专为推荐系统等推理工作负载而设计,强调可预测的吞吐量和能效,而非纯粹的灵活性。Meta 决定自行设计针对特定模型的硬件,这与 Flynn 的主张相呼应:不同的计算领域不应被强制采用“一刀切”的架构。
特定领域的简单性:DSA 革命
Flynn 还预测计算将分裂成领域特定架构 (DSA)。他预见到,服务器、客户端、嵌入式系统和 AI 处理器将不再由单一通用 CPU 来处理所有工作负载,而是演变成针对各自任务而定制的独特、精简的架构。
这一预测已成为现代硅片设计的基础。如今的硬件生态系统充满了 DSA:
1、人工智能专用处理器(TPU、MTIA、Cerebras)
2、网络和存储加速器(SmartNIC、DPU)
3、以安全为中心的微控制器(例如汽车中的锁步 RISC-V 内核)
4、超低功耗边缘 SoC(例如 GreenWaves GAP9、Kneron、Ambiq)
这些架构去掉了不必要的功能,最大限度地降低了控制复杂性,并专注于在给定领域内最大限度地提高每瓦性能——这正是 Flynn 概述的设计目标。
甚至 GPU 也朝着这个方向发展。GPU 最初是为图形渲染而设计的,现在融合了张量核心、稀疏计算单元和低精度流水线,实际上成为了针对机器学习而非通用并行性进行优化的 DSA。
简约的传承
Flynn 在 2003 年传递的信息非常明确:复杂性不可扩展,而简单性才可扩展。如今,从 TPU 到 RISC-V 矢量处理器等领先的架构都采用了这一理念,但往往没有明确提及 Flynn 奠定的基础。数据流架构、显式调度和确定性流水线的复兴表明,业界终于开始倾听他的呼声。
在这个安全性、能效和实时可靠性比以往任何时候都更重要的时代——尤其是在人工智能推理、汽车安全和边缘计算领域——弗林对后推测计算的愿景不仅具有现实意义,而且至关重要。
他是对的。
附PPT:
左右滑动查看更多
参考链接
https://semiwiki.com/artificial-intelligence/356512-flynn-was-right-how-a-2003-warning-foretold-todays-architectural-pivot/
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
END
今天是《半导体行业观察》为您分享的第4075期内容,欢迎关注。
加星标⭐️第一时间看推送,小号防走丢
更新时间:2025-06-27
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号