这两天UALink组织一口气发布了4份规范文档,分别如下:
Ultra Accelerator Link™ (UALink™) Common 2.0 Specification
· 为 UALink 技术引入网络内计算,促进加速器之间的计算和通信
· 降低延迟、节省带宽,并提升 UALink 系统复杂多工作负载环境下分布式训练和推理 AI 解决方案的扩展效率
Ultra Accelerator Link™ (UALink™) 200G Data Link and Physical Layers 2.0 Specification
·将 DL/PL 规范从 UALink 通用规范中分离,使 UALink 能够在行业需要新物理层和速度时快速演进,无需更改其他规范
Ultra Accelerator Link™ (UALink™) Chiplet 1.0 Specification
· 定义将 UALink 技术集成到基于芯粒的 SoC 所需的必要信息,包括接口、外形尺寸、流量控制和芯粒管理标准化
· 完全符合 UCIe® 3.0 规范,便于集成到现有芯粒生态系统中
Ultra Accelerator Link™ (UALink™) Manageability 1.0 Specification
· 将 UALink 作为具有集中控制和管理平面的系统引入
· 利用标准化协议、建模和 API,如 gNMI、Yang、SAI 和 Redfish
官方下载页面
https://ualinkconsortium.org/specification/
UALink 2.0等6个规范文档网盘下载(无需注册)
链接:
https://pan.baidu.com/s/1cCSLyjBRZPuU6R9-lr02ug?pwd=i2c9
提取码: i2c9
下面我先抛砖引玉写点自己的学习笔记,水平有限,如有不足之处欢迎专家朋友在留言中补充指正。后面再精选一篇业内报道分享给大家。
主要论点
- 基于以太网的物理层:94%传输效率计算
- UALink Switch延时目标:与端口数相关
- 64B/66B to 256B/257B转换层
- UALink Chiplet方案:与通用Switch Core嫁接?

UALink的物理层基于IEEE 802.3dj,可以说这部分是在以太网的基础上改进而来。在200G速率(也兼容100G和128G两种模式)的1/2/4 way(lane)模式下分别达到200G、400G和800G的单链路带宽。
上面提到的线性编码方式为256B/257B;纠错实现是在一个680字节的包中,包含640字节DL数据加上40字节的FEC前向纠错码。理论传输效率不难计算出是94%多一点。
UALink规范还提出了对更多物理底层(包括编码方式)的支持,这些可以在《...200G Data Link and Physical Layers 2.0 Specification》规范中看到,稍后我也会简单讲解。

如上图,UALink Switch交换机的延时目标,128 lane、256 lane、512 lane分别为小于200ns、250ns和300ns。

上面这个UALink 200GBASE-R & 400GBASE-R示意,编码方式写的是64B/66B。

当物理层为64B/66B编码时,我看到有一个“to 256B/257B transcoder”的转换层。

UALink Chiplet的用法,是在现有加速器(GPU)SoC的设计上添加UALink Chiplet,以实现高速Scale-up的扩展能力。国内这方面的厂商,我了解到的例如:奇异摩尔。

上图中红圈处看来有一点笔误,应该是“Switch die”吧
上图为UALink Chiplet方案的流控实现。我看到左边是加速器SiP,右边为Switch SiP,这是说有一种通用的Switch Core交换机芯片可以加配UALink Chiplet变成UALink Switch吧?

UALink Chiplet与主Chiplet之间采用UCIe(当前是3.0)连接。在UCIe flit的256B传输包中,可用的TL数据部分占238B,这里也有一个93%的效率。
下面分享一篇翻译自Synopsys网站的好文《UALink 2.0 通过四种方式推进 AI 规模化发展》。
作者:Priyank Shukla。
目录
·介绍
·第一点:集合
·第二点:安全
·第三点:韧性
·第四点:可管理性
·从基础到未来
介绍
AI的扩展揭示了一个简单的真理:仅靠原始计算性能无法扩展人工智能。随着模型规模的扩大和集群密度的增加,连接加速器的架构变得与加速器本身同等重要。最近发布的 UALink 2.0 正是为了应对这一现实。UALink 2.0 规范不再将网络视为被动传输,而是引入了四项架构增强,使网络本身成为人工智能扩展的积极参与者。
通过这些改进,UALink 2.0 将 1.0 版本中定义的加速器互连扩展到了一个支持 AI 的架构。网络不再仅仅是在端点之间传输数据,而是积极地辅助系统进行计算。随着 AI 的不断发展,互连将与计算能力一样,对系统性能起着至关重要的作用。
第一点:集合(Collectives)
在训练过程中,每个加速器处理不同的数据片段,并计算模型输出应如何变化才能减少误差。这些变化以梯度的形式记录下来。梯度表示每个模型参数应更新的方向和幅度,以提高准确率。
每个训练步骤都需要在数十个甚至数百个加速器之间交换和组合梯度,以保持模型的一致性。梯度本质上是集合性的,因为没有哪个加速器能够独立地更新模型。
集合通信是指多个加速器共同参与,以协调的方式移动或合并数据的通信操作。与加速器之间一对一的通信不同,集合通信涉及一对多、多对一或多对多的通信,并具有明确的行为模式。
在现代训练工作负载中,很大一部分网络流量来自集体操作。当这些集体操作效率低下时,无论计算速度有多快,训练速度都会减慢。
四个主要部署的集合是:
· 广播:一个加速器拥有一些数据,需要将相同的数据发送给所有其他加速器。可以将其想象成在训练步骤开始时共享模型参数。
· 归约(Reduce):所有加速器都有一个值,这些值通过求和、最大化或最小化等运算进行组合。结果最终到达一个目标位置。例如,对偏梯度求和。
· 所有加速器均进行归约(All reduce): 这是人工智能训练中最常见的方法。每个加速器都有一个值,这些值通过类似求和的运算进行归约,最终结果被发送回每个加速器。这样可以保持所有加速器同步。
· 减少数据分散(Reduce scatter): 数据在所有加速器上进行缩减(reduce),但每个加速器仅接收最终结果的一部分。这提高了大型张量的带宽效率。
在 UALink 1.0中,集合操作完全由软件处理。加速器之间交换大量点对点消息,而软件库则负责协调排序、同步和完成。这种方法虽然可行,但会引入不必要的延迟,并增加整个网络的流量。
UALink 2.0 采用了不同的方法。它引入了网络内集合操作 (INC,In Network Collectives),使得网络架构中的交换机能够理解集合操作并直接参与其中。网络不再需要每个加速器与其他所有加速器通信,而是可以智能地组合、复制和路由数据。
在系统层面,这意味着网络结构(fabric)本身具备了集体感知能力。交换机不再是被动的转发元件,而是以协调且确定的方式主动参与广播、reduce、all reduce 和 reduce scatter 操作。该规范引入了集合原语和块集合,定义了这些操作的建立方式、数据在网络结构中的流动方式以及完成情况的跟踪方式。
交换机仅维护安全高效运行所需的最低限度状态,在保证确定性的同时避免不必要的复杂性。其结果是:延迟更低、流量放大效应更小,并且随着 Pod 规模的增长,扩展性能显著提升。
第二点:安全
UALink 2.0 的下一个重大改进是安全模型和保护功能,旨在为属于同一虚拟 pod 的加速器之间交换的数据提供机密性和可选的完整性保护(包括重放/replay保护)。它是为多租户 AI 系统而构建的。
UALink 1.0 在链路层加入了 加密和认证功能 。这提供了基本的保护,但并未完全解决多个用户共享同一物理网络架构的多租户部署问题。
UALink 2.0 引入了一种全面且保密的计算模型。该规范正式定义了 Pod 和虚拟 Pod 的概念。虚拟 Pod 代表属于单个租户的一组加速器。每个虚拟 Pod 都有其自身的安全上下文,包括加密密钥和认证状态。

UALink 2.0 支持每个虚拟 Pod 的密钥分配、密钥派生和密钥轮换,从而无需静态密钥即可运行长时间的训练作业。加密和身份验证在请求、响应和所有流量中保持一致,以确保机密性和完整性。
交换机参与集群时,便成为可信计算基础的一部分。该规范定义了交换机的身份验证方式、加密密钥的生成和轮换方式,以及如何在租户之间强制执行隔离。它还允许交换机主动处理加密流量:仅被转发的加速器数据保持不变,而加速器和交换机之间的集群操作流量可以根据需要安全地解密、处理和重新加密。
这对于云部署、受监管环境以及任何多个工作负载共享基础设施的场景都至关重要。安全性不再是事后考虑的因素,而是从一开始就融入到架构设计之中。
第三点:韧性(Resiliency)
随着系统规模的扩大,故障变得司空见惯。链路会断开,设备会重启,部分服务中断也时有发生。UALink 2.0 正是为了应对这一现实而制定的。该规范强化了错误处理和隔离机制,定义了如何检测故障、如何控制流量以及如何在不关闭整个 pod 的情况下进行恢复。这对于集群操作尤为重要,因为必须谨慎处理部分故障,以避免数据损坏或死锁。

UALink 2.0 通过明确支持多路径路由、加强故障隔离和恢复、使集合操作具备故障感知能力以及通过链路折叠和协调的 pod 级恢复实现可控降级来提高弹性。
它还能提高带宽利用率和容错能力。流量可以分布在多条路径上,同时仍能保证顺序性和正确性。这些功能在大规模应用中并非可有可无,而是必不可少的。
第四点:可管理性
UALink 2.0 认识到网络架构不仅仅是硬件,它是一个系统。该规范正式定义了 Pod 控制器的角色。Pod 控制器负责拓扑发现、配置、划分虚拟 Pod、生命周期管理和健康监控。
通过在规范层面定义这些概念,UALink 减少了碎片化,并促进了互操作性实现。运营商可以以一致的方式理解不同供应商的 UALink 系统。
这是使 UALink 能够在无需过多定制软件的情况下大规模部署的重要一步。

唐僧_huangliang注:Integrated Switch Architecture(整合交换机架构)是这次我新看到的。通过将UALink Switch芯片集成在计算节点上,每个节点内部加速器(GPU)之间的通信可以在机箱里完成,这种架构不需要专门的外置交换机,适合相对小规模的Scale-up超节点集群。其实NVLink也曾经用过这种方式。
从基础到未来
UALink 2.0 保留了 1.0 版本成功的优势。它构建了清晰的内存语义模型、可扩展的基于交换机的架构,并与以太网物理层紧密结合。这些基本要素保持不变。
与此同时,UALink 2.0 还增加了现代 AI 系统真正需要的功能:能够反映真实训练工作负载的硬件加速集群;专为共享基础设施设计的强大多租户安全性;将更高的弹性作为首要设计目标;以及便于大规模部署的清晰管理。
UALink 2.0 以开放、厂商中立的方式实现了这些进步。它构建了一个真正可互操作、多厂商、以人工智能为先导的可信计算架构,并可根据行业需求进行扩展。
Synopsys 对 UALink 生态系统的承诺
Synopsys 致力于将 UALink 打造成为 AI 规模化系统的基础技术。作为 UALink 联盟的积极成员和规范演进的贡献者,Synopsys 凭借数十年来在高速接口 IP、安全性和系统级集成方面的专业经验,为构建规模化架构的客户提供支持。这一承诺体现在一套完整的、经过芯片验证的 UALink IP 解决方案中,该方案包含控制器、PHY、安全性和验证 IP,旨在满足大规模 AI 部署的实际需求。
对 UALink™ 2.0 规范的支持声明(业界证言)
AMD
“UALink第二代规范的发布标志着开放式高性能AI基础设施发展的一个重要里程碑。通过推进网络内计算等功能,并发布该组织的首个管理和芯片组规范,该联盟正在为可扩展、可互操作的加速器架构奠定基础。AMD很荣幸能够支持UALink朝着开放生态系统迈进,加速行业发展,最终实现智能计算架构的开放性、可组合性以及针对大规模AI优化的未来。”
Kurtis Bowman,AMD架构与战略总监
Astera Labs
“超大规模数据中心可以受益于网络内计算来进一步提升性能,利用标准化芯片快速将 UALink 集成到加速器中,以及使用可无缝集成到现有基础设施的管理工具。这些新的 UALink 规范实现了所有这三点。它们还展现了开放标准的核心优势:整个生态系统的发展速度远超任何单一供应商——而当你以人工智能创新的速度进行部署时,这种速度至关重要。”
Chris Petersen,Astera Labs 副总裁兼首席技术官办公室主任,UALink 联盟董事会成员
Google Cloud
谷歌对最新 UALink 规范的批准表示欢迎,认为这是构建开放、高性能的下一代人工智能基础设施的重要一步。UALink 可管理性(由 gNMI 和 Redfish 提供支持)的引入对于实现现代人工智能工作负载所需的规模、可靠性和互操作性至关重要。
Amber Huffman,谷歌云首席工程师
Synopsys
随着人工智能工作负载在大型加速器集群上的扩展,互连带宽、延迟和高效的内存访问已成为核心系统需求。UALink 等开放式纵向扩展互连技术对于满足这些需求至关重要,它们能够实现高性能、高效率和多厂商互操作性。作为 UALink 联盟的积极成员,Synopsys 凭借其深厚的接口 IP 专业知识以及成熟的 224G 和安全 IP,助力 UALink 生态系统的首次部署,降低集成风险并加快产品上市速度。
Priyank Shukla,Synopsys产品管理总监
UnifabriX
“UnifabriX 支持 UALink,认为它是实现 AI 加速器开放式、以内存为中心的扩展的关键推动因素。UALink 2.0 规范提升了业界构建灵活、高性能 AI 系统的能力,同时保持了互操作性和长期的架构选择。”
Ronen Hyatt,UnifabriX公司首席执行官兼首席架构师
参考内容
https://www.synopsys.com/blogs/chip-design/4-ways-ualink-2-0-advances-ai-scale-up.html
https://ualinkconsortium.org/wp-content/uploads/2026/04/UALink-2.0-Specification-PR_FINAL.pdf
https://ualinkconsortium.org/news/statements-of-support-for-the-ualink-2-0-specification/
扩展阅读
《UALink vs. UALoE/SUE vs. RoCE:AI Scale-Up互连技术性能评估》
《展望2026:国产PCIe 6.0和UALink Switch都将量产?》
《ODCC大会随笔:UALink,大家已经用脚来投票了?》
《AI集群Scale-Up互连:展望UALink与NVLink的竞争》
《UALink 200G 1.0正式发布:规范、白皮书等文档分享》
注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。
尊重知识,转载时请保留全文,并注明来源出处链接。感谢您的阅读和支持!
更新时间:2026-04-09
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302034903号