
深度学习是现代AI的核心技术之一。初创公司Aria Networks正将这种分层智能理念应用于网络领域,推出了其Deep Networking平台。
Aria Networks由Mansour Karam于2025年1月创立。Karam此前创办了基于意图的网络供应商Apstra,该公司于2020年被瞻博网络收购。Aria构建了一套以路径为中心的方案,核心在于微秒级遥测,而非现有主流厂商所采用的以交换机为中心的模型。基于这一方向,Deep Networking平台本周正式发布。该平台集成了专用交换机硬件、经过加固的SONiC操作系统、跨交换机、收发器及主机网卡采集的细粒度遥测数据,以及在协议栈各层运行的智能体。与此同时,公司还披露了来自Sutter Hill Ventures、Atreides Management、Valor Equity Partners和Eclipse Ventures的共计1.25亿美元融资。
"要让AI真正发挥效用,你需要针对该领域进行专项优化,也就是从底层架构开始,打造一套专为AI设计的体系。"Karam在接受采访时表示。
Deep Networking的设计理念是将网络视为AI集群性能的主动参与者,而非被动的基础设施。实现这一目标的手段包括:在ASIC层面采集细粒度遥测数据、在协议栈各层部署智能体,以及持续进行云端软件更新。
遥测层是Aria主张其核心技术差异化的所在。NetFlow等传统网络监控工具采集的是事后数据,分辨率较粗。Aria则直接从交换机ASIC中实时采集微秒级精度的遥测数据。
"我们在ASIC内部嵌入了代码,直接运行在ASIC的ARM处理器上,负责提取遥测数据。"Karam说道。
这些嵌入式遥测数据能够驱动动态负载均衡参数、数据中心量化拥塞通知(DCQCN)和故障切换逻辑的自适应调整,无需等待阈值触发或人工干预。
该平台采用分层架构。在最底层,智能体以微秒级速度响应链路层事件(如收发器抖动),并在毫秒内完成叶脊网络的流量重路由。在较高层,智能体负责对整个集群的流量分配做出更具战略性的决策。在云层,基于大语言模型的智能体以自然语言向运维人员呈现关联洞察,支持针对特定任务或告警状态进行问询,并返回具备上下文感知能力的响应。
Karam指出,简单地将大语言模型叠加在现有架构之上,并不能达到同等效果。"如果你让它执行某些操作,它可能会产生幻觉,进而导致网络中断。它没有使这种方式安全可靠所必需的上下文信息和数据。"
Aria还开放了MCP服务器接口,允许任务调度器、大语言模型路由器等外部系统直接查询网络状态,并将其集成到自身的决策流程中。
传统网络评估通常以带宽和延迟为核心指标。Aria则将平台定位聚焦于两个指标:模型算力利用率(MFU)和Token效率。MFU定义为每个加速器实际达到的算力与理论峰值之比。Karam表示,在实际环境中,训练任务的MFU通常在33%至45%之间,推理任务往往低于30%。
"网络对MFU,进而对Token效率有着重大影响,因为网络与集群中的每个组成部分都紧密相连。"Karam说。
Token效率可表示为每美元消耗的Token数量,或单位时间内产生的Token数量。Aria认为,这两个指标均直接受到网络性能的影响。
Karam通过具体故障场景阐释了这一关联:在一个拥有10,000个XPU的集群中,单块故障网卡在执行All Reduce操作时可导致MFU下降1.7%;一块故障收发器可引发持续的流量重路由,同时消耗MFU并占用大量基础设施开销;从未针对特定工作负载进行调优的拥塞参数设置,则会造成持续的性能不足。
Aria的内部测算将商业价值换算为营收数字:在当前Token定价水平下,一个10,000 XPU集群提升3%的MFU,每年可带来约4,980万美元的营收增长,相当于7.9%的营收提升。
Aria的硬件产品线基于博通ASIC构建,运行符合标准规范的加固版SONiC,包含三款交换机型号。
Aria Switch 800G:基于51.2T博通Tomahawk 5 ASIC,提供64个800G OSFP端口,支持DSP、LRO和LPO光模块。
Aria Switch 1.6T High Radix:4U风冷机型,基于102.4T TH6 ASIC,配备128个800G OSFP端口。
Aria Switch 1.6T:2U机型,支持EIA 19和ORV3 外形规格,兼容风冷和全液冷方式,配备64个1.6T OSFP端口。
Aria从部署阶段起便在客户现场嵌入其所称的"前置部署工程师(FDE)"。Karam表示,这一模式与传统的专业服务在结构上存在本质区别。
"前置部署工程师的一切工作,最终都会反哺到产品中。他们与产品的方向完全一致,不是独立运营的业务单元。"他说。
这一区别对Aria的产品迭代方式至关重要。前置部署工程师持续将真实客户环境数据反馈回平台,驱动智能体能力提升和软件更新节奏——Aria的目标是每周更新一次,而非主流网络厂商惯常的半年或一年周期。
"汇聚所有这些智能,从而扩展解决方案的覆盖广度与能力边界,同时确保其使用的高度安全性——这将是我们持续重点投入的方向。确保网络始终稳定运行,永远是第一要务。"Karam说。
Q&A
Q1:Deep Networking平台的核心技术优势是什么?
A:Deep Networking的核心技术优势在于微秒级细粒度遥测。Aria将代码直接嵌入交换机ASIC的ARM处理器中,实时采集遥测数据,相比NetFlow等传统工具的事后粗粒度采集有显著提升。这些数据可驱动动态负载均衡、DCQCN拥塞控制及故障切换逻辑的自适应调整,无需人工干预或等待阈值触发,从而大幅提升AI集群的网络性能和稳定性。
Q2:MFU和Token效率与网络性能有什么关系?
A:MFU(模型算力利用率)衡量加速器实际算力与理论峰值之比,当前训练任务通常只有33%~45%,推理任务甚至低于30%。Aria认为网络是影响MFU的关键因素,因为网络连接集群中的每个组件。以10,000 XPU集群为例,单块故障网卡就能导致MFU下降1.7%。MFU提升3%,每年可带来约4,980万美元的额外营收,直接体现在Token效率(每美元Token数或单位时间产出Token数)的改善上。
Q3:Aria Networks的前置部署工程师模式和传统专业服务有什么不同?
A:传统专业服务通常是独立的业务单元,以项目制方式交付,与产品研发团队相对割裂。Aria的前置部署工程师(FDE)则从客户部署初期就驻场,持续将真实环境数据反馈给产品团队,直接推动智能体能力优化和软件迭代。因此Aria能够实现每周软件更新,而非行业惯常的半年或一年一次,客户现场经验与产品演进形成紧密闭环。
更新时间:2026-04-10
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight All Rights Reserved.
Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号