2月26日,DeepSeek发布全新DualPath推理系统,通过双路径加载机制破解大模型智能体场景下的KV缓存I/O瓶颈,实测在线服务吞吐量平均提升1.96倍。这一技术突破,是否会重新定义大模型推理的性能天花板?

随着智能体应用普及,多轮交互成为常态,上下文跨轮累积到极长长度,KV缓存命中率高达95%以上,加载效率取代计算成为性能主导因素。这和普通大模型对话场景截然不同,后者多为单轮长文本,预填充阶段的计算压力才是核心。
现有推理系统采用预填充-解码分离架构,预填充引擎负责加载KV缓存,解码引擎专注生成内容。但在智能体场景下,预填充引擎的存储网卡带宽持续饱和,解码引擎的带宽却大量闲置,形成典型的资源错配。

单纯增加预填充端的带宽成本高昂,且无法从根本上解决资源错配问题。行业此前的优化思路多集中在KV缓存的压缩或分层存储,却没人打破“预填充负责加载KV”的固有思维定式。
DualPath的核心创新在于开辟了存储到解码引擎的直接通道,KV缓存可先加载至空闲的解码引擎,再通过RDMA高效传输至预填充端。这一设计聚合了所有存储网卡的带宽,彻底缓解了预填充端的I/O压力。
RDMA技术的普及是这一架构得以落地的关键。此前RDMA主要用于超算集群的低延迟通信,随着大模型GPU集群规模扩大,RDMA逐渐成为标配,为跨引擎的高效数据传输提供了基础。

为避免双路径带来的流量干扰,DualPath引入了以计算网卡为中心的流量管理策略,将模型推理通信设为高优先级,KV传输设为低优先级,通过硬件QoS实现隔离。这一细节设计,确保了延迟敏感型任务不受影响。
在1152张GPU的大规模集群测试中,DualPath实现了近线性扩展,从2K智能体扩展到48K智能体,任务完成时间基本一致。这意味着该架构可轻松适配从中小规模到超大规模的大模型推理集群。
令人意外的是,DualPath论文的第一作者是DeepSeek的实习生吴永彤,他目前在北京大学攻读博士学位,自2025年8月起加入DeepSeek系统组,还曾参与DeepSeek-V3.2的研发。
结合行业信息来看,DeepSeek的核心团队中北大毕业生占比极高,且公司内部有着扁平化的技术文化。和多数大厂实习生仅负责辅助工作不同,DeepSeek敢让年轻人主导核心技术项目,这或许是其能快速推出突破性技术的关键。
近年来,AI顶会的最佳论文中,不少由大厂实习生主导完成,这反映出AI行业对年轻科研力量的重视程度正在提升。
这种人才策略不仅能吸引顶尖高校的优秀学生,还能激发团队的创新活力。毕竟,打破固有思维定式的创新,往往来自于没有被行业“固化”的年轻研究者。
DualPath的发布,标志着大模型行业的竞争焦点正在从训练侧转向推理侧。此前,行业比拼的是模型参数、训练数据规模,而现在,推理性能、成本控制成为决定大模型应用落地的核心因素。

比如OpenAI的GPT-4o在提升模型能力的同时,也大幅优化了推理效率,将成本降低了一半以上;国内字节跳动的ByteLLM也推出了专用推理架构,提升了大模型在边缘设备上的运行效率。
DualPath的出现,将推动更多厂商投入推理架构的研发。对于普通用户而言,这意味着未来能以更低的成本、更快的速度使用大模型智能体服务,比如智能客服、代码助手、虚拟医生等应用的体验将大幅提升。
长远来看,大模型基础设施的创新,将为AI应用的全面普及扫清性能和成本障碍,加速AI从实验室走向千行百业的进程。
#人工智能##智能体##你如何看待DeepSeek##前沿技术##国产GPU#
更新时间:2026-02-28
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302034903号