吞吐量提1.96倍 DeepSeek双路径架构破解大模型推理瓶颈

2月26日，DeepSeek发布全新DualPath推理系统，通过双路径加载机制破解大模型智能体场景下的KV缓存I/O瓶颈，实测在线服务吞吐量平均提升1.96倍。这一技术突破，是否会重新定义大模型推理的性能天花板？

大模型推理的“隐形天花板”：KV缓存I/O卡在哪？

随着智能体应用普及，多轮交互成为常态，上下文跨轮累积到极长长度，KV缓存命中率高达95%以上，加载效率取代计算成为性能主导因素。这和普通大模型对话场景截然不同，后者多为单轮长文本，预填充阶段的计算压力才是核心。

现有推理系统采用预填充-解码分离架构，预填充引擎负责加载KV缓存，解码引擎专注生成内容。但在智能体场景下，预填充引擎的存储网卡带宽持续饱和，解码引擎的带宽却大量闲置，形成典型的资源错配。

单纯增加预填充端的带宽成本高昂，且无法从根本上解决资源错配问题。行业此前的优化思路多集中在KV缓存的压缩或分层存储，却没人打破“预填充负责加载KV”的固有思维定式。

双路径架构的破局之道：从设计到落地的巧思

DualPath的核心创新在于开辟了存储到解码引擎的直接通道，KV缓存可先加载至空闲的解码引擎，再通过RDMA高效传输至预填充端。这一设计聚合了所有存储网卡的带宽，彻底缓解了预填充端的I/O压力。

RDMA技术的普及是这一架构得以落地的关键。此前RDMA主要用于超算集群的低延迟通信，随着大模型GPU集群规模扩大，RDMA逐渐成为标配，为跨引擎的高效数据传输提供了基础。

为避免双路径带来的流量干扰，DualPath引入了以计算网卡为中心的流量管理策略，将模型推理通信设为高优先级，KV传输设为低优先级，通过硬件QoS实现隔离。这一细节设计，确保了延迟敏感型任务不受影响。

在1152张GPU的大规模集群测试中，DualPath实现了近线性扩展，从2K智能体扩展到48K智能体，任务完成时间基本一致。这意味着该架构可轻松适配从中小规模到超大规模的大模型推理集群。

实习生主导的技术突破：DeepSeek的人才密码

令人意外的是，DualPath论文的第一作者是DeepSeek的实习生吴永彤，他目前在北京大学攻读博士学位，自2025年8月起加入DeepSeek系统组，还曾参与DeepSeek-V3.2的研发。

结合行业信息来看，DeepSeek的核心团队中北大毕业生占比极高，且公司内部有着扁平化的技术文化。和多数大厂实习生仅负责辅助工作不同，DeepSeek敢让年轻人主导核心技术项目，这或许是其能快速推出突破性技术的关键。

近年来，AI顶会的最佳论文中，不少由大厂实习生主导完成，这反映出AI行业对年轻科研力量的重视程度正在提升。

这种人才策略不仅能吸引顶尖高校的优秀学生，还能激发团队的创新活力。毕竟，打破固有思维定式的创新，往往来自于没有被行业“固化”的年轻研究者。

性能翻倍的背后：大模型基础设施的新赛道

DualPath的发布，标志着大模型行业的竞争焦点正在从训练侧转向推理侧。此前，行业比拼的是模型参数、训练数据规模，而现在，推理性能、成本控制成为决定大模型应用落地的核心因素。

比如OpenAI的GPT-4o在提升模型能力的同时，也大幅优化了推理效率，将成本降低了一半以上；国内字节跳动的ByteLLM也推出了专用推理架构，提升了大模型在边缘设备上的运行效率。

DualPath的出现，将推动更多厂商投入推理架构的研发。对于普通用户而言，这意味着未来能以更低的成本、更快的速度使用大模型智能体服务，比如智能客服、代码助手、虚拟医生等应用的体验将大幅提升。

长远来看，大模型基础设施的创新，将为AI应用的全面普及扫清性能和成本障碍，加速AI从实验室走向千行百业的进程。

#人工智能##智能体##你如何看待DeepSeek##前沿技术##国产GPU#

展开阅读全文

更新时间：2026-02-28

标签：科技吞吐量瓶颈路径架构模型缓存智能引擎集群实习生行业加载性能

1 2 3 4 5

吞吐量提1.96倍 DeepSeek双路径架构破解大模型推理瓶颈

大模型推理的“隐形天花板”：KV缓存I/O卡在哪？

双路径架构的破局之道：从设计到落地的巧思

实习生主导的技术突破：DeepSeek的人才密码

性能翻倍的背后：大模型基础设施的新赛道

124.99美元，Keychron渴创推出V10 Ultra 8K机械键盘

吃尽中国红利，却卸磨杀驴投靠美国，商务部出手，被查一点都不冤

英伟达财报再破纪录！AI“工业革命”驱动业绩狂奔

华为云CodeArts重磅上线！算力价格20年首次反转，Token五年暴增400倍！大数据ETF（516700）拉升1.2%

周鸿祎调侃“节能哲学”：我身体能不动就不动，把能源留给大脑

断崖式专利差！6G技术美国占了35.2%，日本9.9%，中国是多少？

三星Galaxy S26系列正式发布：售价6999元起！

春节会场第一就是它！追觅AI电视V3000以全场景AI覆盖成春节爆款

一夜暴裁4000人，股价飙涨25%，联创发文：AI时代不需要那么多人了

双推百兆内补丁实测修复老旗舰顽疾国产系统提速超车？

两会风口已定！商业航天+低空经济双轮起飞，新质生产力最强赛道

2025年度广东省实验室“十大新闻”评选结果

一大批劣迹网红重出江湖

2月27日尾盘35分钟：这些个股主力资金大幅流出！

中国能建：本次募集资金用于项目建设

2月27日A股资金大出逃！TOP10名单曝光，科技赛道集体失血

蓝思科技：今年推进航天级轻量化机柜项目

在绝望中孕育希望：写给那些在恒生科技深夜里依然坚守的

魅族暂停做手机！前高管李楠：早在2017年，就意识手机行业会

百度季绩深度剖析：AI引擎轰鸣下的转型压力

受内存涨价影响，手机行业或将迎来涨价潮！如何看待？

山西一市启动中小学人工智能通识教育

英伟达利好出尽？美股科技受阻，油气生物逆势突围，新主线浮

魅族科技：一场理想主义的退场与结构性重生

华为WATCH GT Runner 2智能手表海外发布，售价350英镑

吞吐量提1.96倍 DeepSeek双路径架构 破解大模型推理瓶颈

大模型推理的“隐形天花板”：KV缓存I/O卡在哪？

双路径架构的破局之道：从设计到落地的巧思

实习生主导的技术突破：DeepSeek的人才密码

性能翻倍的背后：大模型基础设施的新赛道

吞吐量提1.96倍 DeepSeek双路径架构破解大模型推理瓶颈