DeepSeek发布最新论文，5大杀手锏让大模型训练、推理暴涨

前天，全球知名的开源大模型平台DeepSeek在Hugging Face发布了其最新版本V3的论文。该论文从硬件架构和模型设计两个方面出发，探讨了如何在保持性能不降低的前提下，实现大规模训练和推理的更高效率，以突破现有硬件的限制。其中，DeepSeek-MoE技术、多头潜在注意力机制、FP8混合精度训练方法以及多标记预测策略成为关键的创新亮点。

论文地址：
https://huggingface.co/papers/2505.09343。

随着OpenAI GPT-3、DeepSeek-R1、Claude-3.7 Sonnet等先进模型的不断涌现，对硬件和算力资源的需求迅速攀升。尤其在内存方面，大规模模型的需求每年增长超过1000%，而高速内存容量的提升速度却相对缓慢，通常不到50%。这种内存供需的巨大差距严重限制了大模型的发展空间。

此外，在计算效率方面，传统计算架构难以满足大规模模型训练与推理中对高效性能的要求。网络互连带宽同样面临瓶颈，现有网络架构在传输大量数据时存在带宽不足和延迟过高的问题。DeepSeek-V3通过一系列软硬件层面的创新，有效缓解了这些挑战。

在模型设计上，DeepSeek-MoE充分利用了混合专家（MoE）结构的潜力。具体来说，MoE通过选择性激活部分专家参数，使模型在大幅增加整体参数规模的同时，保持相对较低的计算开销，从而提高训练效率和性能表现。

例如，DeepSeek-V2拥有2360亿参数，但每个token实际激活的参数量只有210亿；而DeepSeek-V3将参数规模提升至6710亿，接近V2的三倍，但每个token激活的参数仅为370亿。相比之下，诸如Qwen2.5（720亿参数）和LLaMA3.1（4050亿参数）等密集模型在训练过程中需要激活全部参数。

数据显示，DeepSeek-V3在计算开销上表现出显著优势，其每个token的计算量约为250 GFLOPS，而720亿参数的密集模型为394 GFLOPS，4050亿参数的密集模型更是高达2448 GFLOPS。这表明MoE架构能够在计算资源消耗降低一个数量级的同时，保持甚至超越密集模型的性能。

在个人使用和本地部署的场景中，MoE模型展示了显著的优势。由于每次请求只激活部分参数，这大大降低了对内存和计算资源的需求。以搭载AISoC芯片的个人电脑为例，运行DeepSeek-V2（2360亿参数）时，推理阶段仅激活210亿参数，能够实现接近每秒20个Token的处理速度，满足个人使用需求已经非常充足。相比之下，参数规模约700亿的密集模型在相同硬件条件下，通常只能达到个位数的每秒Token数。

此外，多头潜在注意力（MLA）架构通过压缩键值（KV）缓存，有效减少了内存使用。该方法使用投影矩阵将所有注意力头的KV数据压缩成一个更小的潜在向量，并与模型协同训练。在推理时，仅需缓存这一潜在向量，远低于传统方法缓存所有注意力头KV所需的内存。借助MLA，DeepSeek-V3将每个token所需的KV缓存大小降至70KB，明显低于LLaMA-3.1（4050亿参数）模型的516KB以及Qwen-2.5（720亿参数）模型的327KB。

为了进一步缩减KV缓存的占用，DeepSeek提出了多种优化策略。例如，通过共享KV，让多个注意力头共用同一组KV配对，从而显著减少KV存储需求，代表性的方案包括GQA和MQA；针对长序列输入，采用窗口KV技术，仅缓存滑动窗口内的KV配对；另外，还通过量化压缩方法，利用低位宽存储KV数据，进一步降低内存占用。

在训练技术方面，DeepSeek-V3引入了FP8混合精度训练方案。这种方法在确保模型性能稳定的同时，大幅削减了计算资源消耗，使得大规模模型训练更加经济高效。虽然现有如GPTQ和AWQ等量化技术已将位宽压缩至8位、4位甚至更低，但它们主要应用于推理阶段以减少内存使用，在训练阶段的应用仍较有限。此前，开源大模型中几乎未见采用FP8进行训练的案例。

DeepSeek则依托基础设施与算法团队之间的紧密合作，打造了与FP8兼容的MoE训练框架，特别是在前向和反向传播计算环节中实现FP8精度运算。尽管如此，要充分释放FP8在加速训练中的潜力，仍需克服部分硬件方面的限制。

FP8在Tensor Core中采用受限的累加精度，这对大型模型训练的稳定性带来挑战；与此同时，细粒度量化在传输部分结果时会引发较高的反量化开销，导致频繁的数据迁移，降低计算效率并复杂化硬件利用率。针对这些问题，DeepSeek提出了未来硬件设计的建议：首先，硬件应提升累积运算精度，例如将Accumulation Register精度调整至FP32或支持可配置的累加精度设置；其次，应原生支持细粒度量化，使Tensor Core能够接收缩放因子，并通过组缩放技术完成矩阵乘法，避免频繁的数据移动，从而降低解量化开销。

在网络通信方面，DeepSeek-V3通过低精度压缩技术优化了通信效率。训练中的EP并行阶段引入细粒度FP8量化，令牌调度时通信量相比BF16缩减50%，显著减少了传输时间。DeepSeek建议未来硬件应原生支持FP8或自定义数值格式的压缩与解压单元，这将最大限度降低带宽需求，简化通信流程，从而大幅提升带宽密集型任务（如MoE训练）的运行效率。

关于多标记预测，传统的自回归语言模型以单个标记逐步生成文本，随着模型规模和上下文长度增加，推理速度受到较大限制。为此，DeepSeek-V3引入了多标记预测（MTP）框架，该方案允许模型在每次推理步骤同时生成多个候选标记，利用多个轻量级预测模块分别预测当前标记及后续位置的标记。这些模块共享上下文信息但独立输出，生成多候选后并行进行验证，筛选出合理的标记作为最终结果。实验数据显示，MTP对下一个标记的预测准确率高达80%至90%，显著提升了推理效率。

在AI基础设施方面，为了降低集群网络开销，DeepSeek采用多平面双层胖树网络架构，替代传统的三层胖树结构。在DeepSeek-V3训练过程中，部署了横向扩展的多平面胖树（MPFT）网络，每个节点配备8台GPU和8个InfiniBand网卡，GPU-网卡对分配至不同网络平面，此外还配置了400 Gbps以太网RoCE网卡接入独立存储网络，支持访问3FS分布式文件系统。该网络基于64端口400G InfiniBand交换机设计，理论上可支持最多16,384台GPU，同时保持双层网络的成本和延迟优势。受限于政策和监管，当前部署规模为2048台GPU。

由于当前IB ConnectX-7网卡存在一定的限制，DeepSeek部署的多平面胖树（MPFT）网络未能完全达到设计预期。理想情况下，每个网卡应具备多个物理端口，每个端口连接到独立的网络平面，但通过端口聚合技术，将这些端口合并为一个逻辑接口呈现给用户。在用户视角下，单个队列对（QP）能够在所有可用端口之间无缝传输数据，起到类似数据包喷射（packet spraying）的效果。因此，同一QP发送的数据包可能会经过不同的网络路径，乱序到达接收端。为保证通信一致性和排序正确，网卡需要在硬件层面支持无序数据的处理和重排。

例如，InfiniBand ConnectX-8天然支持四个网络平面，未来若网卡能够全面支持高级多平面功能，基于双层胖树的网络拓扑将能够更高效地扩展至大型AI计算集群。整体来看，多平面网络架构在故障隔离、系统稳定性、负载均衡以及大规模扩展方面具备显著优势。

在低延迟网络设计方面，模型推理中大量的EP并行依赖all-to-all通信模式，该通信方式对带宽和延迟非常敏感。举例来说，在50GB/s网络带宽环境下，理想数据传输时间约为120微秒，因此，网络的微秒级延迟对整体性能有较大影响，必须高度重视。

为了降低通信延迟，DeepSeek采用了InfiniBand的GPUDirect Async（IBGDA）技术。传统网络通信流程中，GPU完成数据准备后需通知CPU代理线程，由CPU代理填充工作请求（WR）信息，再通过门铃机制唤醒网卡开始传输，这中间涉及额外的CPU介入和开销，影响通信效率。IBGDA通过减少CPU的参与，实现GPU与网络间的直接异步通信，大幅降低了延迟。

IBGDA技术允许GPU直接完成工作请求（WR）的填写并将信号写入RDMA门铃的内存映射IO地址，实现了GPU内部对控制平面的全面管理，从而消除了传统GPU与CPU之间通信带来的显著延迟。此外，在发送大量小数据包时，传统的控制平面处理器容易成为性能瓶颈，而GPU凭借其多线程并行能力，可将发送任务有效分摊到多个线程，避免了这一瓶颈问题。

以DeepSeek的DeepEP为代表的多项研究均采用了IBGDA技术，并取得了显著的性能提升，因此DeepSeek倡导广泛支持这一功能于各类加速器设备上。

虽然InfiniBand（IB）在延迟表现上优于基于融合以太网的RDMA（RoCE），因而成为延迟敏感型分布式训练和推理任务的首选方案，但IB的成本较高且扩展性存在局限。相比之下，RoCE在经济性方面更具优势，有望成为IB的替代方案，但其当前在延迟和扩展能力上仍存在不足，难以满足大规模AI系统的严格需求。

针对RoCE的不足，DeepSeek提出了若干改进建议，包括采用专用的低延迟RoCE交换机、优化网络路由策略、增强流量隔离和改善拥塞控制机制等，以提升其性能和适用性。

我们相信人工智能为普通人提供了一种“增强工具”，并致力于分享全方位的AI知识。在这里，您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。

欢迎关注“福大大架构师每日一题”，让AI助力您的未来发展。

展开阅读全文

更新时间：2025-06-29

标签：科技杀手锏模型论文参数网络平面标记精度通信硬件网卡数据

1 2 3 4 5

DeepSeek发布最新论文，5大杀手锏让大模型训练、推理暴涨

上海到成都将缩短5.5小时，这条高铁最新进展来了

2025京东618玩法细节曝光：每人每天补贴超千元，六大超级惊喜日，优惠满减力度空前

厉害了！交大，全球总冠军！时隔11年再登顶！

余承东：已有2万余个鸿蒙原生应用和元服务上架

危险！神二十刚起飞，2025最强太阳耀斑突然爆发，神二十一待命中

2025年第一季度海外手机市场：联想凭实力跃升海外销量营收第二

OpenAI ChatGPT新Record功能曝光支持会议转录及摘要

金价，突然大跌！

“我是给他上课”！地铁上老人拉拽不让座小伙，上海地铁回应

全国油价大浮下调！

直线跳水！美股突发

“我是给他上课”！地铁上老人拉拽不让座小伙，上海地铁回应

今日金价早知道（2025.05.17）

今日金价水贝实时行情（2025/05/17 09:26）

十亿能换来一命！47岁蔡磊近况曝光，用眼控仪打字与儿子互动

解锁花园城市科技密码——园科院12万平米科研院区首次

斯特罗姆加斯特vs布莱尼数据前瞻

京东外卖，首次披露数据

赵满意：DeepSeek浪潮下AI大模型赋能产业发展

Meta将推迟发布一款名为Behemoth的旗舰AI模型

光博会上这些科技成果人气高

救命的“黑科技”来了！实探长三角国际应急减灾和救援博

腾讯混元图像2模型发布支持文本、语音、草图等多种交

人民网·人民数据赴中国电子技术标准化研究院座谈交流

Behemoth难产：Meta旗舰AI模型被曝遭遇技术瓶颈