前天,全球知名的开源大模型平台DeepSeek在Hugging Face发布了其最新版本V3的论文。该论文从硬件架构和模型设计两个方面出发,探讨了如何在保持性能不降低的前提下,实现大规模训练和推理的更高效率,以突破现有硬件的限制。其中,DeepSeek-MoE技术、多头潜在注意力机制、FP8混合精度训练方法以及多标记预测策略成为关键的创新亮点。
论文地址:
https://huggingface.co/papers/2505.09343。
随着OpenAI GPT-3、DeepSeek-R1、Claude-3.7 Sonnet等先进模型的不断涌现,对硬件和算力资源的需求迅速攀升。尤其在内存方面,大规模模型的需求每年增长超过1000%,而高速内存容量的提升速度却相对缓慢,通常不到50%。这种内存供需的巨大差距严重限制了大模型的发展空间。
此外,在计算效率方面,传统计算架构难以满足大规模模型训练与推理中对高效性能的要求。网络互连带宽同样面临瓶颈,现有网络架构在传输大量数据时存在带宽不足和延迟过高的问题。DeepSeek-V3通过一系列软硬件层面的创新,有效缓解了这些挑战。
在模型设计上,DeepSeek-MoE充分利用了混合专家(MoE)结构的潜力。具体来说,MoE通过选择性激活部分专家参数,使模型在大幅增加整体参数规模的同时,保持相对较低的计算开销,从而提高训练效率和性能表现。
例如,DeepSeek-V2拥有2360亿参数,但每个token实际激活的参数量只有210亿;而DeepSeek-V3将参数规模提升至6710亿,接近V2的三倍,但每个token激活的参数仅为370亿。相比之下,诸如Qwen2.5(720亿参数)和LLaMA3.1(4050亿参数)等密集模型在训练过程中需要激活全部参数。
数据显示,DeepSeek-V3在计算开销上表现出显著优势,其每个token的计算量约为250 GFLOPS,而720亿参数的密集模型为394 GFLOPS,4050亿参数的密集模型更是高达2448 GFLOPS。这表明MoE架构能够在计算资源消耗降低一个数量级的同时,保持甚至超越密集模型的性能。
在个人使用和本地部署的场景中,MoE模型展示了显著的优势。由于每次请求只激活部分参数,这大大降低了对内存和计算资源的需求。以搭载AISoC芯片的个人电脑为例,运行DeepSeek-V2(2360亿参数)时,推理阶段仅激活210亿参数,能够实现接近每秒20个Token的处理速度,满足个人使用需求已经非常充足。相比之下,参数规模约700亿的密集模型在相同硬件条件下,通常只能达到个位数的每秒Token数。
此外,多头潜在注意力(MLA)架构通过压缩键值(KV)缓存,有效减少了内存使用。该方法使用投影矩阵将所有注意力头的KV数据压缩成一个更小的潜在向量,并与模型协同训练。在推理时,仅需缓存这一潜在向量,远低于传统方法缓存所有注意力头KV所需的内存。借助MLA,DeepSeek-V3将每个token所需的KV缓存大小降至70KB,明显低于LLaMA-3.1(4050亿参数)模型的516KB以及Qwen-2.5(720亿参数)模型的327KB。
为了进一步缩减KV缓存的占用,DeepSeek提出了多种优化策略。例如,通过共享KV,让多个注意力头共用同一组KV配对,从而显著减少KV存储需求,代表性的方案包括GQA和MQA;针对长序列输入,采用窗口KV技术,仅缓存滑动窗口内的KV配对;另外,还通过量化压缩方法,利用低位宽存储KV数据,进一步降低内存占用。
在训练技术方面,DeepSeek-V3引入了FP8混合精度训练方案。这种方法在确保模型性能稳定的同时,大幅削减了计算资源消耗,使得大规模模型训练更加经济高效。虽然现有如GPTQ和AWQ等量化技术已将位宽压缩至8位、4位甚至更低,但它们主要应用于推理阶段以减少内存使用,在训练阶段的应用仍较有限。此前,开源大模型中几乎未见采用FP8进行训练的案例。
DeepSeek则依托基础设施与算法团队之间的紧密合作,打造了与FP8兼容的MoE训练框架,特别是在前向和反向传播计算环节中实现FP8精度运算。尽管如此,要充分释放FP8在加速训练中的潜力,仍需克服部分硬件方面的限制。
FP8在Tensor Core中采用受限的累加精度,这对大型模型训练的稳定性带来挑战;与此同时,细粒度量化在传输部分结果时会引发较高的反量化开销,导致频繁的数据迁移,降低计算效率并复杂化硬件利用率。针对这些问题,DeepSeek提出了未来硬件设计的建议:首先,硬件应提升累积运算精度,例如将Accumulation Register精度调整至FP32或支持可配置的累加精度设置;其次,应原生支持细粒度量化,使Tensor Core能够接收缩放因子,并通过组缩放技术完成矩阵乘法,避免频繁的数据移动,从而降低解量化开销。
在网络通信方面,DeepSeek-V3通过低精度压缩技术优化了通信效率。训练中的EP并行阶段引入细粒度FP8量化,令牌调度时通信量相比BF16缩减50%,显著减少了传输时间。DeepSeek建议未来硬件应原生支持FP8或自定义数值格式的压缩与解压单元,这将最大限度降低带宽需求,简化通信流程,从而大幅提升带宽密集型任务(如MoE训练)的运行效率。
关于多标记预测,传统的自回归语言模型以单个标记逐步生成文本,随着模型规模和上下文长度增加,推理速度受到较大限制。为此,DeepSeek-V3引入了多标记预测(MTP)框架,该方案允许模型在每次推理步骤同时生成多个候选标记,利用多个轻量级预测模块分别预测当前标记及后续位置的标记。这些模块共享上下文信息但独立输出,生成多候选后并行进行验证,筛选出合理的标记作为最终结果。实验数据显示,MTP对下一个标记的预测准确率高达80%至90%,显著提升了推理效率。
在AI基础设施方面,为了降低集群网络开销,DeepSeek采用多平面双层胖树网络架构,替代传统的三层胖树结构。在DeepSeek-V3训练过程中,部署了横向扩展的多平面胖树(MPFT)网络,每个节点配备8台GPU和8个InfiniBand网卡,GPU-网卡对分配至不同网络平面,此外还配置了400 Gbps以太网RoCE网卡接入独立存储网络,支持访问3FS分布式文件系统。该网络基于64端口400G InfiniBand交换机设计,理论上可支持最多16,384台GPU,同时保持双层网络的成本和延迟优势。受限于政策和监管,当前部署规模为2048台GPU。
由于当前IB ConnectX-7网卡存在一定的限制,DeepSeek部署的多平面胖树(MPFT)网络未能完全达到设计预期。理想情况下,每个网卡应具备多个物理端口,每个端口连接到独立的网络平面,但通过端口聚合技术,将这些端口合并为一个逻辑接口呈现给用户。在用户视角下,单个队列对(QP)能够在所有可用端口之间无缝传输数据,起到类似数据包喷射(packet spraying)的效果。因此,同一QP发送的数据包可能会经过不同的网络路径,乱序到达接收端。为保证通信一致性和排序正确,网卡需要在硬件层面支持无序数据的处理和重排。
例如,InfiniBand ConnectX-8天然支持四个网络平面,未来若网卡能够全面支持高级多平面功能,基于双层胖树的网络拓扑将能够更高效地扩展至大型AI计算集群。整体来看,多平面网络架构在故障隔离、系统稳定性、负载均衡以及大规模扩展方面具备显著优势。
在低延迟网络设计方面,模型推理中大量的EP并行依赖all-to-all通信模式,该通信方式对带宽和延迟非常敏感。举例来说,在50GB/s网络带宽环境下,理想数据传输时间约为120微秒,因此,网络的微秒级延迟对整体性能有较大影响,必须高度重视。
为了降低通信延迟,DeepSeek采用了InfiniBand的GPUDirect Async(IBGDA)技术。传统网络通信流程中,GPU完成数据准备后需通知CPU代理线程,由CPU代理填充工作请求(WR)信息,再通过门铃机制唤醒网卡开始传输,这中间涉及额外的CPU介入和开销,影响通信效率。IBGDA通过减少CPU的参与,实现GPU与网络间的直接异步通信,大幅降低了延迟。
IBGDA技术允许GPU直接完成工作请求(WR)的填写并将信号写入RDMA门铃的内存映射IO地址,实现了GPU内部对控制平面的全面管理,从而消除了传统GPU与CPU之间通信带来的显著延迟。此外,在发送大量小数据包时,传统的控制平面处理器容易成为性能瓶颈,而GPU凭借其多线程并行能力,可将发送任务有效分摊到多个线程,避免了这一瓶颈问题。
以DeepSeek的DeepEP为代表的多项研究均采用了IBGDA技术,并取得了显著的性能提升,因此DeepSeek倡导广泛支持这一功能于各类加速器设备上。
虽然InfiniBand(IB)在延迟表现上优于基于融合以太网的RDMA(RoCE),因而成为延迟敏感型分布式训练和推理任务的首选方案,但IB的成本较高且扩展性存在局限。相比之下,RoCE在经济性方面更具优势,有望成为IB的替代方案,但其当前在延迟和扩展能力上仍存在不足,难以满足大规模AI系统的严格需求。
针对RoCE的不足,DeepSeek提出了若干改进建议,包括采用专用的低延迟RoCE交换机、优化网络路由策略、增强流量隔离和改善拥塞控制机制等,以提升其性能和适用性。
·
我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。在这里,您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。
欢迎关注“福大大架构师每日一题”,让AI助力您的未来发展。
·
更新时间:2025-05-19
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号