DeepSeek R2 又又又要发布了?摩根士丹利研报「剧透」R2 关键特性?

自从 DeepSeek R1 发布以来,每隔一段时间就会传出 R2 的消息,影响最大的就是 2 月底的时候路透社说从消息人士获知 DeepSeek 原定于 5 月初发布 R2,甚至打算提前。结果大家等到五月底也只等到了 DeepSeek R1-0528。

今天的微信群里,再次流传出一份来自摩根士丹利的研报,标题为《DeepSeek R2:一个新的 AI 推理巨兽?》。

先说重点:我个人觉得这份报告里的说法没什么靠谱的依据,依然是之前那些捕风捉影的传闻。但反过来说,不论这份报告真实性几何,都能说明国外的投资者对于 DeepSeek 的高度认可,以及对国内 AI 行业的密切关注。所以,虽然报告的具体内容可能是图一乐,但其呈现出的风向还是值得关注的。(我把全文截图放在文末,大家可以自行判断)

接下来就一起过一下报告的主要内容。大摩认为,备受瞩目的 DeepSeek R2 模型发布可能在即,并有望重新定义中国 AI 的发展方式、定价策略乃至对本土 AI 芯片供应链的依赖程度。

核心看点:

DeepSeek R2:不止于大,更在于「智」与「省」

根据大摩的报告,DeepSeek R2 作为深度思考模型的第二次重要迭代,野心不小。它不仅要在多语言推理和代码生成上大展拳脚,还将引入结合了思考与非思考模式的混合模型。 这样做的好处显而易见:更低的功耗,更少的资源消耗,就能驱动更多的 token 处理。

更令人期待的是,R2 可能会具备多模态功能。 简单来说,它不仅能理解文本,还能看懂图像。同时,R2 极致追求效率,目标是以远低于其 R1 的成本,提供更强的 AI 性能。

为什么说 R2 至关重要?

大摩分析师指出,高效模型能够降低对计算资源的需求,从而使 AI 技术更加大众化。 这会吸引更多新用户和新的应用场景,最终扩大整体需求。 如果 R2 成功,它将通过以更低成本提供可比肩的性能,颠覆现有 AI 市场,推动 AI 的广泛采用。 其卓越的推理能力和前所未有的效率,对于寻求强大 AI 解决方案的公司和开发者来说,具有改变游戏规则的潜力。

值得注意的是,这一进展正值全球大型语言模型(LLM)扩展范式从预训练阶段转向后训练(特别是推理阶段)的时期。 DeepSeek R2 正是踩在了这个鼓点上。

背靠国产供应链:华为昇腾 910B 或成关键

DeepSeek R2 的另一大看点,在于其背后崭新的供应链体系。报告称,R2 模型得到了一个由专业化公司组成的强大中国生态系统的支持。

DeepSeek R2 的训练据称是在华为的 Ascend 910B 芯片集群上完成的。通过与领先的 AI 超算基础设施合作,并引入尖端的光子学技术,DeepSeek 正在自上而下打造自己的供应链。此前,许多第三方声称 R1 版本的训练使用了数万块英伟达的 H100 和 H200 GPU。 而最近的迹象表明,DeepSeek 可能在使用华为昇腾 910C 芯片进行推理,同时在英伟达 H100 GPU 上训练其 AI 模型。

这一转变意义重大。在当前地缘政治和供应链挑战下,DeepSeek 似乎正致力于构建本土硬件供应链,以减少对美国芯片的依赖。 这无疑为中国 AI 的自主可控增添了重要砝码。

R2 的「内功」:万亿参数与 MoE 架构

DeepSeek R2 的性能提升,离不开其强大的模型参数和先进的架构。

据 WCCFTECH 报道,新的 R2 模型总参数量高达 1.2 万亿(DeepSeek R1 为 6710 亿),其中激活参数为 780 亿。 它采用了混合专家(MoE)架构,这种架构将 AI 模型划分为多个独立的子网络(即「专家」),并根据输入选择性地激活部分专家。

注:此处的技术细节大概率并不靠谱

MoE 架构有何优势?

报告提到,R2 的成本效益极高,可能比 OpenAI 的 GPT-4o(输入成本 0.07 美元/百万 token,输出成本 0.27 美元/百万 token)便宜高达 97%。 从 R1 的输入成本 0.15-0.16 美元/百万 token、输出成本 2.19 美元/百万 token,到 R2 的输入 0.07 美元/百万 token、输出 0.27 美元/百万 token。

更长的 Token,更高的推理需求:

值得注意的是一个趋势:为了提升输出质量,模型激活的参数正在增加,即所谓的「更长的 token」。 例如,R1-0528 完成评估就比原始 R1 多用了 40% 的 token。 Gemini 2.5 Pro 也比 R1-0528 多用了 30% 的 token。 更长的 token 意味着在推理阶段需要更多的 GPU 和内存。 大摩认为,虽然推理阶段的计算使用是成本、速度和芯片可用性之间的权衡,但这一趋势暗示着推理 GPU 和内存的使用将会增加,利好相关硬件。

不止 R2,DeepSeek 的进化之路

DeepSeek 的模型进化并非一蹴而就。在 R2 之前,DeepSeek 已经发布了多个版本,并在持续优化。

DeepSeek 的核心理念是通过软件驱动的资源优化,而非单纯依赖硬件,来实现成本的大幅降低。 公司通过优化芯片间通信、采用节省内存的方法以及利用强化学习来减少资源需求。这种有效的软硬件协同设计,使得训练大型模型也具有成本效益。

R2/V4 的秘密武器:「推理时扩展」与 GRM

对于即将到来的 R2 和 V4 模型,「推理时扩展」 (Inference-time scaling) 被认为是性能突破的关键。 根据 DeepSeek 在新模型发布前发表的论文,公司采用了一种名为 GRM(General Reward Model,通用奖励模型)的技术。

GRM 是什么? 它是一种在推理阶段(而非训练阶段)通过增加计算资源来改善输出的技术。 这样一来,一个中等规模的模型(例如 27B 参数)在基准测试中甚至可以赶上或超过某些大型模型。 Exhibit 7 的数据显示,DeepSeek-GRM-27B 模型在经过推理时扩展(Voting 32)后,其表现在多个 Reward Bench 基准上都得到了提升。

GRM 模型架构的改进主要通过以下方式实现:

  1. 1. Pointwise GRM:该技术能够统一对单一、配对和多个响应的评分,在纯语言表征内实现,并为不同输入类型和推理时扩展的潜力提供了灵活性。
  2. 2. Self-Principled Critique Tuning (SPCT):通过拒绝式微调和基于规则的在线强化学习,SPCT 可以在 GRM 中培育可扩展的奖励生成行为,自适应地生成原则并准确地进行批判,从而在各种 RM 基准测试中超越现有方法和模型,且不会产生严重偏差,进而降低幻觉水平。
  3. 3. Meta RM:这是一种逐点标量 RM,训练用于识别 DeepSeek-GRM 生成的原则和批判的正确性,以指导投票过程,从而获得超越简单投票的更好扩展性能。

这些技术的运用,预示着 DeepSeek R2/V4 在性能和效率上将有更亮眼的表现。

国产硬件的挑战与机遇并存

虽然 DeepSeek R2 对国产硬件的倚重令人振奋,但挑战依然存在。

华为的昇腾 910C(2019年昇腾 910 AI 芯片的变体)给美国芯片巨头带来了压力。 据 Wccftech 和 Tom's Hardware 援引 AGI Hunt 的报道,昇腾 910C 可以达到英伟达 H100 性能的 60%,并提供强大的推理结果。 报道称,华为昇腾 910C 是一款完全自主研发的芯片,基于中芯国际(SMIC)的 7nm N+2 工艺,拥有 530 亿个晶体管。 与其前身昇腾 910 一样,它采用小芯片封装,但原版由台积电(TSMC)在 N7+ 上制造,而 910C 的计算小芯片则由中芯国际生产。

然而,报道也指出,华为昇腾 910C 可能并非 AI 训练的最佳选择,英伟达在该领域仍保持领先地位。 更关键的是,来自开发者社区的反馈指出,华为要构建起与英伟达 CUDA 相媲美的软件和支持生态系统,还有很长的路要走。 生态系统的支持不足,意味着工程师需要花费更长时间来调试问题,这在快速发展的 AI 技术领域是巨大的机会成本。

尽管如此,中国在 GPU 本地化方面正取得显著进展。 Exhibit 3 列出了一些华为供应链相关股票,涵盖了从设备(SPE)、代工(Foundry)、封测与材料(OSAT & Materials)到硬件、电源和散热等多个环节,显示出本土产业链的逐步完善。

投资启示:AI 普惠化浪潮下的中国机遇

大摩认为,随着中国供应链在 GPU 和 HBM(高带宽内存)方面追赶,以及像 DeepSeek 这样的 AI 公司在硬件限制下持续实现显著性能改进,中国公司将拥有更多可获取的资源来快速部署最新的 AI 技术,从而推进其商业化进程,并以中国特有的效率驱动方式构建 AI 生态系统。

DeepSeek 的受益者被视为在性能、营收和盈利修正方面的明显长期赢家。 尽管近期有所反弹,但全球 AI 相关股票年初至今整体仍下跌了 5%(截至报告发布时)。 DeepSeek 在后训练阶段通过更长的 token 持续取得进展,这意味着推理所需的计算量也将显著增加。 这对本土 GPU、GDDR(图形双倍数据速率存储器)和中国 HBM 产业来说是个好兆头。

总而言之,DeepSeek R2 的出现,不仅仅是一个新模型的发布,它更像是中国 AI 产业发展的一个缩影和风向标。 它展现了中国企业在 AI 核心技术上的追赶雄心,以及通过软硬件协同、架构创新和成本优化来打破现有市场格局的决心。 未来,以 DeepSeek R2 为代表的国产 AI 大模型将如何加速中国千行百业的智能化转型,并在这场全球 AI 竞赛中扮演何种角色,值得我们持续关注。

毕竟,正如大摩所强调的,现在的问题已经不是 R2 是否更好,而是它将如何加速 AI 的普及和应用。而这,或许才是 DeepSeek R2 最令人期待的价值所在。

附:大摩报告全文

展开阅读全文

更新时间:2025-06-07

标签:科技   特性   关键   模型   华为   中国   成本   芯片   架构   性能   英伟   硬件   报告

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号

Top