DeepSeek与北京大学合作发布新论文,梁文锋署名

1月12日晚,DeepSeek与北京大学联合发布论文《基于可扩展查找的条件记忆:大型语言模型稀疏性的新维度》,提出全新的“条件记忆”架构,有望成为下一代稀疏大模型的核心原语。

论文指出,当前Transformer架构在处理静态知识检索时需低效重复计算,浪费算力。团队为此引入条件记忆模块Engram,实现神经计算(MoE)与静态记忆的优化分工——让专门模块分别负责推理与知识存储,显著提升效率。

研究发现,采用Engram的混合稀疏分配严格优于纯MoE基准,在通用推理、代码和数学任务上表现尤为突出。论文已开源该记忆模块。

业内分析,此项研究或为即将发布的DeepSeek V4奠定技术基础。此前消息称V4有望在春节前后亮相,并在编程能力上超越当前顶级模型。DeepSeek对此未予置评,但新论文的发布已引发行业高度关注。

来源:第一财经

图片:百度

投稿及建议,请发送邮箱:jinzhaonews@126.com

商务合作请联系:18910159522 (同微信)

展开阅读全文

更新时间:2026-01-14

标签:科技   北京大学   论文   梁文锋   记忆   稀疏   模块   模型   条件   静态   架构   知识

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight All Rights Reserved.
Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号

Top