在阅读文章前,辛苦您点下“关注”,方便讨论和分享。作者定会不负众望,按时按量创作出更优质的内容
文 |昕昕
AI圈又出大瓜+硬核成果双buff事件!
先给不明觉厉的宝子们划重点:那个被雷军砸千万年薪抢的95后"天才少女"罗福莉,带着小米和北大搞出了篇大论文,直接给AI模型的"训练崩溃症"开了副特效药。
先唠唠这事儿的前情提要:去年年底罗福莉凭一己之力冲上热搜,毕竟“千万年薪挖AI大神”这剧本比爽文还刺激。
虽然小米和她本人至今没官宣"入职成功",但这篇论文里她挂了通讯作者,这波操作懂的都懂——妥妥的"虽未官宣,但已上岗",雷军这钱花得明明白白。
咱再说说这篇论文到底解决了啥世纪难题,现在的大模型都爱搞"MoE架构",说白了就是给AI组建个"专家天团",不同问题派不同专家解决,既省钱又高效。
但坏就坏在这"派活机制"(路由机制)太矫情,训练时和干活时(推理)完全两幅面孔,跟得了"精神分裂"似的。
训练时AI派专家A解数学题,到了实际推理突然改派专家B,俩专家思路南辕北辙,结果要么算错答案,要么直接"死机"(训练崩溃),之前行业都是搞"头痛医头",比如把差异大的数据扔了,但治标不治本。
罗福莉团队搞出的R3方法,简直是给AI来了个"行为矫正"。
核心思路特简单:让AI干活时记好"派工单"(路由分布),下次训练直接照着这张单子派活。
这招有多神?数据说话才靠谱:用了R3之后,训练和推理的"行为差异度"(KL散度)直接砍半,从1.5×10⁻³降到7.5×10⁻⁴,快赶上最稳定的稠密模型了。
那些离谱的错误答案(极端token)直接少了90%,相当于学渣突然有了学霸的准确率。
更绝的是它的"稳定性buff",以前没R3的时候,模型训练到60步就崩了,加了临时补丁(TIS)也撑不过105步,跟个玻璃心似的。
现在加了R3,全程稳如老狗,不管怎么折腾都不崩盘,简直是AI界的"稳压器"。
做题能力也直接开挂!10万道数学题实测,单步更新场景里,加了R3的模型比原版高了快10分,这差距堪比高考多蒙对两道大题。
不过有个小插曲:R3和TIS这俩buff不能叠,叠了反而掉分,只能说"最强的buff不需要搭档"。
对了,这招还特适合AI"打工人"(Agent任务),比如让AI帮你写代码、刷网页,它得记着之前干了啥吧?
R3能把之前的"派工单"存起来重复用,不用每次都从零开始算,效率直接拉满,这不比老板画的饼实在多了?
罗福莉这波操作,相当于给MoE模型的"精神分裂症"找到了根治方案,既稳又能打。
雷军这千万年薪没白花,毕竟能让AI从"玻璃心学渣"变"稳坐学霸",这性价比简直了。
至于罗福莉到底入职没?论文都联名了,这不比官宣管用?只能说小米这波"闷声干大事",在AI赛道上又悄悄领跑了一步。
更新时间:2025-10-18
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号