⽆需任何监督信号!自博弈机制让深度搜索Agent实现自我进化

欢迎观看本期【巷语记】,在阅读此文之前,麻烦您点击一下“关注”,既方便您进行讨论和分享,又能给您带来不一样的参与感,感谢您的支持。

文 |无言

最近AI圈里聊得火热的就是搜索型Agent,从OpenAI的DeepResearch到各路学术探索,这东西的热度就没降过。

但这玩意儿想调教到接近人的水平,难就难在训练方式上,老方法卡脖子的地方,怕是行内人最有体会。

RLVR的死结:数据标注拖后腿

现在主流的优化训练方式是可验证奖励强化学习,也就是RLVR。

这方法说起来简单,给个任务和标准答案,靠最终结果对不对给奖励,让智能体学着优化。

本来想靠堆数据解决问题,但后来发现,这方法有个绕不开的死结:想让智能体变厉害,就得有海量高质量任务加可验证答案的数据集撑着。

人工标注这事儿本身就费钱又费时间。

有行业报告提过,全球AI训练数据标注的市场规模都超80亿了,但就算这样,人工标注的效率也就够满足六成的模型训练需求,误差还得占个8%左右。

更别说中小机构了,本来预算就有限,光标注这一项的成本就能吞掉近三成的研发钱,想搞高阶的搜索Agent研发,几乎是难上加难。

我总觉得,靠人一点点标数据喂模型,并非明智之举,毕竟模型进化得快,标注好的数据集没多久就跟不上趟了,这就好比给跑高速的车喂过时的油,跑不快不说,还容易出问题。

那有没有不用人工标注,让模型自己跟外界打交道,自己造训练任务、自己进化的法子?这事儿不光我好奇,阿里夸克联合北大、中大的研究者也在琢磨,最后还真整出了个新招:搜索自博弈,也就是SSP。

SSP玩起“互卷”:一人分饰两角

这种自个儿跟自个儿较劲的思路,比单纯靠人喂数据聪明多了。

SSP的核心就是让同一个大语言模型,在不同的系统提示下,一会儿当出题的,一会儿当解题的。

这俩角色对着干,训练的难度跟着模型的能力动态涨,最后形成一个不用人工标注,还能自己进化的过程。

这过程分三步走。

第一步是出题的角色围绕参考答案,多轮搜索扒外部信息,反过来造一个有难度、能解开还答案唯一的问题。

第二步是协作验证,怕出题的搞出无解或者模糊的问题,系统会把出题的搜到的文档当RAG材料,让解题的在不能用搜索工具的情况下试试答题,只有答得对的问题,才能进入下一步对抗。

第三步就是对抗解题,解题的能用完整的搜索功能答题,答完之后,出题的和解题的都能拿到奖励信号,还能在线更新自己的策略。

很显然,这设计的妙处就在这儿:出题不光靠模型自己的本事,还能薅海量外部知识的羊毛,突破了只靠模型内部知识出题的局限。

而且通过解题的验证,还能保证题目和答案对得上、能解答。

这套逻辑还能建模成零和博弈的优化问题,出题的想让解题的成功率变低,解题的偏要让自己成功率变高,俩角色互相制衡,一起进化。

我倒觉得,这种动态平衡的训练方式,比死板的人工标注要灵活多了,毕竟模型的能力是活的,训练方式也得跟着活起来。

实测见真章:SSP真的能打

毫无疑问,好不好用,得靠实验说话。

研究者找了七大开放领域的问答基准来测SSP,涵盖了单跳到多跳、简单到复杂的各类问答任务,还测了从零训练、持续训练、不同架构和大小的模型。

结果挺出人意料的,不管哪种测试场景,SSP都比原来的基线方法表现好。

就拿Qwen2.5-7B-Base这个基础模型来说,用SSP调教之后,平均成功率涨了26.4分,在TriviaQA上更是涨了40.4分。

就算是已经经过指令微调的模型,比如Qwen2.5-7B-Instruct,用SSP之后性能也能涨8分。

更厉害的是,就算是Search-R1、R-Search这些本来就挺强的开源模型,用SSP接着训,能力还能再往上走。

把这方法用到更大的Qwen2.5-32B-Instruct模型上,七个测试里五个都达到了SOTA水平。

如此看来,这玩意儿不只是实验室里的花架子,真能落地解决实际问题。

阿里夸克就把SSP用到了自研的搜索Agent上,电商搜索问答的场景里,用户的满意度都涨了不少。

我觉得,SSP的价值不光是提升模型能力,更重要的是它跳出了人工标注的框架,给大模型训练指了条新路子。

本来想,这方法可能只适用于搜索任务,但后来发现,研究者说这是一种新范式,能拓展到其他任务上。

毕竟人工标注的速度赶不上模型进化的速度,让模型互相“为难”着进步,怕是未来大模型训练的必经之路。

说不定再过阵子,我们能看到更多像AlphaGoZero那样的案例,模型不靠人监督,自己跟自己较劲就能突破能力上限。

说到底,从RLVR到SSP,不只是换了一种训练方法,更是训练思路的转变。

AI想往更高水平走,不能总靠人喂饭,得学会自己找食吃。

SSP这步棋,走得确实够聪明。

支持作者,写作不易!如果您喜欢我的文章,可以点个“关注”,成为铁粉后能第一时间收到文章推送。

展开阅读全文

更新时间:2025-11-26

标签:科技   深度   信号   机制   自我   模型   方法   数据   夸克   能力   研究者   成功率   方式   死结   阿里

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号

Top