欢迎观看本期【巷语记】,在阅读此文之前,麻烦您点击一下“关注”,既方便您进行讨论和分享,又能给您带来不一样的参与感,感谢您的支持。
文 |无言

最近AI圈里聊得火热的就是搜索型Agent,从OpenAI的DeepResearch到各路学术探索,这东西的热度就没降过。
但这玩意儿想调教到接近人的水平,难就难在训练方式上,老方法卡脖子的地方,怕是行内人最有体会。

现在主流的优化训练方式是可验证奖励强化学习,也就是RLVR。
这方法说起来简单,给个任务和标准答案,靠最终结果对不对给奖励,让智能体学着优化。
本来想靠堆数据解决问题,但后来发现,这方法有个绕不开的死结:想让智能体变厉害,就得有海量高质量任务加可验证答案的数据集撑着。
人工标注这事儿本身就费钱又费时间。

有行业报告提过,全球AI训练数据标注的市场规模都超80亿了,但就算这样,人工标注的效率也就够满足六成的模型训练需求,误差还得占个8%左右。
更别说中小机构了,本来预算就有限,光标注这一项的成本就能吞掉近三成的研发钱,想搞高阶的搜索Agent研发,几乎是难上加难。
我总觉得,靠人一点点标数据喂模型,并非明智之举,毕竟模型进化得快,标注好的数据集没多久就跟不上趟了,这就好比给跑高速的车喂过时的油,跑不快不说,还容易出问题。
那有没有不用人工标注,让模型自己跟外界打交道,自己造训练任务、自己进化的法子?这事儿不光我好奇,阿里夸克联合北大、中大的研究者也在琢磨,最后还真整出了个新招:搜索自博弈,也就是SSP。

这种自个儿跟自个儿较劲的思路,比单纯靠人喂数据聪明多了。
SSP的核心就是让同一个大语言模型,在不同的系统提示下,一会儿当出题的,一会儿当解题的。
这俩角色对着干,训练的难度跟着模型的能力动态涨,最后形成一个不用人工标注,还能自己进化的过程。

这过程分三步走。
第一步是出题的角色围绕参考答案,多轮搜索扒外部信息,反过来造一个有难度、能解开还答案唯一的问题。
第二步是协作验证,怕出题的搞出无解或者模糊的问题,系统会把出题的搜到的文档当RAG材料,让解题的在不能用搜索工具的情况下试试答题,只有答得对的问题,才能进入下一步对抗。
第三步就是对抗解题,解题的能用完整的搜索功能答题,答完之后,出题的和解题的都能拿到奖励信号,还能在线更新自己的策略。

很显然,这设计的妙处就在这儿:出题不光靠模型自己的本事,还能薅海量外部知识的羊毛,突破了只靠模型内部知识出题的局限。
而且通过解题的验证,还能保证题目和答案对得上、能解答。
这套逻辑还能建模成零和博弈的优化问题,出题的想让解题的成功率变低,解题的偏要让自己成功率变高,俩角色互相制衡,一起进化。
我倒觉得,这种动态平衡的训练方式,比死板的人工标注要灵活多了,毕竟模型的能力是活的,训练方式也得跟着活起来。

毫无疑问,好不好用,得靠实验说话。
研究者找了七大开放领域的问答基准来测SSP,涵盖了单跳到多跳、简单到复杂的各类问答任务,还测了从零训练、持续训练、不同架构和大小的模型。
结果挺出人意料的,不管哪种测试场景,SSP都比原来的基线方法表现好。
就拿Qwen2.5-7B-Base这个基础模型来说,用SSP调教之后,平均成功率涨了26.4分,在TriviaQA上更是涨了40.4分。

就算是已经经过指令微调的模型,比如Qwen2.5-7B-Instruct,用SSP之后性能也能涨8分。
更厉害的是,就算是Search-R1、R-Search这些本来就挺强的开源模型,用SSP接着训,能力还能再往上走。
把这方法用到更大的Qwen2.5-32B-Instruct模型上,七个测试里五个都达到了SOTA水平。
如此看来,这玩意儿不只是实验室里的花架子,真能落地解决实际问题。

阿里夸克就把SSP用到了自研的搜索Agent上,电商搜索问答的场景里,用户的满意度都涨了不少。
我觉得,SSP的价值不光是提升模型能力,更重要的是它跳出了人工标注的框架,给大模型训练指了条新路子。
本来想,这方法可能只适用于搜索任务,但后来发现,研究者说这是一种新范式,能拓展到其他任务上。
毕竟人工标注的速度赶不上模型进化的速度,让模型互相“为难”着进步,怕是未来大模型训练的必经之路。

说不定再过阵子,我们能看到更多像AlphaGoZero那样的案例,模型不靠人监督,自己跟自己较劲就能突破能力上限。
说到底,从RLVR到SSP,不只是换了一种训练方法,更是训练思路的转变。
AI想往更高水平走,不能总靠人喂饭,得学会自己找食吃。
SSP这步棋,走得确实够聪明。

支持作者,写作不易!如果您喜欢我的文章,可以点个“关注”,成为铁粉后能第一时间收到文章推送。
更新时间:2025-11-26
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号