⽆需任何监督信号！自博弈机制让深度搜索Agent实现自我进化

欢迎观看本期【巷语记】，在阅读此文之前，麻烦您点击一下“关注”，既方便您进行讨论和分享，又能给您带来不一样的参与感，感谢您的支持。

文 |无言

最近AI圈里聊得火热的就是搜索型Agent，从OpenAI的DeepResearch到各路学术探索，这东西的热度就没降过。

但这玩意儿想调教到接近人的水平，难就难在训练方式上，老方法卡脖子的地方，怕是行内人最有体会。

RLVR的死结：数据标注拖后腿

现在主流的优化训练方式是可验证奖励强化学习，也就是RLVR。

这方法说起来简单，给个任务和标准答案，靠最终结果对不对给奖励，让智能体学着优化。

本来想靠堆数据解决问题，但后来发现，这方法有个绕不开的死结：想让智能体变厉害，就得有海量高质量任务加可验证答案的数据集撑着。

人工标注这事儿本身就费钱又费时间。

有行业报告提过，全球AI训练数据标注的市场规模都超80亿了，但就算这样，人工标注的效率也就够满足六成的模型训练需求，误差还得占个8%左右。

更别说中小机构了，本来预算就有限，光标注这一项的成本就能吞掉近三成的研发钱，想搞高阶的搜索Agent研发，几乎是难上加难。

我总觉得，靠人一点点标数据喂模型，并非明智之举，毕竟模型进化得快，标注好的数据集没多久就跟不上趟了，这就好比给跑高速的车喂过时的油，跑不快不说，还容易出问题。

那有没有不用人工标注，让模型自己跟外界打交道，自己造训练任务、自己进化的法子？这事儿不光我好奇，阿里夸克联合北大、中大的研究者也在琢磨，最后还真整出了个新招：搜索自博弈，也就是SSP。

SSP玩起“互卷”：一人分饰两角

这种自个儿跟自个儿较劲的思路，比单纯靠人喂数据聪明多了。

SSP的核心就是让同一个大语言模型，在不同的系统提示下，一会儿当出题的，一会儿当解题的。

这俩角色对着干，训练的难度跟着模型的能力动态涨，最后形成一个不用人工标注，还能自己进化的过程。

这过程分三步走。

第一步是出题的角色围绕参考答案，多轮搜索扒外部信息，反过来造一个有难度、能解开还答案唯一的问题。

第二步是协作验证，怕出题的搞出无解或者模糊的问题，系统会把出题的搜到的文档当RAG材料，让解题的在不能用搜索工具的情况下试试答题，只有答得对的问题，才能进入下一步对抗。

第三步就是对抗解题，解题的能用完整的搜索功能答题，答完之后，出题的和解题的都能拿到奖励信号，还能在线更新自己的策略。

很显然，这设计的妙处就在这儿：出题不光靠模型自己的本事，还能薅海量外部知识的羊毛，突破了只靠模型内部知识出题的局限。

而且通过解题的验证，还能保证题目和答案对得上、能解答。

这套逻辑还能建模成零和博弈的优化问题，出题的想让解题的成功率变低，解题的偏要让自己成功率变高，俩角色互相制衡，一起进化。

我倒觉得，这种动态平衡的训练方式，比死板的人工标注要灵活多了，毕竟模型的能力是活的，训练方式也得跟着活起来。

实测见真章：SSP真的能打

毫无疑问，好不好用，得靠实验说话。

研究者找了七大开放领域的问答基准来测SSP，涵盖了单跳到多跳、简单到复杂的各类问答任务，还测了从零训练、持续训练、不同架构和大小的模型。

结果挺出人意料的，不管哪种测试场景，SSP都比原来的基线方法表现好。

就拿Qwen2.5-7B-Base这个基础模型来说，用SSP调教之后，平均成功率涨了26.4分，在TriviaQA上更是涨了40.4分。

就算是已经经过指令微调的模型，比如Qwen2.5-7B-Instruct，用SSP之后性能也能涨8分。

更厉害的是，就算是Search-R1、R-Search这些本来就挺强的开源模型，用SSP接着训，能力还能再往上走。

把这方法用到更大的Qwen2.5-32B-Instruct模型上，七个测试里五个都达到了SOTA水平。

如此看来，这玩意儿不只是实验室里的花架子，真能落地解决实际问题。

阿里夸克就把SSP用到了自研的搜索Agent上，电商搜索问答的场景里，用户的满意度都涨了不少。

我觉得，SSP的价值不光是提升模型能力，更重要的是它跳出了人工标注的框架，给大模型训练指了条新路子。

本来想，这方法可能只适用于搜索任务，但后来发现，研究者说这是一种新范式，能拓展到其他任务上。

毕竟人工标注的速度赶不上模型进化的速度，让模型互相“为难”着进步，怕是未来大模型训练的必经之路。

说不定再过阵子，我们能看到更多像AlphaGoZero那样的案例，模型不靠人监督，自己跟自己较劲就能突破能力上限。

说到底，从RLVR到SSP，不只是换了一种训练方法，更是训练思路的转变。

AI想往更高水平走，不能总靠人喂饭，得学会自己找食吃。

SSP这步棋，走得确实够聪明。

支持作者，写作不易！如果您喜欢我的文章，可以点个“关注”，成为铁粉后能第一时间收到文章推送。

展开阅读全文

更新时间：2025-12-26

标签：科技深度信号机制自我模型方法数据夸克能力研究者成功率方式死结阿里

1 2 3 4 5

【财富晚茶】十大利好(11.24)：追寻沪深北市十大利好信息的股票

导语：作者系《网易号》优质财经领域创作者。曾经原创作者和知名网易号旅游领域创作者。大跨度行业等的写作，颇受网友喜爱。作品发表于 2025.11.24.09:18 优雅端庄晚风。编者的

十大券商看后市｜A股仍存在继续走强基础，回调带来增持良机

上周A股遭遇较大幅度波动，进入11月最后一个交易周，市场行情将如何演绎？澎湃新闻搜集了10家券商的观点，大部分券商认为，虽然近期海外环境出现较多扰动，带动包括A股在内的全球市场波

百人齐聚万江看房，东莞“千房引千才”活动助推人才安居

11月23日，“宜居万江·人才安居行”人才专场看房日活动在万江滨江紫云花园（保利·世茂·阳光城阅云台）举办。活动由市住房城乡建设局主办，市委人才办、市人力资源社会保障局、万

11月24日美股早盘：道指期货上涨200点，市场试图在假期周实现反弹

来源：环球市场播报在经历一轮回调、令今年AI牛市行情势头受挫后，市场正寻求在感恩节假期周实现反弹，周一早盘交易中股指期货走高。道琼斯工业平均指数期货上涨 200 点，标普500指

月薪 2 万吃不起鸭脖？绝味鸭脖卖 58 元一斤，4000 家门店说关就关！

哈喽，大家好，今天小睿这篇评论，主要来聊聊一个越来越多人都提过的问题，为什么消费者不愿意走进绝味了？过去在很多人心里，绝味鸭脖就是夜宵摊边上一口咬下去带点辣味的快乐，可最近几

收评： A股尾盘快速回落，沪指差点翻绿，明天会有大反弹吗？

收盘了，三大指数全线上涨，截至收盘上证指数涨0.05%，深证成指涨0.37%，创业板指涨0.31%。截止收盘，三市的成交额1.73万亿。比上一个交易日巨幅缩量2,534亿。截止收盘三市上涨的家数

后悔已经晚了？2大芯片巨头“弃中投美”，中国不会再原谅

昨日有多狂，今日就有多慌！两大芯片巨头当年 “弃中投美”，妄图给中国科技致命一击；却不料中国硬核突围，反手将其逼入绝境。这波惊天逆转，纯属自断后路的恶果，怨不得别人！押错宝2022

A股：拉升前下蹲，明天大盘反弹，个股还会普涨吗

A股今天走势比较怪异，成交量大幅萎缩，变盘时间点都是整数时间点，整体掌控的很到位，临近收盘，上涨家数虽说大幅回落，但依旧保持在4200家之上，个股走势可圈可点。明天A股会怎么走？个股

日均囤油1100万桶！中国20年布局浮出水面，西方集体破防

本文仅在今日头条发布，谢绝转载。西方媒体最近有点坐不住了。连着发了好几篇专题，标题一个比一个吓人，核心意思就一句：中国在疯狂囤货，是不是要搞什么大动作？今年前9个月，中国每天

我对明天（2025年11月25日）星期二大盘的看法：

明天（2025年11月25日）星期二的大盘走势：大盘今天跳空高开低走，开在3848点，09:31下穿人线，09:35上碰人线不过，09:38下穿零轴，09:40人线明显呈45度向下倾斜，09:44上穿零轴，09:45上穿人线

防城港东兴市一个占地45.5亩的工厂破产拍卖，被人645万竞得

11月24日，在阿里拍卖上，防城港东兴市再次迎来了一宗跟工业房地产有关的拍卖，一宗位于东兴市江平工业园潭吉片区B-3-10#地块被拍卖。此次拍卖的地块为工业用地，地块上已经建有一

人民币持续超越欧元成全球第二！去美元化还需多久？现在有了答案

文 |林时砚编辑 | 林时砚哈喽，大家好，小林哥这篇经济评论分析美元霸权下的博弈，美国的债务近几年越来越大，已经接近38万亿美元，一个国家欠了这么多钱，作为全球主导货币的美元，能撑

2025年第47周全国机场旅客吞吐量、航班量50强出炉！潮汕超银川

01 量级突破上海浦东年客流突破7500万人次杭州萧山、重庆江北、上海虹桥年客流突破4500万人次成都双流年客流突破3000万人次三亚凤凰年客流突破2000万人次台北松山年客流突

花旗大胆预测6000美元/盎司，黄金接下来走势如何？

11月20日上午，上海黄金交易所发布通知，提示投资者做好风险防范工作，合理控制仓位。截至记者发稿时，现货黄金价格在4040—4080美元/盎司区间震荡。今年以来，黄金价格一路向上，从年

估值超10亿美元“独角兽”毫末智行突曝停摆，员工称今日起停工放假，有人称已被拖欠两个月工资

【来源：红星新闻】红星资本局11月24日消息，曾估值超10亿美元的“独角兽”毫末智行科技有限公司（以下简称“毫末智行”）突然曝出停摆的消息。近日，有多名毫末智行员工向红星资本局

上滑加载更多 ↓

⽆需任何监督信号！自博弈机制让深度搜索Agent实现自我进化

RLVR的死结：数据标注拖后腿

SSP玩起“互卷”：一人分饰两角

实测见真章：SSP真的能打

【财富晚茶】十大利好(11.24)：追寻沪深北市十大利好信息的股票

十大券商看后市｜A股仍存在继续走强基础，回调带来增持良机

百人齐聚万江看房，东莞“千房引千才”活动助推人才安居

11月24日美股早盘：道指期货上涨200点，市场试图在假期周实现反弹

月薪 2 万吃不起鸭脖？绝味鸭脖卖 58 元一斤，4000 家门店说关就关！

收评： A股尾盘快速回落，沪指差点翻绿，明天会有大反弹吗？

后悔已经晚了？2大芯片巨头“弃中投美”，中国不会再原谅

A股：拉升前下蹲，明天大盘反弹，个股还会普涨吗

日均囤油1100万桶！中国20年布局浮出水面，西方集体破防

我对明天（2025年11月25日）星期二大盘的看法：

防城港东兴市一个占地45.5亩的工厂破产拍卖，被人645万竞得

人民币持续超越欧元成全球第二！去美元化还需多久？现在有了答案

2025年第47周全国机场旅客吞吐量、航班量50强出炉！潮汕超银川

花旗大胆预测6000美元/盎司，黄金接下来走势如何？

估值超10亿美元“独角兽”毫末智行突曝停摆，员工称今日起停工放假，有人称已被拖欠两个月工资

现在该不该救市？散户深度套牢，六大措施，这些资金可立即入

10万炒到100万靠阴线买入？别光看赚的得先搞懂这方法的

伽马数据：10月中国国内游戏市场收入为313.59亿元环比

【中医思维·青年专刊】推动中医药科技创新的三个关键

数据惨淡，技术粗糙，效果不佳！但锋线新星却在掘金打上了先

大逆转！勇士134-117胜爵士，谁是本场比赛的功臣，数据不会

模拟芯片复苏的重磅信号! 电动汽车与智驾驱动增长亚

女性50岁后气血易虚？5个身体信号提醒你，早调理早受益

乐美达王玉玲：未来属于“机制驱动”的精准护肤｜中国化妆

在寒潮中保持从容：一件衬衫背后的科技