据科技媒体NeoWin 7月24日报道,苹果和剑桥大学联手抛出了个新想法:给AI评审员配“工具包”,让它们在评估大语言模型时更靠谱。现在行业里流行用AI当评审员(也就是所谓的“LLM-as-a-judge”),但这法子有个大毛病——遇到长篇事实核查、复杂编码或数学题这类硬骨头,评审质量就掉链子。苹果这波操作,就是想给AI评审员装个“外挂”,让它们会自己找工具验证,解决人类和AI评审的各自短板。
说起来,现在评估大模型就像给学生打分,以前靠人类老师,费时费力不说,还容易因为累了、偏好文笔忽略事实;
后来换AI老师,速度快了,但碰到难题就犯迷糊——比如让它判一篇长文里的事实错误,它可能看漏;让它评一道复杂的数学证明,它自己也算不明白。
苹果和剑桥这套新系统,就想让AI评审员变“聪明”点:先自己初步判断,要是搞不定,就主动调用计算器、数据库这类外部工具,最后再下结论。打个比方,就像老师判卷时,遇到难题会翻参考书、用计算器验算,而不是凭感觉给分。
这事儿往深了想,其实是AI行业的一个关键坎。现在大模型越来越多,GPT、Claude、文心一言各家争着上新,但怎么客观评价谁更厉害?标准一直没统一。
人类评审慢且主观,AI评审又在复杂任务上不靠谱,导致很多模型“吹得凶,实际用着差”。
苹果这套系统要是能落地,可能会让评估标准更硬气——比如医疗领域用的大模型,判断病情时有没有漏诊,AI评审员能调用医学数据库一条条核对;法律领域的合同分析,能靠工具查法条验证准确性,这可比现在“凭AI感觉打分”靠谱多了。
不过也有人犯嘀咕:给AI评审员配了工具,会不会抢了人类的活儿?其实人类评审的优势在那些需要“感觉”的地方——比如一篇散文的情感表达、一段演讲的感染力,这些靠工具很难量化。
但在需要硬指标的领域,比如代码是否能跑通、数据是否准确,带工具的AI评审员可能真能比人类更高效、更少出错。
现在的问题是,这套系统能不能真的“通用”。不同领域的工具千差万别,AI评审员怎么判断该用哪个工具?会不会出现“工具用错”反而评错的情况?这些都得在实际测试里慢慢磨。
你觉得带“工具包”的AI评审员,能比人类更懂怎么给大模型打分吗?哪些领域的评审,你更信AI,哪些还得靠人?
更新时间:2025-07-25
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号