文|咸菜
编辑|江娱迟
你有没有过这种经历?问AI“XX名人的代表作”,它列得头头是道,结果一半是编的;让它写份专业报告,引用的“权威数据”根本查无此据。
这就是AI的“幻觉”,明明在胡说,却自信得像个专家,直到OpenAI那篇《语言模型为什么会产生幻觉》的论文出来,我才恍然大悟:这事儿,远比我们想的复杂。
咱先掰扯清楚:AI为啥会“睁眼说瞎话”?答案特扎心,这是它的“出厂设置”,生成式AI的本质,就是“猜下一个词”:根据上下文,算哪个词出现的概率高,就接哪个。
它判断一句话对不对,不靠逻辑,靠“眼熟”,只要句子符合它从海量数据里学来的统计规律,就觉得是对的。
就拿“万里无云的天空飘着朵朵白云”来说,人类一听就知道矛盾,AI却只懂算概率:“万里无云”和“飘着白云”放一起的概率太低,所以不对,它根本不懂“逻辑”,只认“概率”。
可概率这东西,从来不是100%靠谱啊,数据太少它得瞎猜,概念太复杂它理解不了,训练数据本身就有错,这些都会让它判断失误。
而一旦判断错了,生成内容自然就成了“幻觉” ,OpenAI说得明明白白:幻觉不是意外,是概率天性里的必然!
按理说,知道AI会错,咱该教它“不确定就别说”吧?可事实恰恰相反,是我们在逼它“胡说”。
现在衡量AI能力的考试,全是“答对得分,答错不扣分”,这不就和咱们考试蒙答案一个理儿吗?反正蒙对了赚,蒙错了不亏,为啥不试试?
OpenAI给的例子太真实了:O4-mini准确率24%,错误率却高达75%,弃权率才1%,而GPT-5-thinking-mini准确率22%,错误率只有26%,弃权率却有52%。
说白了,O4-mini就是敢蒙,才显得“正确率高”,可幻觉也多啊。
还有Deepseek-R1,训练时要求必须写推理过程,答对才加分,答错不扣分,结果它的幻觉率一直居高不下,原来是我们的奖励机制,在变相鼓励AI“与其闭嘴,不如蒙一把”。
既然幻觉躲不开,又被我们“鼓励”得更泛滥,就没招了吗?有但不是求“零幻觉”,而是让AI“该说才说”。
OpenAI给的方向特实在:改奖励机制,别再搞“答对得1分,答错得0分”了,得改成“答对加分,答错扣分,弃权不扣分”。
这样一来,AI碰到没把握的题,就不敢随便蒙了,只会乖乖说“我不知道”。
这就像给AI戴了个“概率口罩”:有十足把握时,它能侃侃而谈,没把握时,就闭上嘴不误导人,比起追求永远正确的“神话”,让AI学会“知之为知之,不知为不知”,才是真的有用!
看完这篇论文,我总算不怪AI“骗人”了,它本就不懂“真”与“假”,只懂“概率”与“得分”,幻觉不是AI的错,是我们没教它“诚实”的重要性。
以后再被AI忽悠,咱也别光生气:想想它是不是又在“蒙答案”了?而那些让AI“说不知道”的产品,才是真的懂行。
说不定用不了多久,AI就能既聪明又靠谱,再也不是那个“一本正经胡说八道”的家伙了,咱等着瞧。
更新时间:2025-09-22
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号