不会数学了！GPT-4“智力”大幅下降

参考消息网7月22日报道 据美国《财富》杂志网站7月20日报道，斯坦福大学的一项研究发现，广受关注的聊天机器人ChatGPT在6月份执行某些任务的表现比3月份的时候变得更糟了。

该研究对由开放人工智能研究中心(OpenAI)创造的这款聊天机器人数月时间内在执行4项“差异化”任务——解数学题、回答敏感问题、编写软件代码、视觉推理——的表现进行了比较。

研究人员发现这项技术执行某些任务的能力存在巨大波动——即“漂移”。该研究考察了OpenAI技术在这一时间段的两个版本：GPT-3.5和GPT-4。最值得注意的结果来自对GPT-4解答数学题能力的研究。在研究过程中，研究人员发现，在3月份时GPT-4能够在97.6%的答题时间里正确识别出数字17077为质数。但是仅仅3个月后，其答题的正确率却骤降至极低的2.4%。与此同时，GPT-3.5的表现轨迹则几乎相反，其在3月时回答同一问题的正确率仅为7.4%，而在6月时的回答大多是正确的，答题正确率达86.8%。

当研究人员要求这两个版本编写代码和接受视觉推理测试——即要求该技术预测某个图案中的下一个形象——时，出现了类似的差异化结果。

研究报告的作者之一、斯坦福大学计算机科学教授詹姆斯·邹(音)说，“如此巨大的差异程度”对于“尖端的ChatGPT”而言是意想不到的。

詹姆斯·邹说：“当我们在对大型语言模式进行调整，以改善其在某些任务中的表现时，这样做实际上可能会有许多意想不到的后果，它们或许会影响这个模型在处理其他任务时的表现。在人工智能模型如何回答问题方面，存在各式各样耐人寻味的相互依赖，它们可能在一定程度上导致我们所观察到的这些每况愈下的表现。”

展开阅读全文

页面更新：2024-05-31

标签：斯坦福大学詹姆斯正确率人工智能研究人员意想不到机器人智力大幅模型正确技术

1 2 3 4 5

不会数学了！GPT-4“智力”大幅下降

智能AI视力筛查仪亮相山东省教博会

华为开始“不讲武德”了，12GB+256GB，涵盖低端到高端闭眼买就行

三大芯片巨头，新混战！

国内算力跟踪：追上英伟达任重道远

华为宣布收取2.5美元5G专利许可费后，一个奇怪的现象出现了

今天入夜后降雨结束！首都机场已取消航班35架次

70岁大爷“老当益壮”去嫖娼，女子哀求：大爷，求求你做个人吧！

印度突然一反常态，猛夸歼35：对F35构成“压倒优势”

蔡英文单身67年，为何至今仍不结婚？身边的蓝颜知己说出背后真相

罕见一幕出现：俄国防部公布消灭外国雇佣兵，数量很惊人

绝了！老帅怒扇主裁耳光，高洪波难辞其咎，胡锡进争议点评，痛心

泰版消失的她？超越百分之九十的恐怖片，这个“李木子”可不一般

全市2023年第二次重特大产业项目攻坚拉练活动走进涟水

国家要“动真格”？催3胎不成，专家再出“好主意”，你怎么看？

河南男子600元请保洁员搞卫生，酒后发生关系，是嫖娼还是强奸？

第十届中国技术史与技术遗产论坛在北京举行推进跨学

让更多孩子玩转机器人

高质量发展调研行丨河北唐山：壮大机器人产业促进高质

日媒：禁止中国研究人员进日本航天局研究所，空间站合作不

人形机器人行业专题：从Tesla Bot看人形机器人产业发展

詹姆斯社媒发文谈梅西打进制胜球：他当然做到了！他是‘山

凉拌黄瓜，切记不要用盐腌，教你一道拍黄瓜正确做法，爽脆开

福建推动新一代人工智能加快发展新设立三个人工智能

美国科技巨头承诺为人工智能生成内容“打水印”

探地雷达技术，对城市道路的隐伏缺陷，如何进行有效识别