在人工智能飞速发展的当下,我们在享受其带来便利的同时,也会遭遇各种令人困惑的情况。当向 AI 求解简单数学题时,有的 AI 会给出长篇大论,如同 “话痨学究”,而面对复杂逻辑题,有的 AI 虽能快速作答,却可能思考不足,给出错误答案。这两种现象,即 “过度思考” 和 “欠思考”,一直以来被人们视为不同 AI 模型的 “脾气” 或 “个性”,但如今,顶尖研究为我们提供了深入剖析它们的工具,如同 “手术刀” 一般,能够精准诊断 AI 思维方式的根本缺陷。
长久以来,AI 的思考过程犹如笼罩在迷雾之中,神秘而难以捉摸。东京大学与 Google DeepMind 于 2025 年 6 月发表的《推理的拓扑学》这一重磅论文,为我们带来了驱散迷雾的曙光。论文中开创性地提出 “推理图” 概念,首次让我们得以 “看见” AI 的思考路径。
AI 在解决问题时,其庞大神经网络会形成不同 “想法” 或 “计算状态”,研究人员运用算法将这些状态聚类,每个聚类中心便代表一个具体 “思维节点”,比如 “正在做加法”“正在识别关键词” 等。而 AI 的思考从一个 “想法” 跳转到下一个 “想法”,就在节点间连成线,众多这样的线交织起来,构成了独一无二的 “思维地图”,也就是 “推理图”。这张图的 “拓扑结构”,蕴含着 AI 思考方式的关键秘密。通过对其分析,研究人员发现,聪明的推理模型与普通模型相比,在思考方式上存在显著差异。这就如同给 AI 的思维做了一次 CT 扫描,为我们提供了量化 AI 思维品质的关键指标。
在 AI 世界中,存在着一类被诊断为 “认知洁癖型过思症” 的模型,以 DeepSeek - R1 系列以及部分场景下的 Claude 3 Opus 等为典型代表。当我们抱怨某些模型过于 “啰嗦” 时,背后反映的是它们对确定性的极致追求。从 “推理图” 的诊断来看,这类模型的 “病理” 根源在于其推理图谱中存在过多、过密的 “循环” 以及异常大的 “图直径”。
在处理像 AIME 2024 这类顶级数学竞赛难题时,像 DeepSeek - R1 这样经过推理能力强化的模型,其推理图中包含的循环数量平均是基础模型的 5 倍,思维探索广度(图直径)也显著更大。这就好比一个有 “洁癖” 的学霸,在解答哪怕是 “1 + 1” 这样的简单问题时,也会反复检查每一步推导,探索每一个可能的陷阱,只为确保答案 100% 正确。这种思考方式虽然保证了极高的可靠性,但却以牺牲巨大的效率为代价。在 Reddit 社区的讨论中,用户普遍反馈 R1 模型 “在思考阶段花费更多时间”,导致响应延迟,甚至有评测直接指出其 “冗长输出” 的问题。不仅如此,过多的循环有时会导致模型出现无意义的空转,比如 14B 参数版本的模型在推理中出现 “语言混淆” 现象,在不同语言之间来回切换,这表明过度且无效的循环已成为一种需要 “治疗” 的缺陷。
与 “过度思考” 相对的是 “欠思考”,患有 “启发式捷径依赖症” 的模型,以 o1 - mini 及部分追求极致响应速度的模型为代表。虽然原论文未直接对 o1 模型进行 “推理图” 分析,但通过大量公开报告和用户体验,我们可以合理推断其推理图可能呈现 “线性、短直径、少循环” 的特征。
从诊断逻辑来看,一篇名为《Thoughts Are All Over the Place: On the Underthinking of o1 - Like LLMs》的学术研究指出,o1 这类模型倾向于在不同推理思路间频繁切换,却没有充分探索真正有希望的路径。在第三方独立评测中,这种 “思维捷径” 的弊端暴露无遗。在 SimpleBench 常识推理测试中,人类平均成功率为 83.7%,而 o1 - preview 得分仅 41.7%,巨大的差距表明其在类人常识推理方面存在根本性缺陷。在 “弹珠包谜题” 中,o1 也因无法正确处理语言逻辑而给出错误答案。这就像一个极度依赖直觉的 “快枪手”,追求用最快速度给出看似正确的答案,背后是其 “效率优先” 的设计哲学。OpenAI 官方强调 o1 的设计理念是 “花更多时间思考”,但实际上这种 “慢思考” 更多体现在计算时间延长,而非思维深度拓展,在面对复杂逻辑时,为了效率牺牲了可靠性,陷入 “欠思考” 陷阱。
揭示 AI 这些 “认知病” 病因的目的,是为了实现有效的 “治疗”。幸运的是,“推理图” 这把手术刀不仅能用于诊断,还能指导 “靶向治疗”。AI 训练正从过去的 “大水漫灌” 模式,向未来的 “精准调理” 转变。
在《推理的拓扑学》论文中,研究人员进行了一次成功的 “临床试验”。他们使用名为 “s1” 的高质量微调数据集,对基础模型进行 “靶向治疗”。结果显示,经过训练,模型的推理图直径显著 “拉长”,这直接证明了高质量数据能够有效 “治疗” 欠思考问题,提升模型的思维探索能力。除了这种方式,整个行业还在探索更多前沿 “治疗方案”。例如,通过强化学习(如 DPO 或过程监督)来奖励具有更优 “思维结构” 的模型;以 LIMO 数据集为代表的新一代训练数据,秉持 “少即是多” 理念,用几百个精心设计的 “认知模板” 就能激活模型深层的推理能力。这预示着未来我们能够像精准配药一样,塑造 AI 的思考方式。
对于广大用户而言,在 “完美 AI” 诞生之前,了解这些模型的 “认知偏差”,有助于我们更好地利用它们。专业写作者的用户研究显示,他们会依据不同创作阶段选择不同 AI 工具;针对程序员的调研也表明,开发者们正将不同模型的优势整合,开发复杂工作流。我们可以借鉴这些做法,当需要严谨与可靠时,如进行代码编写、科学计算、审阅法律合同时,选择那些 “过度思考” 的 AI,将其作为严谨的专业助理;当需要效率与灵感,如头脑风暴、构思营销文案时,尝试 “欠思考” 的 AI,利用其思维跳跃获取意外惊喜。
东京大学和 DeepMind 的这项研究,意义深远。它为我们提供了全新视角与科学工具,让我们能够深入探讨、度量和干预 AI 的 “思维品质”。我们正从 AI 的 “驯兽师” 转变为 “脑科医生”,AI 领域也从单纯追求性能的 “黑箱” 工程,迈向深入理解内部机制的科学探索。今天对 AI “认知病” 的诊断,是为了明天创造出更健康、强大且值得信赖的超级智能,而我们每个人都将见证并参与这场伟大变革。
参考资料《推理的拓扑学》:
https://arxiv.org/abs/2506.05744v2
更新时间:2025-06-19
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号