AI 思维剖析:ChatGPT “想太少” 与 DeepSeek “想太多” 的深层缘由

在人工智能飞速发展的当下,我们在享受其带来便利的同时,也会遭遇各种令人困惑的情况。当向 AI 求解简单数学题时,有的 AI 会给出长篇大论,如同 “话痨学究”,而面对复杂逻辑题,有的 AI 虽能快速作答,却可能思考不足,给出错误答案。这两种现象,即 “过度思考” 和 “欠思考”,一直以来被人们视为不同 AI 模型的 “脾气” 或 “个性”,但如今,顶尖研究为我们提供了深入剖析它们的工具,如同 “手术刀” 一般,能够精准诊断 AI 思维方式的根本缺陷。

探秘 AI 思维:“推理图” 开启全新视角

长久以来,AI 的思考过程犹如笼罩在迷雾之中,神秘而难以捉摸。东京大学与 Google DeepMind 于 2025 年 6 月发表的《推理的拓扑学》这一重磅论文,为我们带来了驱散迷雾的曙光。论文中开创性地提出 “推理图” 概念,首次让我们得以 “看见” AI 的思考路径。

AI 在解决问题时,其庞大神经网络会形成不同 “想法” 或 “计算状态”,研究人员运用算法将这些状态聚类,每个聚类中心便代表一个具体 “思维节点”,比如 “正在做加法”“正在识别关键词” 等。而 AI 的思考从一个 “想法” 跳转到下一个 “想法”,就在节点间连成线,众多这样的线交织起来,构成了独一无二的 “思维地图”,也就是 “推理图”。这张图的 “拓扑结构”,蕴含着 AI 思考方式的关键秘密。通过对其分析,研究人员发现,聪明的推理模型与普通模型相比,在思考方式上存在显著差异。这就如同给 AI 的思维做了一次 CT 扫描,为我们提供了量化 AI 思维品质的关键指标。


病症一:“过度思考”—— 对确定性的偏执追求

在 AI 世界中,存在着一类被诊断为 “认知洁癖型过思症” 的模型,以 DeepSeek - R1 系列以及部分场景下的 Claude 3 Opus 等为典型代表。当我们抱怨某些模型过于 “啰嗦” 时,背后反映的是它们对确定性的极致追求。从 “推理图” 的诊断来看,这类模型的 “病理” 根源在于其推理图谱中存在过多、过密的 “循环” 以及异常大的 “图直径”。

在处理像 AIME 2024 这类顶级数学竞赛难题时,像 DeepSeek - R1 这样经过推理能力强化的模型,其推理图中包含的循环数量平均是基础模型的 5 倍,思维探索广度(图直径)也显著更大。这就好比一个有 “洁癖” 的学霸,在解答哪怕是 “1 + 1” 这样的简单问题时,也会反复检查每一步推导,探索每一个可能的陷阱,只为确保答案 100% 正确。这种思考方式虽然保证了极高的可靠性,但却以牺牲巨大的效率为代价。在 Reddit 社区的讨论中,用户普遍反馈 R1 模型 “在思考阶段花费更多时间”,导致响应延迟,甚至有评测直接指出其 “冗长输出” 的问题。不仅如此,过多的循环有时会导致模型出现无意义的空转,比如 14B 参数版本的模型在推理中出现 “语言混淆” 现象,在不同语言之间来回切换,这表明过度且无效的循环已成为一种需要 “治疗” 的缺陷。

病症二:“欠思考”—— 效率至上的思维捷径依赖

与 “过度思考” 相对的是 “欠思考”,患有 “启发式捷径依赖症” 的模型,以 o1 - mini 及部分追求极致响应速度的模型为代表。虽然原论文未直接对 o1 模型进行 “推理图” 分析,但通过大量公开报告和用户体验,我们可以合理推断其推理图可能呈现 “线性、短直径、少循环” 的特征。

从诊断逻辑来看,一篇名为《Thoughts Are All Over the Place: On the Underthinking of o1 - Like LLMs》的学术研究指出,o1 这类模型倾向于在不同推理思路间频繁切换,却没有充分探索真正有希望的路径。在第三方独立评测中,这种 “思维捷径” 的弊端暴露无遗。在 SimpleBench 常识推理测试中,人类平均成功率为 83.7%,而 o1 - preview 得分仅 41.7%,巨大的差距表明其在类人常识推理方面存在根本性缺陷。在 “弹珠包谜题” 中,o1 也因无法正确处理语言逻辑而给出错误答案。这就像一个极度依赖直觉的 “快枪手”,追求用最快速度给出看似正确的答案,背后是其 “效率优先” 的设计哲学。OpenAI 官方强调 o1 的设计理念是 “花更多时间思考”,但实际上这种 “慢思考” 更多体现在计算时间延长,而非思维深度拓展,在面对复杂逻辑时,为了效率牺牲了可靠性,陷入 “欠思考” 陷阱。

从诊断到治疗:AI 训练的新方向

揭示 AI 这些 “认知病” 病因的目的,是为了实现有效的 “治疗”。幸运的是,“推理图” 这把手术刀不仅能用于诊断,还能指导 “靶向治疗”。AI 训练正从过去的 “大水漫灌” 模式,向未来的 “精准调理” 转变。

在《推理的拓扑学》论文中,研究人员进行了一次成功的 “临床试验”。他们使用名为 “s1” 的高质量微调数据集,对基础模型进行 “靶向治疗”。结果显示,经过训练,模型的推理图直径显著 “拉长”,这直接证明了高质量数据能够有效 “治疗” 欠思考问题,提升模型的思维探索能力。除了这种方式,整个行业还在探索更多前沿 “治疗方案”。例如,通过强化学习(如 DPO 或过程监督)来奖励具有更优 “思维结构” 的模型;以 LIMO 数据集为代表的新一代训练数据,秉持 “少即是多” 理念,用几百个精心设计的 “认知模板” 就能激活模型深层的推理能力。这预示着未来我们能够像精准配药一样,塑造 AI 的思考方式。

对于广大用户而言,在 “完美 AI” 诞生之前,了解这些模型的 “认知偏差”,有助于我们更好地利用它们。专业写作者的用户研究显示,他们会依据不同创作阶段选择不同 AI 工具;针对程序员的调研也表明,开发者们正将不同模型的优势整合,开发复杂工作流。我们可以借鉴这些做法,当需要严谨与可靠时,如进行代码编写、科学计算、审阅法律合同时,选择那些 “过度思考” 的 AI,将其作为严谨的专业助理;当需要效率与灵感,如头脑风暴、构思营销文案时,尝试 “欠思考” 的 AI,利用其思维跳跃获取意外惊喜。

东京大学和 DeepMind 的这项研究,意义深远。它为我们提供了全新视角与科学工具,让我们能够深入探讨、度量和干预 AI 的 “思维品质”。我们正从 AI 的 “驯兽师” 转变为 “脑科医生”,AI 领域也从单纯追求性能的 “黑箱” 工程,迈向深入理解内部机制的科学探索。今天对 AI “认知病” 的诊断,是为了明天创造出更健康、强大且值得信赖的超级智能,而我们每个人都将见证并参与这场伟大变革。

参考资料《推理的拓扑学》:
https://arxiv.org/abs/2506.05744v2

展开阅读全文

更新时间:2025-06-19

标签:科技   缘由   思维   模型   拓扑学   认知   效率   直径   方式   逻辑   研究人员   精准

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号

Top