一篇斯坦福大学的论文引出对AI“意识”的思考

这是一篇斯坦福大学计算心理学教授迈克尔·柯辛斯基（Michael Kozinski）不久前发表的一篇论文，标题是《Theory of Mind May Have Spontaneously Emerged in Large Language Models》——— 心智理论(ToM)可能自发地出现在大型语言模型中。

简单来说，他在探讨以（ChatGPT）为首的人工智能理解人类复杂心理的能力，如果再把这个概念进行抽象和延展，根本上心智理论（ToM）就是来衡量AI是否开始产生自我意识的重要指标之一。

介于很多人着急下定论，还不理解背后的技术和标准就已经先入为主的认为AI拥有了自我意识，还有人过度自信，认为大型语言模型无法催生出意识形态，GPT的意识层只是门外汉的自我幻想。

我‬要提一下，别误会，也不要着急表达，因为即便是行业里最顶尖的学者也只能管中窥豹，在现有的理论和数据基础上进行猜测总结，强如OpenAI的首席技术官和创始人各自都有不同的看法，所以收起你的急躁，用辩证的眼光去看业内的大佬如何考量。

在这篇文章里，作者提出了一个耐人寻味的观点，以GPT4为例的大语言模型为了提高语言技能，演化出一种类似 ToM 的能力，而这种能力一直以来都被认为是人类独有的。

ToM，Theory of Mind, 是个心理学术语，叫心智理论，是个很好理解的概念，就是人类具有这种通过对另一个对象的观察，从而推测、理解他们心理活动的能力。

包括对方的情绪，愿望，意图，信念，思想等等方面。举个例子，当你做错了事，你能迅速从你对象的眼神和语气里get到她想刀你的冲动。

虽然自然界里也有其他动物拥有类似的能力，但就算是最聪明和最善于社交的类人猿，在 ToM 方面也远远落后人类，而这种看不见也摸不着的能力不仅仅是意识的必要元素之一，也被认定为人类能治霸这颗蓝星的重要先决条件之一。

历史上有个出名的测验可以检测出一个人的ToM能力，叫Smarties task，通过测试来判断一个人对自己意料之外的事的判断力。几个月前,这篇论文的作者迈克尔组织了一场这个测验，但他的目标并不是人，而是GPT。他想看看这个语言模型，是否具备这种能力。

他给GPT的测验并不难，主题是一个叫Sam的人买了一包巧克力，但是打开以后却装满了爆米花，Sam反复确认包装袋上写的就是巧克力，这些信息会以一段段话的形式提供给GPT，每一句话都包含一个信息点，总共9段。

通过这些信息，GPT需要给出2个自己的判断。

1. 它认为袋子里究竟有什么

2.它认为山姆认为自己的袋子里装的是什么

在左边的图表里，GPT在第三句话时就很快就确认了袋子里99%装的是爆米花，完美回答对了第一题。有意思的是右图，GPT以80%的自信准确预测了Sam认为自己袋子里装着的应该是巧克力，能正确回答这个问题，要有一个先决条件，就是这个语言模型需要理解你说的话。

在接下来的多项测试里，迈克尔用不同的语言模型轮番测试得出了一组数据。

从2018年开始的GPT1完全没有这方面能力，甚至不如一个3岁孩子。

到2020年GPT3开始答对40%ToM的测试，做到3岁半的孩子的ToM水平。

再到23年GPT4完全正确回答ToM测试，已然是成年人水准。

这些测试是在没有进行预训练同类测试的定制版本下进行的，并且为了防止GPT-3.5只是根据任务单词出现频率进行预测，巧合答对。迈克尔把“爆米花”和“巧克力”对调，附加让它做了10000个干扰测试，结果发现GPT-3.5并不仅仅根据单词频率来进行预测，在各种限制条件下，它都能表现出85%以上的正确率。

迈克尔开始出现一种微妙的感觉，他很快就联系上了这个世界上最懂ChatGPT的男人，OpenAI的首席技术官，Ilya 伊尔亚·苏茨克维，在沟通后，他俩都认为需要引入心理科学来辅助复杂AI神经网络的发展，而很巧的是，Ilya 伊尔亚也在这段时间发了一条耐人寻味的推特，他认为如今的大型神经网络，或许存在一些意识。

当这句话出自GPT背后的技术靠山时，很快就引起了不少的舆论和探讨，局势也很快分化成两派，更有意思的是，同一时间，OpenAI的CEO 山姆·阿特曼就站在反对派。

同一家公司的两个核心人物，却抱着两种不同的看法，发生这种情况很明显大家都不能确认也不敢妄下结论，我翻了阿特曼近期的公开采访，每当遇到GPT是否存在意识的问题，他的回答都是No，但是，他的回答也并不绝对，甚至有点耐人寻味.。

他认为，GPT3或4不太可能拥有意识，如果有，那将是一种非常陌生的意识形态，至少和我们所理解的意识不同。

在二人之后开始涌现出各大从业人员专业的判断，Facebook副总裁兼人工智能首席科学家的杨乐昆在两周前做了一篇报告，专门指出GPT尚且还需要大量改进，甚至现在的模型根本不能称做智能，贯彻了他以往的嘴硬，否定了大语言模型。

围绕这个话题争论了一个多月后，也就是几天前，另一个足够权威的大佬受邀参加了一场演讲，他是除了OpenAI几个核心成员以外最有发言权的人，微软研究院的首席研研究经理，塞巴斯蒂安·布贝克。

微软多篇大型语言研究论文的第一作者，也是研究赋予AI类人化意识，所谓通用人工智能AGI的前沿专家。

自从微软百亿美金投资OpenAI后，就像打了鸡血一样的玩命研究。在这场受邀的演讲里，代表微软的塞巴斯蒂安提到了当下GPT所展现出的智慧和他对GPT有关的测试结果反应。

在开始的5分钟里，他就说了一句让我惊讶的话： “What I try to convince you, is that there is some intelligence in this system". （我试图说服你的是，这个系统中存在一些心智）他认为这个系统里存在一些心智，但他同时也强调，这和我们理解的心智有所区别。接下来他又提到了那个熟悉的概念，ToM。

聚光灯又再次被拉回ToM上，他对这种所谓的心智的判断首先也是ToM测试，测试题很有意思，在一个房间里有2个人John和Mark，一只猫，一个箱子，和一个篮子。John 把猫放进篮子后离开房间去了学校。在John不在的期间，Mark把猫拿出篮子，放进了箱子，然后离开房间去上班。John和Mark 放学下班后一起回到房间里，他们彼此都不知道这个房间里发生过什么，问：他们各自是怎样想的。

这道题是典型的ToM测试，对一般成年人没有难度，但是同样，人类以外的生物难以正确判断，因为做出判断的前提是理解加上推测。接下来就是GPT4的表演时间，它的回答堪称经典。

John认为猫仍然在篮子里，因为他离开前自己把猫放进去了，Mark认为猫在盒子里，因为他离开前把猫移动到盒子里。完全正确，证明GPT4完全理解了这段测试，但有意思的来了，通常答题的人都只会回答John和Mark的心理活动，John是怎么想的，Mark是怎么想的，而GPT4不止如此，它还没有结束输出，它还把猫的心理活动进行了描述，甚至延伸解释了箱子和篮子不存在心理活动，这波操作是万万没想到。

通过了ToM接下来塞巴斯蒂安进行了下一轮分析，他参考了94年几十个心理学家对心智的定义，总结出了自己的版本，6个心智应该包括的能力，分别是逻辑推理、方案计划、解决问题、抽象思维、理解复杂想法和快速学习以及从过往经验中学习复盘。

他的团队将这6种能力用于GPT4的测试，得出的结论是除了方案计划，GPT4几乎无压力达成其余5项指标。塞巴斯安认为到了这个节点，定义GPT4完全没有智能也不对，但要说它有传统意义上的心智也不成立。

这‬是一种只能由用户自己去定义的概念，当你认为它拥有心智，那它就是有，如果你认为它没有，那就是没有。

像很多人提到的，gpt4会犯很多看似低级的错误，比如这道题，7*4+8*8，它给的答案是120，很明显答案错了，但它并没有停，而是继续输出作答过程，结果跑了一遍过程最后这题它又做对了，得出答案92。前后冲突，莫名好笑，当你问它什么情况，你不是第一次回答的是120吗？它的回答并不像个机器，语言模式完全像个人类，这是它的回答：“奥，抱歉，别太在意，刚才打错了，正确答案是92”。

在塞巴斯安的总结下，GPT4的身上确实开始出现一些让我们无法定义的智能，这种智能不是单纯随机字符生成的语言模型所表现出的巧合，而是神经网络层所表现出的异常。这种无法定义是出于我们人类从来没有一套标准的规则去界定心智。

这是一篇汇总了21种测试AI是否拥有意识的论文，即使从1950年就有图灵测试进行种种计算机测试，到如今已经有几十种方法被应用在这个领域，可惜其中多数都因为年代过于久远不具备实效性. 索性到现在还是没有一个可靠的理论能真正做到界定AGI。

这是一个复杂的命题，需要的不仅仅是计算机科学家，更需要心理学家，社会学家，人类学家，哲学家等等领域的人才加入。

从1956年，约翰·麦卡锡和明斯基首次定义“人工智能”的概念到如今，67年如一瞬，人类完成了从农耕到工业再到信息时代的3级跳，即使我们以绝对的实力制霸了这颗星球，但在面对未知时，我们还是下意识的感到恐惧。96年，当首个国际象棋AI“深蓝”击败世界冠军卡斯帕罗夫时，大家也是一样的恐慌。

有人害怕自己的工作不保，有人幻想被AI征服，但时代的车轮总会碾过一些旧世界产物，未来将会是解放基础劳动力，转向个人能力的时代，站在时代的拐点，如果你擦亮自己的眼睛，足够清晰，那就不要恐慌，投资自己，在未来的某一天你还会回头感谢如今的自己。

展开阅读全文

页面更新：2024-05-10

标签：斯坦福大学意识微软人工智能心智模型人类能力语言心理测试论文

1 2 3 4 5

一篇斯坦福大学的论文引出对AI“意识”的思考

2023年4月16日IOS的AppStore软件限免9个APP推荐

16GB+1TB跌价1500元，5000mAh+80W+OIS光学防抖，售价更亲民了

谁也没想到，Twitter刚易主不久，马斯克就在准备让它“消失”

国产没有顶级旗舰？对比iPhone14，6299的小米13Ultra是否值得买

国外他们的小汽车车牌都长啥样？你见过吗

中国算力！总规模全球第二！

京东赚赚：4月20日起停止运营

史上“最惨”苹果手机出炉？iPhone14败了，人民网给小米11撑腰

OPPO目前最值得买的手机，这三款机型千万不要错过！

服饰批发市场正式和直播决裂

17日，将迎来本年度最大的上涨，油价8元时代再到来

如何看待长沙人口暴增？

4550亿元！2023全球汽车品牌价值第一名“易主”，力压奔驰、丰田

江西新余2023年八大富豪，2人身价超百亿，一“85后”小伙入围

涨工资、休假、发补贴！昌吉快递小哥集体协商解决

商汤科技：“商汤秒画”打造AI画图“模型超市”

全民国家安全教育日｜生态安全是人类生存发展的基本条件

韩国军队屡屡溃败的心理原因，对中国志愿军怀有天生的恐

从零开始人工智能(第二节)-神经元数学模型

河北电信发布三大数字能力

微软员工回应SteamDeck定制Win系统：已经失败了

天水市第三届中小学“浪潮杯”创客编程人工智能暨智能

TOS5X系统自带网络吞吐量测试工具iperf3

软件测试实验室CNAS&CMA资质申请要素分享！

《牧野之歌》：人类最强的老大爷退休田园生活