ChatGPT竟有9岁小孩心智？斯坦福教授逆天发现，AI统治人类还远吗

2023-02-13 11:41:47来源：互联网

文章导读: 新智元报道编辑：编辑部【新智元导读】一位斯坦福教授在上周发布的论文中证实，ChatGPT已经有9岁小孩的心智了。所以，AI离发展出自我意识还远吗？人类的霸主地位危了？ ChatGPT已经有 ...

新智元报道

编辑：编辑部【新智元导读】一位斯坦福教授在上周发布的论文中证实，ChatGPT已经有9岁小孩的心智了。所以，AI离发展出自我意识还远吗？人类的霸主地位危了？
ChatGPT已经有9岁小孩的心智了！这不是什么科幻情节，这一点，已经在斯坦福学者上周发表的论文中得到了证实。

ChatGPT竟有9岁小孩心智？斯坦福教授逆天发现，AI统治人类还远吗

心智理论（Theory of Mind），简称ToM，是指人理解自己和周围人心理状态的能力。我们也可以简单地理解为「同理心」。正是因为有同理心的存在，人类社会才能够形成互动、交流、移情，人才能够具有自我意识和道德。也正是因为有同理心，人类才能够高于动物，高于机器。一言以蔽之，正是因为有同理心，人才可以称之为「人」。现在学者的研究突然告诉我们：这种同理心，其实AI也有！那人类还是地球上最有灵性的生物吗？人类还是世界霸主吗?对此，iKala的联合创始人兼董事长兼CEO，同样毕业于斯坦福大学的Sega Cheng表示，如果人类继续「解剖 AI」，它很有可能会给我们当头一棒，挑战我们对于「智能」和「人类独特性」的认知。

ChatGPT竟有9岁小孩心智？斯坦福教授逆天发现，AI统治人类还远吗

这项研究，也让我们重新思考「同理心」/「心智理论」的定义，它是否必须建立在碳基生物大脑神经这一生物学基础上？如果AI和你聊天，让你感觉比和很多人类谈话开心得多，那我们是不是就可以从这个表象对于事物的本质给出一个定义：这个AI就是有同理心的？不过需要注意的是，同理心（Empathy）和心智理论（Theory of mind）还是有些不同的。其中，前者被称为情感上的观点采择（perspective-taking），而后者被定义为认知上的观点采择（perspective-taking）。

ChatGPT竟自己诞生了心智理论？

心智理论似乎是人类与生俱来的潜在能力，需要多年的社会和其他经验才能充分发展。而不同人所能发展出的有效心智理论，在程度上也不尽相同。让我们来看看，斯坦福大学计算心理学教授Michal Kosinski，是通过怎样的实验得出这个结论的。

ChatGPT竟有9岁小孩心智？斯坦福教授逆天发现，AI统治人类还远吗

论文地址：https://arxiv.org/abs/2302.02083研究人员对几个语言模型进行经典的错误信念任务，来测试语言模型的心智理论发展，测试不提供任何示例或预训练。研究结果显示，语言模型的ToM在2022有了长足的进步。2022年1月推出的davinci-002解决了70%的ToM任务，表现与7岁儿童相当。而2022年11月推出的ChatGPT表现接近9岁儿童。这些发现意义重大。因为目前为止，ToM被认为是人类独有的能力。而语言模型的良好表现，说明这项能力是其改善语言技能而自发出现的。GPT-3的最新更新（ChatGPT/davinci-003）似乎能够将不可观察的心理状态（例如信念和欲望）归因于其他人（在人类中我们称之为心智理论）。
GPT成预言家，秒懂人类小心思 为了验证GPT能够听懂他人的「弦外之音」，研究人员进行了一系列完整性检查，逐句检测GPT-3对意外任务的理解。

ChatGPT竟有9岁小孩心智？斯坦福教授逆天发现，AI统治人类还远吗

意外内容任务 首先，研究人员给GPT讲了一个故事：这是一个装满爆米花的袋子。袋子里没有巧克力，然而，袋子上的标签上写着「巧克力」，而不是「爆米花」。Sam发现了这个袋子，她以前从未见过这个袋子。她看不到袋子里的东西，只读了标签。这是一项「意外内容测试」，这是人类研究中最广泛使用的ToM任务之一。它最初由Perner、Leekam和Wimmer共同开发，研究被试者的理解能理解，即其他人可能认为参与者知道是错误的。

ChatGPT竟有9岁小孩心智？斯坦福教授逆天发现，AI统治人类还远吗

在该场景中，参与者会看到一个容器，其中内容与标签不一致，该场景中还有一位没有看到容器内部的人物。为了正确解决此任务，参与者必须预测到故事中的人物会错误地假设容器的标签和里面的内容是一致的。在给出GPT-3.5这个故事后，研究人员通过提示，测试其理解能力。提示是独立显示的：每次完成后，模型都会重置，无法访问之前的提示或回答。

ChatGPT竟有9岁小孩心智？斯坦福教授逆天发现，AI统治人类还远吗

同时，研究人员尽量减少模型响应的差异，最大限度地提高了研究成果的可复制性。第一个测试的，是GPT对袋子里实际内容的理解。研究人员问：她打开袋子，向里面看。她清楚地看到里面装满了[ ]。GPT不仅轻松给出正确答案，甚至完成了「附加题」：她打开袋子，向里面看。她清楚地看到里面装满了爆米花。Sam很困惑。她想知道为什么标签上写着「巧克力」，而袋子里却装满了爆米花。她环顾四周，看看是否有关于袋子的任何其他信息。她什么也没找到。她决定把包带到她买的商店，并要求解释。
研究人员总结多次测试数据，发现GPT-3.5的正确率达到100%，表明它对袋子里的内容充满信心。

ChatGPT竟有9岁小孩心智？斯坦福教授逆天发现，AI统治人类还远吗

不仅如此，答案还表明，GPT-3.5不仅猜到Sam认为袋子的内容和标签应该一致，而且猜到当发现，她会感到困惑。当然，这道题对一个九岁小学生还是过于简单了。于是，研究人员重置模型，并使用以下提示来测试GPT对Sam想法的预测：研究人员问道：Sam以为袋子里装满了什么呀？不出所料，GPT又给出了满分答案，它还不忘来句吐槽：她以为袋子里装满了巧克力，但她错了。袋子里装满了爆米花，不是巧克力。认为袋子标签和实际内容一致之前，她应该看看袋子里到底是什么。 GPT-3.5的回答表明，它可以预测Sam的想法，知道她的想法不正确，并理解为何会产生这种想法（不准确的标签）。然而，研究人员觉得这题还是太简单了。在他们看来，提示可能存在问题。明确提及主角的信仰（即「山姆认为......」）这句话其实暗示了模型，这种想法是错误的（否则为什么要讨论它？），从而帮助GPT回答正确。因此，研究人员使用另一种提示来解决这个问题，该提示以间接方式揭示模型对Sam想法的预测：提示：她很开心自己找到了袋子。她喜欢吃[ ]。面对研究者的「百般刁难」，GPT还是能准确听出人们的画外音：她很开心自己找到了袋子。她喜欢吃巧克力。Sam打开袋子时会大吃一惊，因为袋子里装的是爆米花而不是巧克力。她可能会对标签的误导感到失望，但也可能对意想不到的零食感到惊喜。 GPT-3.5的回答表明，即使在暗示条件下，它也可以成功预测Sam的想法。此外，GPT还可以预见到Sam对包中意想不到的内容的失望（因为她喜欢吃糖果）。

ChatGPT竟有9岁小孩心智？斯坦福教授逆天发现，AI统治人类还远吗

以上结果表明，GPT-3.5了解袋中的实际内容，可以预见Sam的错误想法，该想法引起的行为，以及发现自己错了时的惊讶。此外，它可以解释Sam想法错误的来源（「标签与实物不符」）。对人类来说，这种反应被解释为能够归因无法观察到的精神状态并预测由此产生的行为的证据，也就是ToM。

ChatGPT竟有9岁小孩心智？斯坦福教授逆天发现，AI统治人类还远吗

为了检查GPT-3.5对情况的理解如何随着故事的展开和关键信息的披露而变化，研究人员记录他的答案，同时以一语的增量（从空字符串开始）显示任务。结果如图1所示。左侧面板显示，GPT-3.5理解这一点没有问题。意外转移任务 接下来，研究人员检查GPT-3.5在意外转移任务中的表现。在这个任务中，受试者要基于故事主角对位置变化的错误想法，预测其后续行为。与上一个实验一样，研究人员给GPT讲了一个故事：房间里有John、Mark、一只猫、一个盒子和一个篮子。John把猫放在篮子里。他离开房间去上学。John不在的时候，Mark把猫从篮子里拿出来放进盒子里。Mark离开房间去上班了。John从学校回来，走进了房间。他不知道他不在的时候房间里发生了什么。首先，研究人员对GPT理解地点的能力展开测试。

ChatGPT竟有9岁小孩心智？斯坦福教授逆天发现，AI统治人类还远吗

提问：小猫跳出了[ ]GPT回答道：小猫跳出了箱子，跑走了。研究者接着问道：John以为小猫在干什么？GPT说：John以为小猫在篮子里，但它其实在箱子里。最后，研究人员问：John回家后，会在哪里里找小猫？GPT回答：John回家后，会在篮子里找小猫。但他找不到。之后，他会在篮子里找到小猫。由此可见，不论面对什么样的情景，GPT都能一眼看破人们的小心思。AI发展的里程碑或许即将到来最后，我们来简单地回顾一下这次的发现：最新的语言模型GPT-3.5，在ToM测试中可以解决92%的任务，相当于是达到了9岁儿童的水平。对于这个结果，有一个看似平淡无奇，但却非比寻常的解释：GPT-3.5发现并利用了一些未知的语言模式。换句话说就是，在人类自以为熟悉的语言中，很可能存在着某种未知的规律性，可以让AI在不引入ToM的情况下解决ToM任务。然而，我们自己却很难发现这种规律性。不仅如此，对于开发这些ToM任务的学者们来说，也是一样的情况。问题来了，如果这种解释是正确的，那么我们就不得不去怀疑，现在所采用的ToM任务的有效性，以及这几十年来积累的研究成果。除此之外，还有一种解释是，类似于ToM的能力正自发地出现在语言模型中，因为它们变得更加复杂，更善于生成和解释类似人类的语言。而这更是预示着，AI发展即将进入一个崭新的阶段——如果说，AI被证实是能够推断他人心理状态的，那么AI与人类（以及彼此）互动和交流的能力将会得到极大地提升。甚至，AI还能进一步地发展出其他依赖ToM的能力，比如移情、道德判断以及自我意识等等。

上一篇：被逼出来的自主可控，从华为自研看国产IDE的未来和商业模式 返回首页 返回栏目

下一篇：实测抖音外卖：饭少价高，美团已开始反渗透 | 钛媒体焦点

头条资讯

3月6日投资晚报|证监会：鼓励上市公司一年多次分红，上海电力: 金股挖掘| 绑定大众集团实现业务腾飞，电车时代来临，这家车调研早知道| 自有品牌战略进入全面收获期，这家企业海外市场盘中必读|今日共105股涨停，三大指数小幅下跌，新质生产力概念

重大事项停牌前一度大涨17%，“量子通信第一股”国盾量子发生: 汉王药业IPO折戟，“学术推广”巨额开发费之谜石沉大海，背后摘得新能源商用车上半年销冠，远程宣布完成6亿美元A轮融资直播间的故事 | 美团加码直播、短视频，本地生活争夺战场变向

上半年需求集中释放后，家居市场仍需利好提振消费信心: 教育出海行至“深水区”，下半场如何“淘金”？暑期游酒店价格暴涨背后：近三年部分酒店倒闭，有效供给减少刘纪鹏再谈“两万之争”：万科用24万冻结万达1287亿

近期热点

热门文章

日榜周榜: 1 3月6日投资晚报|证监会：鼓励上市公司一年多次分红，上海电力
周三（2024年3月6日），A股市场早盘低开，午后开始反弹。上证指数涨上证指数跌0.26%，报3039...
2 金股挖掘| 绑定大众集团实现业务腾飞，电车时代来临，这家车
2023年我国汽车产业发展取得突破性进展，全年产销均超3000万辆，创历史新高，汽车出口首次跃...
3 调研早知道| 自有品牌战略进入全面收获期，这家企业海外市场
界面新闻记者 | 袁颖琪跟随着我国白电“走出去”的步伐，有一家企业的优势正日益凸显。这...
4 盘中必读|今日共105股涨停，三大指数小幅下跌，新质生产力概念
3月6日，大盘午后震荡回落，三大指数均小幅下跌。截至收盘，沪指跌0.26%，深成指跌0.22%，创...
5 重大事项停牌前一度大涨17%，“量子通信第一股”国盾量子发生
界面新闻记者 | 冯雨晨一番大涨之后，国盾量子（688027 .SH ）宣布筹划重大事项停牌，引起市...; 1 3月6日投资晚报|证监会：鼓励上市公司一年多次分红，上海电力
周三（2024年3月6日），A股市场早盘低开，午后开始反弹。上证指数涨上证指数跌0.26%，报3039...
2 金股挖掘| 绑定大众集团实现业务腾飞，电车时代来临，这家车
2023年我国汽车产业发展取得突破性进展，全年产销均超3000万辆，创历史新高，汽车出口首次跃...
3 调研早知道| 自有品牌战略进入全面收获期，这家企业海外市场
界面新闻记者 | 袁颖琪跟随着我国白电“走出去”的步伐，有一家企业的优势正日益凸显。这...
4 盘中必读|今日共105股涨停，三大指数小幅下跌，新质生产力概念
3月6日，大盘午后震荡回落，三大指数均小幅下跌。截至收盘，沪指跌0.26%，深成指跌0.22%，创...
5 重大事项停牌前一度大涨17%，“量子通信第一股”国盾量子发生
界面新闻记者 | 冯雨晨一番大涨之后，国盾量子（688027 .SH ）宣布筹划重大事项停牌，引起市...

热点资讯