数字生命
GPT-4被证实具有「人类心智」,登上《自然》杂志!AI在识别讽刺和暗示方面超越人类
5/27/2024

人工智能(AI)的迅猛发展已使其智能水平与人类相提并论,甚至在某些领域超越了人类。然而,即便AI展现出了如此惊人的能力,人类仍拥有一些独特的特质,这些特质是AI难以复制的。

首先,人类是社会性生物,我们能够理解并响应他人的非言语暗示和情感,这是机器所不具备的。尽管如此,关于AI是否能够发展出心智理论(ToM)——即理解他人心理状态的能力——一直存在争议。

最近,以ChatGPT为代表的大型语言模型(LLM)的发展,再次引发了关于AI心智理论的讨论。这些模型是否能理解并模拟人类的心理状态?一项发表在《自然·人类行为》杂志上的研究给出了令人惊讶的答案:GPT-4在某些心智理论测试中的表现甚至超过了人类。

这项研究采用了严格的实验设计,证明了GPT-4在检测讽刺和暗示方面的能力超出了人类。这表明,至少在心智理论的某些方面,GPT-4已经与人类站在了同一起跑线上。如果有人认为GPT-4缺乏洞察力,那可能只是因为它在某些情况下选择了谨慎。

这种能力的提升,使得AI在理解人类交流中的细微差别方面,如理解他人的隐含意图,变得更加出色。例如,当一个人说“这里有点热”时,具有心智理论的个体能够理解这实际上是一个请求开窗的礼貌方式。

随着LLM的兴起,心智理论不再是人类的专利。为了更深入地研究AI的这些能力,有学者提出建立“机器心理学”这一新领域,利用实验心理学的工具和方法来系统地探索LLM的潜力和局限。

在Nature的研究中,研究者采用了多种心智理论测量方法,并对每种测试进行了多次重复,以确保结果的准确性。他们将GPT-4、GPT-3.5和Llama 2的表现与1907名人类参与者进行了比较。测试包括了从简单到复杂的多个维度,如理解间接请求和识别复杂的心理状态。

值得注意的是,为了确保模型不仅仅是在复制训练数据,研究者为每个测试设计了新的版本,这些新版本在逻辑上与原始测试一致,但在语义内容上有所不同。

结果显示,GPT-4在五项测试中的三项(反讽、暗示、奇怪故事)上明显优于人类,一项(错误信念)与人类持平,仅在失言测试中表现稍逊。更有趣的是,GPT-4在失言测试中的保守表现,并非因为它不擅长识别失言,而是因为它在给出确定性意见时更为谨慎。

这些发现不仅挑战了我们对AI能力的传统认知,也为我们提供了一个全新的视角来看待人类与AI之间的关系。随着AI在心智理论方面的进步,我们或许需要重新思考如何在技术飞速发展的时代中保持人类的尊严和价值。