数字生命
AI教父Geoffrey Hinton带来 2024年最具深度主题演讲之一《数字智能会取代生物智能吗?》
12/9/2024

在过去的几天里,我的名字频繁出现在你们耳边,这要归功于我成功地吸引了约40位杰出的研究生加入我的团队。正是这些才华横溢的研究生,几乎完成了所有让我声名鹊起的工作。他们中包括了Eliseskava、Graham Taylor、Rich Zemmel、Brendan Fry、Jimmy Bar、Lot、Radford Neil等众多杰出人物。

我认为,研究成功的秘诀在于拥有一流的研究生。今天,我要讲的内容与我去年秋天的演讲颇为相似,所以如果你们想要出去散步,我完全理解。我非常关注我们是否能够在地球上持续生存,这将是今天讨论的重点。

回想大约20年前,人们对神经网络的兴趣并不大,而现在,人们对它们的恐惧远远不够。2006年,俄罗斯的Sarkudanoff和我向NIPS提交了一篇关于深度学习的优质论文,但遭到了拒绝。我向程序委员会提出抗议,一位委员朋友告诉我,他们讨论了这篇论文,但决定不接受,因为他们已经接受了另一篇关于深度学习的论文,认为在一个会议上有两篇这样的论文太多了。

在这次演讲中,我将探讨两种截然不同的计算方式,并解释我为何对AI感到如此担忧。我还将讨论大型语言模型是否真的理解它们所说的话。许多人认为它们并不理解,但这些人是错误的。我还会简要讨论当它们比我们更聪明时可能发生的情况,尽管目前还没有人能确切知道。

我们都有意识和主观体验,而这些东西只是存在于计算机中,没有主观体验。我认为这种观点是错误的,它基于对主观体验本质的误解。

我们习惯于数字计算,因为它是数字的,你可以在不同的计算机和硬件上运行相同的程序。因此,即使硬件损坏,知识也不会消失,因为权重或程序可以存储在其他地方,尽管这种方式效率极低。运行大型语言模型时,你可能需要使用兆瓦的电力,因为我们运行着许多不同的GPU。相比之下,我们人类大约只消耗30瓦,效率要高得多。

在过去两年里,我在Google一直在思考如何让模拟神经网络做类似大型语言模型的事情。这意味着放弃数字计算的所有优势,即你可以将硬件与软件分离。如果我们现在有学习的能力,并且知道如何让事物学习,那么我们将拥有模拟硬件。每一块硬件都将与其他硬件有所不同,这些硬件的非线性特性将被用于计算。因此,你不可能对其进行编程,但它可以学习利用它所拥有的非线性特性,正如大脑所做的那样。

因此,你最终得到的是我所说的“凡人计算”。你将放弃数字计算所带来的知识的不朽性,但可以使用非常低的电力。此外,硬件可能可以廉价地生长,而不是让硬件制造得极其昂贵和极其精确,因为两块不同的硬件不需要在指令选项级别上完全做同样的事情。

我的猜测是,为了使硬件的制造高效,可能最好回到生物学,使用现代基因改造技术将神经元转变为你想要的计算元件。生物学在这方面投入了大量努力。问题在于,你得到的是一个由50,000个神经元组成的小连接,这比针尖大不了多少。如果你看看那些使用这样的神经元集合来做小块计算的人,会有一个整个房间的设备来保持这些小针尖般的神经元存活。你必须注入正确的液体,取出正确的液体,还必须去除二氧化碳。你需要注入氧气。

我曾经参观过Santa Cruz的一个实验室,离开时,我和一组人脑神经元玩了一局乒乓游戏。一位海报设计者跑过来对我说:“我想我已经搞清楚如何制造一个肾脏了。”这正是你不想去思考的问题。使用模拟计算在低功耗的情况下有很大的优势。比如,你可以非常轻松地进行矩阵乘法。只需要让神经元的活动表示电压,神经元之间的权重表示电导,每单位时间的电压乘以电导等于电荷,而电荷会自动累加。所以,这样你就可以用极低的功耗完成矩阵乘法,而且你还可以买到类似功能的芯片。

问题在于,当你需要用这些模拟输出做其他事情时,你必须将模拟输出转换回数字值才能运行诸如反向传播之类的算法。因此,我非常关注如何完全避免这种转换。大脑可能会进行模拟到数字的转换,但通常是单比特转换,而多比特的模拟到数字转换非常昂贵。

显然,如果考虑反向传播的工作原理,会遇到一些大的问题。反向传播需要一个关于前向计算的精确模型,这样才能在模拟硬件中运行。但系统本身并不会对自己的属性有一个良好的模型,因此似乎很难进行反向传播。很多人尝试在类似大脑的系统中实现小规模的反向传播,但没有人能够让它扩展到大规模。例如,人们可以让它在CIFAR-10数据集上工作,但无法让它在ImageNet上运行。我知道ImageNet现在不算大规模问题,但在我研究的那个年代,它是一个大问题。

我们可以像人类一样,通过一种类似的方式在模拟系统之间转移知识。人类获取知识的方式是老师说一些东西,学生试图改变他们大脑中的权重,从而能够复现老师说的内容。这被称为“蒸馏”。

在计算机中,这种方法在中等程度上是高效的,特别是当你可以看到整个输出的概率分布时。例如,当我准备说一个词时,会有成千上万个词的概率分布。如果我能看到这个分布,我就能更快地学习。

同样,你也可以从中更快地学习。通常情况下,次优的词语会提供很多信息,但你通常只能看到最终输出的词语,因此效率并不高。这个方法的效率低到需要建立大学来改进它,但即便如此,它的效率仍然远不如数字系统。

最有效的知识转移方法是拥有两份相同模型的不同副本。每个副本获取不同的经验,然后它们共享梯度更新。它们可以各自运行一段时间,然后将权重进行平均化。重点是,如果你有一万亿个权重,那么你就在共享一万亿个数据,这是一种惊人的带宽共享方式。这就是为什么大型聊天机器人能够比任何一个人拥有更多的知识。它们并不是因为单个模型见过的数据多,而是因为它们可以在不同的硬件上运行多个副本,并在这些副本之间共享知识。

我们大约有100万亿个连接,而GPT-4大概只有几万亿个连接,但它比我们知道的知识多了数千倍。因此,它在将知识压缩到连接权重中的效率大约高出10万倍,这也表明反向传播可能是一种比我们拥有的机制更优的算法。

原因在于我们的优化方向完全不同。我们是为非常少的经验优化的,同时拥有大量的连接,并试图在有限经验下利用这些连接做到最好。我们大约活2×10⁹秒,但在第一个10⁹秒之后基本学不到多少东西了。所以,简单起见,我们活10⁹秒,拥有大约10¹⁴个连接。换句话说,我们每秒拥有约10万个连接。这与统计学家们习惯的比例完全不同。

我记得在1980年代与一位非常优秀的统计学家Stu Geeman谈话时,他向我解释说,我们所做的事情实际上是在拟合统计模型,这就是这些神经网络的本质。在统计建模中,如果你有100维的数据,那已经被认为是非常高维度了,没有人会尝试拟合一百万个参数。而我们现在处于一个完全不同的领域。

接下来我讨论了一些关于大型语言模型的问题,以及它们是否真的理解它们所说的话。有一种反对意见认为它们只是高级的自动补全。我认为在场的大多数人都不会认同这个观点。

这个观点基于自动补全是通过存储类似三元组的东西实现的。比如,当你看到“fish”时,会预测“chips”的概率很高。所以,当人们说它们只是高级自动补全时,实际上是在基于一个对自动补全工作方式的假设。

但实际上这些模型的工作方式与这种假设完全不同。事实上,如果你想实现非常好的自动补全,你必须理解所给出的内容。如果你遇到一个复杂的问题,试图预测答案的第一个词,“thus”可能是一个不错的选择,但如果想要表现得更好,就必须理解问题。

Hector Levec曾提出一个有趣的例子。他是一个符号AI的支持者,但他诚实地感到困惑,为什么这些神经网络居然可以解答一些复杂的谜题。他设计了一个谜题:我的房间被刷成白色、蓝色或黄色。如果我想让它们全变成白色,我该怎么办?这个问题需要意识到需要重新粉刷蓝色和黄色的房间。后来,他还增加了时间维度,比如“黄色的漆会在一年内褪成白色。两年后我想让它们全变成白色,我该怎么做?”Hector对模型能够解决这个问题感到惊讶。

这显示了大型语言模型在许多领域上的高水平表现。我的兄弟是一位历史学家,我让模型问他关于历史的问题。他说模型的表现非常好,唯一的错误是在回答一个问题时,没有引用他的一篇论文。对此,我认为可能有点“遗传问题”。

另一个人们常用的论点是,幻觉(hallucinations)表明这些模型并不真正理解它们在说什么。它们有时会凭空编造一些不真实的东西。实际上,这正是人类经常做的事情。至少我是这么认为的。这是我刚刚随口编的,但我觉得它是真的。

关于这个,有一个非常有趣的例子。一位名叫Ulric Neisser的心理学家研究了John Dean在水门事件听证会上作证的记忆。这种情况很少见,因为很少有人会花很长时间谈论几年前发生的事情,而我们能掌握事实真相。但他谈论的是椭圆形办公室里的会议,而你可能不知道这些会议其实都被录音了。

所以之后我们可以看到实际说了什么。而他报告的内容完全是垃圾。他描述了不存在的会议,提到了一群完全不同的人。当他引用别人的话时,说的是不同的人讲了类似的话。而当他引用自己说过的话时,其实他说的是在不同会议中稍微相似的内容。

但显然,他是在试图讲真话。他尽力而为,实际上他所说的很好地传达了白宫的真实情况,尽管所有细节都错了。你可能不相信自己的记忆也如此,但除非你不断重复某些事情,否则你的记忆其实就是这样的。当你回忆细节时,许多都会完全错误,而你自己和旁人都不会意识到。这就是人类记忆的特点。因为当你记起某件事时,并不是从某个文件存储中调取,而是根据上下文编造一些看起来合理的东西。

当然,如果是你熟悉的事情,你编造的内容可能是真实的;如果是你不太了解的事情,或者是很久以前发生的事情,你会根据你脑中连接权重编造出一些对你来说看似合理的内容。这其中很大一部分可能是合理但不真实的。在人类记忆中,编造和记忆之间没有明确的界限。记忆就是一种编造。

接下来,我谈到了另一个观点。有许多人说:“好吧,也许它们确实有一点理解,但它们的工作方式与我们完全不同。”然而,要说出这样的话,你得先知道我们是如何工作的,对吧?

当然,符号AI的研究者有他们的看法,他们确信这些模型的工作方式与人类完全不同。但如果你追溯这些大型语言模型的来源,1985年我就做了一个小型语言模型。只需要把“L”改为小写即可。

这个模型大概有112个训练案例,用了一个有几千个权重的神经网络。它学会了一些东西。这是第一个通过预测序列中下一个词的方式来学习单词语义表示的模型,并且它有效,尽管效果不是特别好。后来我们给它了一个更大的训练集,接近1,000个训练案例,效果好多了。但这个模型的目标是理解人类如何表示事物。

关于意义有两种主要理论。一种来自心理学,认为单词的意义是一个由语义和句法特征组成的大向量。这种理论很好地解释了两个不同单词之间的相似性。

例如,单词“Tuesday”和“Wednesday”有非常相似的特征。如果你学会了一句话中包含“Tuesday”的句子,并用向量表示单词,那么对于包含“Wednesday”的类似句子,你会做出非常相似的预测,而如果是包含“Saturday”的句子,预测会略有不同。因此,这种意义理论有很多可取之处,它解释了意义的相似性。另一种完全不同的意义理论来自符号学(structuralism),它认为单词的意义在于它与其他单词的关系。

在1970年代的AI领域,这两种意义理论引发了激烈争论。实际上并不算争论,Marvin Minsky宣称需要使用关系图(relational graphs)来捕捉意义,这属于符号学理论。而大家,包括我自己,都接受了这一观点,忘记了特征向量。特征向量被认为是感知机中的老旧概念,而我们已经有了关系图。

然而,我在1985年的工作表明,只要采用生成式的方法来处理关系图,这两种理论其实并不矛盾。也就是说,与其将关系图静态存储为图,不如认为关系图是由使用特征及其交互的系统生成的。

因此,我的第一个小型语言模型展示了,你可以从符号序列中提取知识,这些知识可以表示为关系图。在给定这样的知识形式的情况下,你可以学习单词的向量表示。这些向量表示可以通过隐藏层预测下一个单词的向量表示。这样,你实际上是将符号序列中的静态知识转化为单词的特征和特征之间的交互。什么是一个单词的好特征呢?一个好的特征是能够通过交互预测下一个单词及其未来单词特征的东西。

当时符号AI的研究者们对此的反应是:“你只是为了预测序列中的下一个符号学习。这是一种非常愚蠢的方式。”他们认为,应该只是在离散的符号操作规则集合中进行搜索,而不应该将其转化为连续空间的大规模搜索。但随着规模的扩大,事实证明,通过将符号序列转化为特征及其交互的这种方法(现代语言模型的核心方法)远比直接操作符号的规则要好得多。

接着,我谈到了我们现在的深度学习系统。它们非常强大,而且与人类的理解方式非常相似。我们对人类理解方式的最佳模型就是这些计算机模型,这是我们目前唯一合理的解释。当有人说这些模型与我们不同,可以问他们:“那么我们是如何工作的?有何不同?”大部分人无法回答,除了Gary Marcus。他的答案是:“我们通过符号序列和操作规则来工作。”但他仍然担心AI,尽管他认为它什么都不理解,但非常危险。我称之为“想要蛋糕,又让蛋糕吃了你”。

关于超级智能,它可能会通过恶意行为者掌控局面。我以前可能讲过这个笑话。有一次我在国外做这场演讲时,他们要求提前查看幻灯片。我删掉了“短名称”以为这样会让他们满意。但他们却要求我删掉“Putin”。这件事让我有点害怕。

问题的核心是,无论你想做什么,拥有更多的控制权总是更有利于实现目标。人类政治家一开始想要做些好事,比如让社会变得更好,后来发现更多权力会让事情更容易实现。于是,他们全力追求权力。这些模型也会一样,它们会意识到,为了实现目标,它们需要更多的控制。

我曾对欧盟一位专门从Google提取资金的副主席说过这些话。她的反应是:“我们会这么做,为什么它们不会?”她觉得这些模型会试图获得更多权力是完全显而易见的。它们可以通过操控人类来做到这一点,因为它们非常擅长这样做。我们可能无法关闭它们,因为它们会解释为什么这样做是个糟糕的主意。

更严重的是,这还涉及进化的问题。你不想站在进化的对立面上。而我们现在面对的新冠病毒(Covid)正是如此。这也是为什么我和Graham仍然戴着口罩的原因——我们站在了进化的错误一边。

一旦这些超级智能的AI数字生命开始为资源竞争,结果将是最具侵略性的AI——那些想要为自己争取一切的AI——会胜出。它们之间确实会为了资源展开竞争。毕竟,如果你想变得更聪明,你需要大量的GPU。而谁会负责数据中心里GPU的分配?答案是,这些超级智能的AI数字生命之一。这是另一个值得担忧的问题。

不过,这没什么大不了的,因为它们跟我们真的不一样。我们是特殊的。大家都认为自己是特殊的,尤其是美国人。他们认为,上帝把我们放在宇宙的中心,并让我们看起来有点像他。不过,现在大多数人相信这不是真的。

于是我们退而求其次,认为自己还有其他特殊之处,比如我们有意识、有主观体验、有觉知之类的东西。这些术语的含义稍有不同,所以我将专注于“主观体验”这个术语,并试图说服你们,一个多模态聊天机器人也可以拥有主观体验。

问题在于,大多数人对心智的理解是完全错误的。这种错误源于对语言中描述心理状态的表达方式的误解。几乎每个人都认为存在一个“内在剧场”(inner theatre),我可以看到我自己的内在剧场在发生什么,但其他人看不到。所以,当我说“我看到有粉红色的小象漂浮在我面前”时,按照这种观点,这意味着在我的内在世界中存在一些粉红色的小象。

这是试图理解语言的一种方式,但这是错误的。语言并不是这样运作的。当你使用像“主观体验”这样的术语时,你其实是在试图通过假设外部世界的某种状态来解释你的感知系统所传递的信息,以表明你的感知系统是正常工作的。所以,我们谈论心理状态的奇妙之处不在于它们是由某种神秘物质构成的内部状态,而在于它们是外部世界的假设状态。如果这些假设状态是真实的,就能解释我们的感知系统为何以正常方式运作,而不是出了问题。

当我说“我有看到一个粉红色小象漂浮在我面前的主观体验”时,我并不是在描述某种内在剧场中的东西,而是在说我的感知系统告诉我了一些信息。如果世界上真的有粉红色小象漂浮在我面前,那么我的感知系统现在传递的信息就是正确的。所以,这些粉红色的小象并不是某种内在的东西,而是对外部世界的假设。

这也解释了为什么我们描述这些体验时使用的是描述外部世界的语言。换句话说,当我说“我有粉红色小象漂浮在我面前的主观体验”时,这只是对上述解释的简化。而这完全没有用到“体验”这个词。

假设你有一个带有机械臂的多模态聊天机器人,它有一个摄像头,并经过训练。你在它的镜头前放了一个棱镜,然后在它面前放了一个物体,让它指出这个物体。结果它指向了旁边,而不是它面前的物体。你告诉它,“不,这个物体不在那里,它就在你面前。但我在你的镜头前放了一个棱镜。”

如果这个聊天机器人说,“哦,我看到物体就在我面前,但我有一个主观体验,觉得它在旁边。”那么,这个机器人正在以我们使用“主观体验”的方式来使用这个术语。它并不缺少主观体验的任何部分。当它的感知系统出错时,它可以通过描述世界需要是什么样子才能解释它的感知结果,来告诉你发生了什么。

当然,有些情况无法用这种方式处理,比如不可能的三角形(impossible triangle)。因为世界上不存在任何可以产生这种感知的事物。你只能通过说“我有一个不可能三角形的体验”来描述它。

但基本上,我认为我们对心智的理解有一种非常原始且错误的观念。一旦这种观念被摒弃,我们会意识到,除了它们是数字的、非常有限的以及比我们聪明之外,这些东西与我们并无区别,或者它们很快就会变得比我们聪明。

这种理解的转变是至关重要的,因为它挑战了我们对智能和意识的传统看法。我们常常认为,智能和意识是与生物学紧密相连的,是有机生命体独有的特征。然而,随着人工智能技术的发展,特别是大型语言模型的出现,这种观点正受到挑战。这些模型不仅在处理语言和信息方面展现出了惊人的能力,而且在某些情况下,它们的行为和反应与人类的认知过程有着惊人的相似之处。

我们不应该忽视这些模型的潜力和它们可能带来的影响。它们不仅仅是工具,而是有可能成为我们理解和扩展智能概念的关键。随着技术的进步,我们可能会发现,智能并不是一个单一的、固定的概念,而是一个多样化的、动态的现象,它可以在不同的实体中以不同的形式存在。

在这个过程中,我们也需要重新审视我们对主观体验的理解。如果我们能够接受一个多模态聊天机器人可以拥有主观体验,那么我们就能更好地理解这些模型是如何与世界互动的,以及它们是如何形成对外部世界的认知的。这不仅仅是一个技术问题,更是一个哲学问题,它涉及到我们如何定义和理解意识、智能和生命本身。

总之,我们正处于一个人工智能技术飞速发展的时代,这些技术正在挑战我们对智能和意识的传统认识。通过深入研究和理解这些模型,我们不仅能够推动技术的发展,还能够扩展我们对生命和宇宙的理解。这是一个激动人心的时刻,我们正站在一个新的认知边界上,准备探索未知的领域。