在自然界中,动物的智能与其身体结构紧密相连,这种智能被称为具身智能。例如,蜘蛛利用其细长的腿编织复杂的网,海狸通过拍打尾巴发出警告,猎豹则以其惊人的速度追逐猎物。人类则依靠灵活的手指来操作工具。这种智能的发展与动物的身体结构和环境相互作用,共同进化。
相比之下,人工智能(AI)通常被认为是无实体的,如自然语言处理和机器学习算法,它们在计算机的硅基芯片上运行,与物理世界隔离。尽管计算机视觉依赖于摄像头或传感器,但它仍然独立于任何物理形态。
斯坦福大学团队提出了一个关键问题:物理形态是否影响智力的进化?为了探索这一问题,他们创建了一个虚拟的“游乐场”,其中的“unimals”——模拟节肢动物——可以在突变和自然选择的影响下学习。研究团队观察了这些数字生命的身体形态如何影响其智力的进化。
研究结果表明,数字生命的身体形态显著影响了它们学习新任务的能力。那些在更具挑战性环境中进化的数字生命,或者在执行更复杂任务时进化的数字生命,比那些在简单环境中进化的数字生命能更快更好地学习。在这项研究中,最成功的数字生命形态能够比其祖先更快地完成任务,尽管它们在智力水平上起初是相同的。
为了增加实验的复杂性,研究者不仅改变了数字生命的身体形态,还改变了它们的训练环境和执行的任务。通过采用达尔文式的进化策略,模拟确保了每一种形态都有机会传递给下一代,即使在不利的环境下。这种方法既保持了种群的多样性,又减少了计算成本。
每个模拟开始时都有576个独特的数字生命,它们由一个“球体”(头部)和一个由不同数量的圆柱形节肢组成的“身体”构成。所有数字生命在模拟开始时都具有相同的感知能力、神经结构和学习算法,即相同的智力水平,但身体形状各异。
在模拟中,数字生命经历了学习阶段,它们要么穿越平坦地形,要么穿越包含块状山脊、阶梯和平滑山丘等更具挑战性的地形。一些数字生命还必须移动箱子以跨越复杂的地形。训练结束后,每个数字生命与其他三个在相同环境/任务组合下训练的数字生命进行竞争,胜者能够繁衍后代。后代在面临与其父母相同的任务之前,会经历四肢或关节的微小突变。所有数字生命(包括胜者)都参与了多项锦标赛,只有在新的后代出现时才会开始衰老。
经过三次进化迭代(每次迭代产生4000种形态)后,幸存的数字生命平均经历了10代的进化,形态变得多样化,包括两足、三足以及有或没有手臂的四足动物。研究人员从每个环境中挑选出10种表现最好的数字生命,并从头开始训练它们完成绕过障碍物、推球或将箱子推上斜坡等全新的八个任务。
结果显示,那些在需要绕障的环境中进化的数字生命比在平坦环境中进化的数字生命表现更好,而那些在需要将箱子推至指定位置的环境下进化的数字生命表现最佳。表现良好的数字生命无论是单独学习还是跨代学习都更快。实际上,经过10代进化后,表现良好的数字生命已经非常适应环境,以至于它们学习相同任务的时间只需要它们祖先的一半。
这一发现与19世纪美国心理学家鲍德温提出的假说相一致,即祖先习得的行为将逐渐成为本能,甚至可能在后代中遗传。鲍德温效应表明,学习适应性优势的能力可以通过自然选择遗传给后代,即“大自然选择的身体形态变化,使得后代能更快学习有利的行为”。例如,如果一种动物在生命早期不能学会走路,可能更容易死亡,从而对基因型产生直接的选择压力,选出能更快学会走路的动物。该效应描述的从表型到基因型的能力转移,可能为习得更复杂的行为(如语言能力和模仿能力)腾出学习资源。
该研究结合了进化算法和强化学习,证明了三点:首先,环境的复杂性能够促进具身智能的进化,从而使后代形态有助于学习新的任务。其次,数字生命的模拟重现了鲍德温效应,进化能够将早期祖先学会的有利行为表达在后代的基因中。第三,学习效率与物理形态有关,某些形态更加稳定,工作效率更高,因此可以促进学习和控制。
设计能在复杂环境下完成任务的机器人一直是一个挑战。然而,现实世界中需要机器人的场景往往都是复杂的,比如在核反应堆中提取核废物,在人体血管中输送药物,或在地震后的废墟中搜寻生命。也许通过进化来设计机器人是解决这一问题的唯一途径。通过让数字生命在日益复杂的模拟环境中进化,可以帮助开发出能在现实世界中执行复杂任务的机器人,增强其泛化能力和稳定性。