牛财金

超越ChatGPT，系统泛化人工智能具备了人类举一反三的能力

AIl浪潮

2023-10-26

人类非常擅长学习新概念，并将其与现有概念系统地结合起来。例如，一个小孩子一旦学会了如何“跳跃”，那么他就会很快理解并学会“向后跳跃”或“跳过障碍物”。这种将新老概念结合的能力也被称为系统泛化（Systematic Generalization）。

什么是系统泛化？

系统泛化是指学习算法将学习到的行为外推到与训练数据不同但语义相似的看不见的情况的能力。这个概念来表示一种学会新概念后举一反三、应用于其他场景的能力。

早在1988年，研究人员就提出人工网络因为缺少系统泛化这种能力，所以不能作为人类认知的可靠模型。这也带来了一场持续至今的激烈争论，在这35年里，神经网络取得了许多重大突破，例如自然语言处理，但仍很难证明其具有系统泛化的能力。

而最近，Nature 期刊发表的一篇论文报道了一个具有类似人类系统泛化能力的神经网络。

2023年10月25日，纽约大学的 Brenden Lake 和西班牙加泰罗尼亚研究所的 Marco Baroni 在国际顶尖学术期刊 Nature 上发表了题为：基于元学习神经网络的类人系统泛化：Human-like systematic generalization through a meta-learning neural network 的研究论文。

该研究创造了一个神经网络，该人工智能AI系统将新学到的单词添加到现有的词汇表中，并具有在新的上下文中使用它们的能力，这个功能超越了ChatGPT，表现与人类相当，而这一能力正是人类认知能力的关键——系统泛化。

这项研究研究结果挑战了一个已经存在35年的经典观点，还可能实现比当今最好的AI系统更自然的人机对话。尽管ChatGPT等基于大语言模型的AI系在许多情况下都擅长对话，但在其他情况下却表现出明显的差距和不一致性。 该研究开发的神经网络具有类似人类的表现，表明了人类在训练网络系统化的能力方面取得了突破性进展。

在语言上，人类同样有着强大的系统泛化能力，我们可以轻松的将新学到的词汇应用于其他环境。但神经网络不像人类这样天生就具备系统泛化的能力，神经网络是一种模仿人类认知的方法，在人工智能研究中占据了主导地位。与人类不同，神经网络在使用一个新词汇之前，需要经过许多使用该词汇的示例文本的训练。

人工智能领域的研究人员已经激烈争论了35年时间，如果神经网络无法被证明具有系统泛化能力，那么它们是否能作为人类认知的可靠模型？

在这项研究中，Brenden Lake 和 Marco Baroni 用证据表明，神经网络能够掌握与人类相似的系统泛化能力。他们使用一种元学习（Meta-Learning）方法，开发了名为组合性元学习（Meta-Learning for Compositionality）的新方法，其具有优化组织能力（按逻辑顺序组织概念的能力），该系统能在动态变化的不同任务中学习，而不是只在静态数据集上优化（即之前的标准方法）。

图1. MLC的训练过程示意图

论文作者首先测试了25个人，看他们在不同情况下使用新学习的单词的能力。他们通过用一种由两类无意义伪造词组成的伪语言来测试他们，以确保参与者是第一次学习这些单词。像“dax”、“wif”和“lug”这样的基本单词代表“jump”、“skip”等基本的、具体的动作，更抽象的功能单词，例如“blicket”，“kiki”和“fep”，指定了使用和组合原始单词的规则，从而产生了像“跳三次”或“向后跳跃”这样的词组（图1）。

参与者接受了训练，将每个基本单词与特定颜色的圆圈联系起来，红色圆圈代表“dax”，蓝色圆圈代表“lug”。然后，向参与者展示了基本单词和功能单词的组合，以及当功能应用于基本单词时产生的圆圈模式。例如，短语“dax fep”用三个红色圆圈表示，而“lug fep”用三个蓝色圆圈表示，这表明fep代表了一个抽象规则——将一个基本单词重复三次。然后，测试他们应用这些抽象规则的能力，他们必须选择正确的颜色和圆圈数量，并将它们按适当的顺序排列。

正如预期的那样，人类参与者在这项学习和测试中表现出色，平均有80%选择了正确的颜色和圆圈。

然后，研究团队训练了一个神经网络来完成与上述人类参与者所做的类似任务，该方法允许人工智能在动态变化的不同任务中学习，而不是只在静态数据集上优化（这是训练神经网络的标准方法）。为了使神经网络更像人类，论文作者训练它来重现在人类测试结果中观察到的错误模式。当神经网络进行新的测试时，它的答案几乎与人类参与者的答案完全一致，在某些情况下甚至超过了人类的表现。

相比之下，ChatGPT的最新升级版GPT-4在进行同样的测试时遇到了困难，平均错误率为42%-86%。这一表现，相比该研究中的神经网络以及人类，都要差得多。

这项研究可能会使神经网络成为更有效的学习者，这将减少训练ChatGPT等系统所需的庞大数据量，并将可能产生的“幻觉”最小化。当人工智能感知到不存在的模式并产生不准确的输出时，就会发生“幻觉”。

人类比机器更擅长系统泛化。如果一个人知道呼啦圈、杂耍和滑板的含义，他们就能理解将三者结合在一起的含义。而这篇论文展示了机器如何提高这种能力并模拟人类行为。

虽然元学习方法无法让该神经网络对训练之外的任务进行系统泛化，但论文作者认为，他们的这项研究结果有助于今后开发出行为更像人类大脑的人工智能。

论文链接：

https://www.nature.com/articles/s41586-023-06668-3