OpenAI o1突破语言理解极限：首次展现匹敌人类语言学家的元分析能力

导读：LLM再下一城！伯克利研究证明，OpenAI的o1展现出匹敌人类语言学家的元分析能力。

在人类诸多才能中，语言常被视为最独特的标志。自亚里士多德将人定义为“具有语言的动物”以来，这一观点便深入人心。

尽管当前的大语言模型（如ChatGPT）已能流畅地进行日常对话，但一个根本性问题依然存在：人类语言的深层结构与特质，是否超越了AI的运算体系？

为了探究这个问题，加州大学伯克利分校与罗格斯大学的研究人员合作，对多个大语言模型进行了一系列语言学测试，其中包括要求模型归纳虚构语言的规则。

结果显示，大多数模型无法像人类一样解析语言学规则。然而，有一个模型的表现远超预期——OpenAI的o1模型。它能够像语言学研究生一样分析语言，包括划分句子成分、解析多重歧义，并能运用递归等复杂特征。

研究者Gašper Beguš表示，这一发现“挑战了我们对人工智能能力的认知”。

AI会说话已不稀奇，但能够解释语言才真正引人深思。如果语言是定义人类的关键，那么大语言模型获得“元语言”能力又意味着什么？

LLM构建无穷递归

想象一下，你在搭建一座像俄罗斯套娃一样层层嵌套的“句子塔”。

每增加一层嵌套，理解的难度便呈指数级增长。这种结构在语言学中被称为“中心嵌入”，曾被著名语言学家乔姆斯基视为定义人类语言与思维的决定性特征。

以这句话为例：

The worldview that the prose Nietzsche wrote expressed was unprecedented.
（尼采所写的那篇散文所表达的世界观是前所未有的。）

其结构可以拆解为：
* 最外层：The worldview […] was unprecedented（这个“世界观”前所未有）。
* 嵌套一层：that the prose […] expressed（是“那篇散文所表达的”）。
* 再嵌套一层：Nietzsche wrote（而这篇散文是“尼采写的”）。

这构成了一个三层递归结构。此类句子在真实对话中极为罕见，因此，仅靠记忆训练数据的模型很难正确处理它。语言学家认为，人类语言从有限词汇和规则中生成无限句子的能力，正归功于这种无限递归。

图1：不同大模型识别多重递归，并绘制正确语法树的比例

研究表明，在众多大模型中，唯有OpenAI o1模型不仅能够理解包含多重递归的句子（图1），还能以接近100%的正确率绘制出正确的语法树状结构。

图2：该句子对应的正确语法树

更令人惊讶的是，当被要求“能否再加一层递归？”时，o1生成了更复杂的句子：

The worldview that the prose that the philosopher Nietzsche admired wrote expressed was unprecedented.
（那位尼采所敬仰的哲学家所撰写的散文所表达的世界观是前所未有的。）

这表明o1不仅能够使用语言，还能够思考语言，具备了元语言能力。此前有观点认为，由于语言模型只是预测下一个词，其运作方式与人类对语言的深层理解有本质不同。这项研究的结论对此观点构成了挑战。

大模型能区分歧义，也能深入理解句子

再考虑一个包含歧义的句子：

“Eliza wanted her cast out.”

“cast”一词既可作名词（“石膏”），也可作动词（“驱逐”），因此句子有两种可能的解释：
1. Eliza想要她的石膏被拿出去。
2. Eliza想把她（某人）赶出去。

人类依靠常识知识来排除歧义，而这种能力曾被认为是大模型难以具备的。然而，研究发现，o1能够正确识别这两种句法结构，并为每种解释生成符合语言学规则的句法树。相比之下，其他模型（如GPT-4、Llama 3.1）则可能生成不合语法的结构或误解语义。

该研究还测试了模型在音韵学任务上的表现。音韵学研究声音的模式及音素的组织方式。例如，英语中“dogs”的“s”发/z/音，而“cats”的“s”发/s/音。

研究人员创建了30种新的虚构语言，以测试模型在无先验知识的情况下推断语音规则的能力。结果发现，即使在这些虚构语言上，o1在音韵相关任务上依然表现出色。

大模型比人类更好地理解语言吗？

从上述三个方面的测试来看，一些曾被认为仅人类独有的语言理解能力，如今在大模型上也得以显现。

2023年，著名语言学家乔姆斯基在《纽约时报》撰文指出：“语言的正确解释很复杂，不能仅仅通过浸泡在大数据中就能学会。”他认为，尽管AI模型可能擅长运用语言，但并不具备以复杂方式分析语言的能力。

在此背景下，即使ChatGPT等模型已能复现自然语言的许多表面特征，探究大模型能否掌握人类语言的深层特征仍至关重要。随着社会日益依赖大模型，了解其能力的边界变得愈发重要。语言分析正是评估语言模型推理能力与人类相似程度的理想测试平台。

o1能够以与语言学家相似的方式分析语言，例如绘制句法树、解决歧义、利用递归特征。这一发现引出了两个关键问题：

为何只有o1表现突出？
研究者认为，o1的优势很可能源于其思维链（Chain-of-Thought）推理能力，使其能够像人类一样进行逐步推理、验证假设并构建抽象规则。
大模型最终会在语言理解上超越人类吗？
目前尚无定论。一方面，尚无大模型在语言学上提出过原创性观点或贡献新知识。另一方面，随着计算能力和训练数据的增长，模型的语言技能持续提升，理论上存在超越人类理解能力的可能性。

当前研究尚不足以宣称“机器理解语言胜于人类”，但它足以改变评价标准：对模型的考察，应从关注“任务产出”转向关注“结构解释”。当可解释性成为首要指标时，AI研究、教育与应用治理将迎来更统一的标准——将“为什么对”置于“对不对”之前。

参考资料：
* https://ieeexplore.ieee.org/document/11022724
* https://www.quantamagazine.org/in-a-first-ai-models-analyze-language-as-well-as-a-human-expert-20251031/