突破语言桎梏：用神经细胞自动机预训练大模型，性能提升6%，推理能力增强

如果有一天，大语言模型不再依赖人类语言进行训练，会发生什么？

近年来，大模型能力的飞跃几乎都建立在一个前提之上：海量的文本数据。然而，随着高质量文本资源逐渐逼近极限，研究者开始提出一个更根本的问题：语言，真的是智能的起点吗？

一项最新研究给出了一个出人意料的答案：或许不是。研究团队假设，让语言模型在学习语言之前，先在完全非语言的合成数据上进行“预预训练”（pre-pre-training），可能带来更优的效果。

他们采用了一种截然不同的数据来源：神经细胞自动机（Neural Cellular Automata, NCA）。这种数据完全由算法合成，不包含任何语言内容。研究者在NCA生成的数据上对Transformer模型进行预预训练，随后再在自然语言语料上进行标准的预训练。

结果显示，这种方法能够将语言建模的性能提升最多6%，将训练收敛速度加快40%，并增强模型在下游任务中的推理能力。其效果甚至超过了在自然文本上进行预预训练的基线模型。

突破语言桎梏：用神经细胞自动机预训练大模型，性能提升6%，推理能力增强

论文标题：Training Language Models via Neural Cellular Automata
论文地址：https://arxiv.org/pdf/2603.10055
博客：https://hanseungwook.github.io/blog/nca-pre-pre-training/

核心假设：结构重于语义

本文的核心假设是：语言之所以适合用于预训练，关键可能并不在于其语义，而在于它所具备的复杂结构。如果这一点成立，那么那些同样具有丰富结构、但并非语言形式的数据，理论上也可能被用来训练智能系统。

基于此，研究提出利用NCA生成合成的、非语言数据，用于对大语言模型进行预预训练。这是一种分阶段的训练范式：模型先学习NCA序列的结构，然后在自然语言语料库上预训练，最后进行下游任务微调。

突破语言桎梏：用神经细胞自动机预训练大模型，性能提升6%，推理能力增强

神经细胞自动机：一种结构化数据源

NCA数据具有丰富的时空结构，其统计特性（如重尾分布）在某些方面与自然语言相似，同时又可控且易于大规模、低成本生成。

NCA可以看作是对“康威生命游戏”等经典细胞自动机的一种推广：它通过神经网络来定义系统的局部演化规则，从而能够生成极其多样化的数据分布。这种机制可以产生任意规模的长程时空模式，并呈现出与自然数据相似的统计规律。

突破语言桎梏：用神经细胞自动机预训练大模型，性能提升6%，推理能力增强

在这种框架下，每一个随机初始化的神经网络都对应一套独特的演化规则，从而在网格上产生丰富多样的时空动态。从简单的固定模式到随时间演化的复杂结构，NCA能呈现出极为丰富的动态形态谱系。

突破语言桎梏：用神经细胞自动机预训练大模型，性能提升6%，推理能力增强

训练方式与关键能力

这些NCA的演化轨迹会被离散化为序列（通过类似视觉Transformer的图块化方式处理），随后输入到一个标准Transformer中，通过下一token预测任务进行训练。

关键在于：由于每条序列都对应着一条独特的潜在演化规则，模型要想正确预测后续状态，就必须在上下文中推断出这条规则。而这种在上下文中推断并应用规则的能力，正是语言模型中许多核心推理能力的基础。

实验结果：性能全面超越

在相同的token预算（1.64亿）下，使用NCA进行预预训练的模型，其表现优于以下几种方案：
* 从零开始训练；
* 使用自然语言数据（C4语料库）进行预预训练；
* 使用其他合成数据（如Dyck括号语言）进行预预训练。

这种优势在网页文本、数学以及代码任务上均得到体现。提升不仅体现在更快的收敛速度上，还体现在最终达到更低的困惑度（perplexity），即更强的最终性能。

突破语言桎梏：用神经细胞自动机预训练大模型，性能提升6%，推理能力增强

更重要的是，这些在语言建模上的性能提升，能够有效迁移到真实的推理基准测试中：

突破语言桎梏：用神经细胞自动机预训练大模型，性能提升6%，推理能力增强

更令人惊讶的发现：效率优于规模

研究发现，在相同数据规模下，非语言的NCA数据表现反而优于自然语言数据。为此，作者进一步测试：如果给自然语言数据（C4）大约10倍的数据量（16亿tokens），而NCA仍保持1.64亿tokens，结果会如何？

实验表明，即便在数据规模明显劣势的情况下，NCA训练的模型依然表现更佳：
* 收敛速度快1.4倍；
* 最终困惑度降低约5%。

1.64亿tokens的自动机数据，击败了16亿tokens的自然语言。

突破语言桎梏：用神经细胞自动机预训练大模型，性能提升6%，推理能力增强

作者认为，这种差异反映了不同数据源所教会模型的能力本质不同。在相对较小的规模下，自然语言数据主要让模型学到的是浅层、局部的统计模式。而每一条NCA序列都迫使模型进行上下文规则推断，并在预测中一致地应用该规则。相比于自然语言中大量重复的模式，NCA数据在每个token上提供了更多样、更“纯粹”的函数结构学习信号，从而更高效地帮助模型构建可迁移的通用表示能力。

驱动迁移的关键因素

研究进一步分析了是什么驱动了从NCA到语言任务的能力迁移：

注意力层是核心载体：重新初始化实验表明，注意力层承载了最具可迁移性的计算原语。而MLP层更多编码领域特定知识，可迁移性较弱。
复杂度需要匹配：最优的NCA复杂度随应用领域变化。代码任务受益于较简单的动态规则，而数学和网页文本任务则偏好更复杂的结构。这为针对特定领域定制化训练提供了新手段。
结构，而非语义：NCA数据完全不包含语言内容，却能训练模型跟踪长程依赖并推断潜在规则，这些正是语言理解与推理所需的核心能力。
效率优于规模：更多的合成数据并不一定更好。相比单纯增加数据量，校准数据生成机制的复杂度更为关键，使得用更少计算资源实现高效训练成为可能。

更纯粹的训练信号

在token规模较小时，自然语言预训练容易让模型依赖语义捷径和词语共现先验来完成预测，而非学习深层的推理结构。相比之下，NCA序列中完全不存在这样的语义捷径，迫使模型从数据本身的结构中学习，从而可能提供了更纯粹、更高效的训练信号。

每一条 NCA 演化轨迹都由一条隐藏的状态转移规则生成，该规则源自一个随机采样的神经网络。模型必须仅依靠上下文信息来推断这条规则。由于序列本身不包含任何语义内容，每个 token 的预测都迫使模型执行上下文规则推断：观察序列 → 假设潜在规则 → 在后续预测中持续应用该规则。

这一过程实质上复现了语言模型的一项核心能力：上下文学习。

此外，NCA 的规则来源于一个可计算函数的通用类别，其中部分规则甚至可以实现图灵完备系统。因此，规则分布的空间极其庞大，无法通过简单记忆来覆盖。模型被迫学习一种通用的规则推断机制，而非记忆特定的规则实例。

实验结果支持了这一观点：最具可迁移性的结构主要存在于注意力层，而非 MLP 层。已有研究表明，上下文学习能力的涌现与“归纳头”的形成密切相关。归纳头是一种注意力电路，能够从序列前部识别模式并将其复制应用到后续位置。

而 NCA 的预训练过程恰恰只奖励这种行为，因此它很可能在正式的语言训练开始之前，就更早、更稳固地促成了这类关键注意力电路的形成。

超越“一刀切”的训练方式

这项研究为语言模型训练引入了一个全新的控制维度。过去，训练数据的分布通常被视为既定条件；而现在，我们可以通过调节合成数据的结构，使其更好地匹配特定目标领域的需求。

例如，针对代码任务，可以采用更简单的 NCA 规则；而在基因序列建模等需要捕捉长程依赖的场景中，则可以设计具有更丰富长程动态结构的规则。

这一方向的长期愿景是：让基础模型首先通过完全合成的数据获得坚实的推理能力，然后再通过一小部分精心筛选的自然语言语料来学习语义。

这样一来，我们或许能够构建出一种新的模型体系，它具备强大的推理能力，却不会在初始阶段就继承人类文本中固有的各种偏见。

因此，问题已不再是“合成预训练是否可行”，而是“它究竟能走多远”。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/25701

突破语言桎梏：用神经细胞自动机预训练大模型，性能提升6%，推理能力增强

核心假设：结构重于语义

神经细胞自动机：一种结构化数据源

训练方式与关键能力

实验结果：性能全面超越

更令人惊讶的发现：效率优于规模

驱动迁移的关键因素

更纯粹的训练信号

超越“一刀切”的训练方式

相关推荐

PyTorch torch.compile性能突破：LayerNorm与RMSNorm内核优化，GPU性能提升至SOTA水平

尤洋教授深度剖析：算力转化瓶颈与AGI突破路径

异构智能体协同强化学习：打破模型孤岛，实现双向互学与高效部署

NCCLbpf：用eBPF为GPU集群通信插上安全与性能的双翼，破解AI训练可靠性难题

DeepSeek突破残差连接瓶颈：流形约束超连接架构让千亿参数模型训练更稳定