循环语言模型Ouro:在预训练中构建推理能力的新范式

在人工智能领域,大型语言模型(LLM)的发展正面临一个关键瓶颈:传统的训练范式通常将复杂的推理能力留待微调阶段培养,而未能充分利用预训练数据中的潜在逻辑结构。这种分离不仅限制了模型在基础阶段的认知深度,也增加了后期优化的成本和不确定性。近日,字节Seed团队联合多家研究机构推出的Ouro(循环语言模型,LoopLM),通过创新的架构设计和训练策略,成功将推理能力直接嵌入预训练过程,为LLM的发展开辟了一条新路径。

Ouro的核心突破在于其“循环语言模型”架构,该设计灵感来源于“通用Transformer”,但进行了关键性革新。传统Transformer模型通过固定层数的前向传播处理输入,而Ouro采用了一个由N个共享权重层组成的“层堆栈”,在模型前向传播过程中,这个共享层堆栈会被循环应用多次,形成多个“循环步骤”。这种设计巧妙地将模型的计算规模从“参数数量”解耦到了“计算深度”,使得模型能够在固定参数预算内实现“动态计算”。

循环语言模型Ouro:在预训练中构建推理能力的新范式

更值得关注的是,Ouro架构集成了学习型“退出门”机制,实现了自适应计算能力。在处理输入时,模型能够根据复杂度动态分配计算资源:简单输入可能在较少循环步骤后提前退出以节省资源,而复杂输入则会自然获得更多迭代次数进行深度处理。这种机制不仅提升了计算效率,更在本质上模拟了人类认知中的注意力分配过程。研究者将这种迭代重用视为一种“潜在推理”——与思维链(CoT)在外部生成显式文本步骤不同,Ouro在模型的内部隐藏状态中构建了“潜在思想链”,每一次循环都是对表征的逐步精炼。

循环语言模型Ouro:在预训练中构建推理能力的新范式

在技术实现层面,Ouro通过三个关键创新确保了其有效性:首先,在潜在空间中进行迭代计算,避免了显式文本生成的效率损失;其次,采用熵正则化目标实现学习型深度分配,使模型能够自主探索最优计算深度;最后,扩展至7.7T tokens的大规模数据训练,为深度推理能力的形成提供了充足养分。这些设计共同作用,使得Ouro能够在预训练阶段直接学习和构建推理能力,而非仅依赖后期微调。

性能评估结果令人印象深刻。Ouro的1.4B和2.6B参数规模模型,在几乎所有基准测试中分别达到了与4B和8B标准Transformer相当的性能,实现了2-3倍的参数效率提升。特别是在高级推理基准测试中,Ouro-Thinking系列模型与Qwen3、DeepSeek-Distill等强大基线对比显示,Ouro-1.4B-Thinking R4的性能可与4B规模模型媲美,而Ouro-2.6B-Thinking R4在多个数学与科学数据集上的表现达到或超越了8B规模模型。

循环语言模型Ouro:在预训练中构建推理能力的新范式

深入分析表明,Ouro的性能提升并非源于知识存储量的简单增加,而是得益于其更高效的知识操控与推理能力。进一步研究发现,Ouro的潜在推理过程相比标准LLM,更接近真实的人类推理机制。这种内在一致性也带来了额外益处:LoopLM架构在HEx-PHI基准上显著降低了有害性,且随着循环步数增加,模型的安全性进一步提升。与传统的CoT方法产生的“事后合理化解释”不同,Ouro的迭代潜变量更新机制产生的是因果一致的推理过程。

训练流程的设计同样体现了研究团队的深思熟虑。Ouro的训练是一个多阶段过程,总共使用7.7T tokens的数据。流程始于通用预热阶段,随后是使用3T token的初始稳定训练阶段,之后模型通过“upcycling”策略分支为1.4B和2.6B两种参数规模的变体。

循环语言模型Ouro:在预训练中构建推理能力的新范式

两种变体均独立经历后续四个相同的训练阶段:第二次稳定训练(3T token)、CT退火(1.4T token)、用于长上下文的LongCT(20B token)以及中途训练(300B token)。这个过程产生了Ouro-1.4B和Ouro-2.6B两个基础模型。最后,为了强化特定能力,模型还额外经历了一个专门的推理监督微调阶段,以创造出专注于推理的Ouro-Thinking系列模型。

在训练稳定性方面,团队发现最初使用8个循环步骤会导致损失尖峰等不稳定问题,因此在后续阶段将循环步骤减少到4,以此在计算深度和稳定性之间取得了平衡。为了让模型学会何时“提前退出”,训练流程采用了新颖的两阶段目标。

循环语言模型Ouro:在预训练中构建推理能力的新范式

循环语言模型架构的训练阶段(左图)展示了其核心机制:在训练过程中,模型使用共享参数的N层堆叠结构,并执行n个循环步骤(R=1到R=n)。在每个循环步骤i,一个退出门预测退出概率pᵢ,而语言建模头Lᵢ则计算对应的任务损失。训练目标函数结合了所有循环步骤的期望任务损失,并加入熵正则化项H(p₁,…,pₙ),以鼓励模型探索不同的计算深度。

循环语言模型Ouro:在预训练中构建推理能力的新范式

推理阶段(右图)则体现了其自适应计算的实用性:在推理时,模型可根据由退出概率计算得到的累计分布函数(CDF)提前终止。当超过设定阈值时,模型将在第i个循环步骤停止,从而实现为复杂输入分配更多循环步数,同时在简单输入上保持高效推理。图中的虚线表示模型在提前退出后可能被跳过的后续步骤。

循环语言模型Ouro:在预训练中构建推理能力的新范式

Ouro的出现标志着LLM发展进入了一个新阶段。在数据增长逐渐放缓、计算资源日益珍贵的背景下,通过架构创新提升参数效率变得至关重要。Ouro不仅证明了在预训练阶段构建推理能力的可行性,更提供了一种可扩展的新型模型范式。其循环架构和自适应计算机制为未来模型设计提供了宝贵思路,特别是在边缘计算、实时应用等资源受限场景中具有巨大潜力。随着研究的深入,这种“潜在推理”范式有望推动人工智能向更高效、更类人的认知方向发展。


关注“鲸栖”小程序,掌握最新AI资讯

本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/8242

(0)
上一篇 2025年11月4日 上午11:15
下一篇 2025年11月4日 上午11:27

相关推荐

  • 从技术突破到生态重塑:快手AI战略的产业级价值兑现路径分析

    2025年被广泛视为AI技术从实验室走向产业应用的关键转折点。在这一历史性节点上,以多模态生成、智能体(Agent)为代表的AI技术正加速探索更高效、更贴合实际需求的应用形态。其中最具战略意义的趋势在于:AI技术正在从单点创新迈向系统性、产业级价值的全面兑现。对于所有致力于数字化转型的企业而言,这不仅是一个技术命题,更是一个关乎未来竞争力的核心战略课题。 在…

    2025年11月3日
    300
  • LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

    当前,基于Transformer架构的DiT等扩散模型在视频生成领域取得了显著进展,生成效果逐渐逼近真实拍摄水平。然而,这些模型普遍面临推理时间长、算力成本高、生成速度难以提升的瓶颈问题。随着视频生成长度增加和分辨率提高,这一瓶颈已成为制约视频创作体验的关键障碍。 来自中国联通数据科学与人工智能研究院的研究团队提出了LeMiCa(Lexicographic …

    2025年11月26日
    400
  • 效率革命:微博VibeThinker以15亿参数重塑大模型竞争格局

    在AI行业普遍陷入“参数崇拜”的背景下,微博AI近期发布的VibeThinker开源大模型,以仅15亿参数的轻量级架构,在国际顶级数学竞赛基准测试中击败了参数量高达6710亿的DeepSeek R1模型,这一突破性成果不仅挑战了传统技术评价标准,更可能引发AI产业从“规模竞赛”向“效率革命”的深刻转型。 ### 技术范式突破:小模型如何实现复杂推理能力 长期…

    2025年11月18日
    200
  • 自动驾驶行业效率革命:AI驱动精益生产模式深度解析

    在自动驾驶技术快速迭代的2025年,行业竞争已从单纯的技术突破转向研发效率的全面比拼。L2级辅助驾驶搭载量呈现爆发式增长,Momenta在城市NOA市场保持头部地位,地平线征程芯片量产突破1000万片大关,元戎启行方案量产车辆超过13万辆。与此同时,小鹏和理想等企业开始向L4级自动驾驶迈进。在更前沿的Robotaxi领域,小马智行计划年内落地千台规模车队,文…

    2025年10月31日
    100
  • ReCode:以递归代码生成统一规划与执行,开启智能体决策粒度自由切换新范式

    在人工智能智能体领域,决策粒度问题长期困扰着研究者与实践者。现有主流框架往往被束缚在固定的抽象层级——要么如ReAct智能体般陷入细粒度动作的泥潭,缺乏宏观视野;要么如规划-执行分离架构般将高层规划与底层动作硬性割裂,丧失动态调整能力。这种局限严重制约了智能体在复杂、开放环境中的适应性与泛化表现。近期,DeepWisdom研究团队在论文《ReCode: Un…

    2025年12月4日
    300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注