循环语言模型Ouro:在预训练中构建推理能力的新范式

在人工智能领域,大型语言模型(LLM)的发展正面临一个关键瓶颈:传统的训练范式通常将复杂的推理能力留待微调阶段培养,而未能充分利用预训练数据中的潜在逻辑结构。这种分离不仅限制了模型在基础阶段的认知深度,也增加了后期优化的成本和不确定性。近日,字节Seed团队联合多家研究机构推出的Ouro(循环语言模型,LoopLM),通过创新的架构设计和训练策略,成功将推理能力直接嵌入预训练过程,为LLM的发展开辟了一条新路径。

Ouro的核心突破在于其“循环语言模型”架构,该设计灵感来源于“通用Transformer”,但进行了关键性革新。传统Transformer模型通过固定层数的前向传播处理输入,而Ouro采用了一个由N个共享权重层组成的“层堆栈”,在模型前向传播过程中,这个共享层堆栈会被循环应用多次,形成多个“循环步骤”。这种设计巧妙地将模型的计算规模从“参数数量”解耦到了“计算深度”,使得模型能够在固定参数预算内实现“动态计算”。

循环语言模型Ouro:在预训练中构建推理能力的新范式

更值得关注的是,Ouro架构集成了学习型“退出门”机制,实现了自适应计算能力。在处理输入时,模型能够根据复杂度动态分配计算资源:简单输入可能在较少循环步骤后提前退出以节省资源,而复杂输入则会自然获得更多迭代次数进行深度处理。这种机制不仅提升了计算效率,更在本质上模拟了人类认知中的注意力分配过程。研究者将这种迭代重用视为一种“潜在推理”——与思维链(CoT)在外部生成显式文本步骤不同,Ouro在模型的内部隐藏状态中构建了“潜在思想链”,每一次循环都是对表征的逐步精炼。

循环语言模型Ouro:在预训练中构建推理能力的新范式

在技术实现层面,Ouro通过三个关键创新确保了其有效性:首先,在潜在空间中进行迭代计算,避免了显式文本生成的效率损失;其次,采用熵正则化目标实现学习型深度分配,使模型能够自主探索最优计算深度;最后,扩展至7.7T tokens的大规模数据训练,为深度推理能力的形成提供了充足养分。这些设计共同作用,使得Ouro能够在预训练阶段直接学习和构建推理能力,而非仅依赖后期微调。

性能评估结果令人印象深刻。Ouro的1.4B和2.6B参数规模模型,在几乎所有基准测试中分别达到了与4B和8B标准Transformer相当的性能,实现了2-3倍的参数效率提升。特别是在高级推理基准测试中,Ouro-Thinking系列模型与Qwen3、DeepSeek-Distill等强大基线对比显示,Ouro-1.4B-Thinking R4的性能可与4B规模模型媲美,而Ouro-2.6B-Thinking R4在多个数学与科学数据集上的表现达到或超越了8B规模模型。

循环语言模型Ouro:在预训练中构建推理能力的新范式

深入分析表明,Ouro的性能提升并非源于知识存储量的简单增加,而是得益于其更高效的知识操控与推理能力。进一步研究发现,Ouro的潜在推理过程相比标准LLM,更接近真实的人类推理机制。这种内在一致性也带来了额外益处:LoopLM架构在HEx-PHI基准上显著降低了有害性,且随着循环步数增加,模型的安全性进一步提升。与传统的CoT方法产生的“事后合理化解释”不同,Ouro的迭代潜变量更新机制产生的是因果一致的推理过程。

训练流程的设计同样体现了研究团队的深思熟虑。Ouro的训练是一个多阶段过程,总共使用7.7T tokens的数据。流程始于通用预热阶段,随后是使用3T token的初始稳定训练阶段,之后模型通过“upcycling”策略分支为1.4B和2.6B两种参数规模的变体。

循环语言模型Ouro:在预训练中构建推理能力的新范式

两种变体均独立经历后续四个相同的训练阶段:第二次稳定训练(3T token)、CT退火(1.4T token)、用于长上下文的LongCT(20B token)以及中途训练(300B token)。这个过程产生了Ouro-1.4B和Ouro-2.6B两个基础模型。最后,为了强化特定能力,模型还额外经历了一个专门的推理监督微调阶段,以创造出专注于推理的Ouro-Thinking系列模型。

在训练稳定性方面,团队发现最初使用8个循环步骤会导致损失尖峰等不稳定问题,因此在后续阶段将循环步骤减少到4,以此在计算深度和稳定性之间取得了平衡。为了让模型学会何时“提前退出”,训练流程采用了新颖的两阶段目标。

循环语言模型Ouro:在预训练中构建推理能力的新范式

循环语言模型架构的训练阶段(左图)展示了其核心机制:在训练过程中,模型使用共享参数的N层堆叠结构,并执行n个循环步骤(R=1到R=n)。在每个循环步骤i,一个退出门预测退出概率pᵢ,而语言建模头Lᵢ则计算对应的任务损失。训练目标函数结合了所有循环步骤的期望任务损失,并加入熵正则化项H(p₁,…,pₙ),以鼓励模型探索不同的计算深度。

循环语言模型Ouro:在预训练中构建推理能力的新范式

推理阶段(右图)则体现了其自适应计算的实用性:在推理时,模型可根据由退出概率计算得到的累计分布函数(CDF)提前终止。当超过设定阈值时,模型将在第i个循环步骤停止,从而实现为复杂输入分配更多循环步数,同时在简单输入上保持高效推理。图中的虚线表示模型在提前退出后可能被跳过的后续步骤。

循环语言模型Ouro:在预训练中构建推理能力的新范式

Ouro的出现标志着LLM发展进入了一个新阶段。在数据增长逐渐放缓、计算资源日益珍贵的背景下,通过架构创新提升参数效率变得至关重要。Ouro不仅证明了在预训练阶段构建推理能力的可行性,更提供了一种可扩展的新型模型范式。其循环架构和自适应计算机制为未来模型设计提供了宝贵思路,特别是在边缘计算、实时应用等资源受限场景中具有巨大潜力。随着研究的深入,这种“潜在推理”范式有望推动人工智能向更高效、更类人的认知方向发展。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/8242

(0)
上一篇 2025年11月4日 上午11:15
下一篇 2025年11月4日 上午11:27

相关推荐

  • Meta 的 AI 部门突然“瘦身”:600 人收到离职预警,老牌团队 FAIR 成了刀口下的“肥肉”。

    Meta AI大裁员,要从超级智能实验室裁掉600人! 操刀人是上个月才到任的“首席 AI 官”亚历山大·王。他给出的理由很直接:层级太多、流程太冗,得把组织“砍”成更灵活的突击队。太平洋时间周三清晨 7 点前,美国员工会收到邮件,知道自己有没有被“优化”掉。 与血流成河的 FAIR、产品组、基础设施组形成鲜明对比的,是去年才成立的 TBD Lab——不仅毫…

    2025年10月23日
    19600
  • 大模型议会:多模型协同决策如何重塑AI信息处理范式

    在信息爆炸的时代,人类获取知识的模式正经历着深刻变革。从传统的线性阅读到如今的碎片化吸收,再到AI辅助的即时总结,效率已成为内容消费的核心驱动力。这种转变不仅体现在普通用户的行为中,连AI领域的顶尖专家也深度参与其中。前OpenAI联合创始人、特斯拉AI总监Andrej Karpathy近期公开表示已“养成用LLM阅读一切的习惯”,这标志着AI工具正从辅助角…

    2025年11月23日
    7500
  • Hinton末日警告:AI万亿豪赌与人类生存危机——科技巨头盈利逻辑下的失业潮与超级智能失控风险

    AI教父Geoffrey Hinton近期在接受彭博社专访时,发出了迄今为止最严峻的警告:超级智能AI不仅将引发大规模失业,甚至可能威胁人类生存。这场访谈如同一记警钟,揭示了科技巨头在万亿美元AI竞赛中暗藏的盈利逻辑与社会风险。Hinton直言,科技公司要实现AI投资的回报,唯一途径就是取代人类劳动——这不仅是经济问题,更是文明存续的挑战。 Hinton的警…

    2025年11月4日
    7800
  • ATEC2025线下挑战赛:全户外自主机器人极限测试,揭示具身智能四大技术瓶颈

    近日,第五届ATEC科技精英赛线下赛在香港中文大学圆满落幕。作为全球首个聚焦实景极端环境的人工智能与机器人赛事,本届比赛首次将机器人从实验室完全迁移至户外复杂场景,在无遥操作干预的前提下,要求机器人自主完成一系列高难度任务。这不仅是对当前机器人技术极限的公开检验,更是具身智能发展进程中的一次里程碑式事件。 比赛设置了垃圾分拣、自主浇花、定向越野和吊桥穿越四大…

    2025年12月8日
    8100
  • 自动驾驶行业效率革命:AI驱动精益生产模式深度解析

    在自动驾驶技术快速迭代的2025年,行业竞争已从单纯的技术突破转向研发效率的全面比拼。L2级辅助驾驶搭载量呈现爆发式增长,Momenta在城市NOA市场保持头部地位,地平线征程芯片量产突破1000万片大关,元戎启行方案量产车辆超过13万辆。与此同时,小鹏和理想等企业开始向L4级自动驾驶迈进。在更前沿的Robotaxi领域,小马智行计划年内落地千台规模车队,文…

    2025年10月31日
    7500

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注