INTELLECT-3:开源RL技术栈引领大规模强化学习新范式

INTELLECT-3:开源RL技术栈引领大规模强化学习新范式

近日,Prime Intellect正式发布了INTELLECT-3模型,这是一款拥有106B参数的混合专家(Mixture-of-Experts)架构模型,基于其自研的强化学习技术栈进行训练。该模型在数学、代码、科学和推理等多个基准测试中取得了同规模模型中的最佳表现,甚至超越了部分参数更大的前沿模型。更重要的是,Prime Intellect将完整的训练流程——包括模型权重、训练框架、数据集、RL环境和评测体系——全部开源,旨在推动大规模强化学习研究的普及与发展。

INTELLECT-3的技术架构基于GLM 4.5 Air进行了监督微调(SFT)和强化学习训练。其核心创新在于采用了全分布式的训练范式,这在长时序智能体rollout中至关重要。研究团队在开发上一代INTELLECT-2时就已经认识到,RL的未来必然是分布式的,即始终处于轻微off-policy状态,这是避免速度瓶颈、真正扩大训练规模的唯一途径。

INTELLECT-3:开源RL技术栈引领大规模强化学习新范式

在基准测试方面,INTELLECT-3展现出了卓越的性能。在数学推理任务中,它能够处理复杂的多步证明问题;在代码生成方面,它不仅能生成功能正确的代码,还能理解上下文需求进行适应性调整;在科学推理领域,它表现出对跨学科知识的整合能力;在逻辑推理测试中,它展现了强大的演绎和归纳能力。这些成绩的取得,得益于其精心设计的训练框架和多样化的环境设置。

INTELLECT-3:开源RL技术栈引领大规模强化学习新范式

INTELLECT-3:开源RL技术栈引领大规模强化学习新范式

训练框架的核心是PRIME-RL,这是Prime Intellect自研的分布式RL框架。该框架支持监督微调和大规模MoE模型的强化学习,与Verifiers环境深度整合,形成了从合成数据生成、监督微调、强化学习到评估的完整后训练体系。PRIME-RL的全分布式特性使其能够在64个互联节点上的512张NVIDIA H200 GPU上高效运行,实现了前所未有的训练规模。

INTELLECT-3:开源RL技术栈引领大规模强化学习新范式

过去六个月,研究团队进行了大量关于性能、稳定性和大规模效率的消融实验。这些实验不仅优化了训练流程,还验证了分布式架构在大规模RL训练中的可行性。Prime Intellect计划在即将上线的Lab平台提供托管式PRIME-RL,让研究人员无需处理复杂的基础设施就能进行大规模RL训练,这将显著降低RL研究的门槛。

INTELLECT-3:开源RL技术栈引领大规模强化学习新范式

训练环境的构建同样体现了技术创新。INTELLECT-3的训练环境由Verifiers库构建,并托管于Environments Hub——这是Prime Intellect面向社区的RL环境与评测中心。Verifiers作为领先的开源工具,提供了模块化、可扩展的组件,让复杂环境逻辑能够以简洁方式描述,同时保持极高性能与吞吐。

INTELLECT-3:开源RL技术栈引领大规模强化学习新范式

为了支持强化学习,Prime Intellect大幅扩展并升级了自研的Sandboxes基础设施。在几千条并发rollout中安全执行外部代码是一个重大挑战,需要具备亚秒级启动、毫秒级执行延迟的容器编排层。Prime Sandboxes通过绕过Kubernetes控制面板,直接与pod通信,实现了接近本地进程的延迟,即使在大规模并发下也能在10秒内启动,每个节点可稳定运行数百个隔离沙箱。

INTELLECT-3:开源RL技术栈引领大规模强化学习新范式

算力调度方面,研究团队在64个互联节点上部署了512张NVIDIA H200 GPU,面临的最大工程挑战是如何在可能出现硬件故障的分布式系统中保持确定性与同步。解决方案包括:使用Ansible进行基础设施即代码管理、自动发现硬件并进行InfiniBand预检;通过Slurm + cgroup v2确保任务干净退出;采用Lustre提供高吞吐训练I/O,NVMe NFS作为快速元数据存储;通过DCGM + Prometheus监控系统实现快速问题发现和节点管理。

INTELLECT-3:开源RL技术栈引领大规模强化学习新范式

训练方案分为两个主要阶段:基于GLM-4.5-Air的监督微调,以及大规模RL训练。整个训练过程持续两个月,涵盖了数学、代码、科学、逻辑、深度研究、软件工程等多样化RL环境。这些环境的设计旨在全面提升模型的推理与智能体能力,所有环境均已公开在Environments Hub上,为社区研究提供了宝贵资源。

INTELLECT-3:开源RL技术栈引领大规模强化学习新范式

展望未来,Prime Intellect的工作重点包括三个方面:首先是扩展智能体式RL,通过更强调智能体环境训练,在更多任务上获得性能提升;其次是丰富RL环境,Environments Hub目前已拥有500+任务,涵盖研究、电脑使用、定理证明、自动化和专业领域,下一步是让RL覆盖更多高质量的社区任务;最后是长时序智能体研究,让模型能够自我管理上下文,实现真正可通过RL训练的长时序行为。

INTELLECT-3的发布不仅展示了一个高性能的MoE模型,更重要的是它代表了一种开放的研究范式。通过将完整的技术栈开源,Prime Intellect正在构建一个开放的超级智能生态系统,让训练前沿模型的能力不再局限于少数大型科技公司。这种开放协作的模式有望加速AI技术的发展,推动整个行业向更加民主化、可访问的方向演进。随着更多研究者和开发者能够接触和使用这些先进工具,我们有望看到RL技术在更多领域的创新应用和突破性进展。

— 图片补充 —

INTELLECT-3:开源RL技术栈引领大规模强化学习新范式

INTELLECT-3:开源RL技术栈引领大规模强化学习新范式


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/9860

(0)
上一篇 2025年12月10日 下午12:09
下一篇 2025年12月10日 下午12:15

相关推荐

  • 突破文本桎梏:C2C通信范式如何重塑多智能体协作效率

    随着大语言模型在代码生成、数学推理、视觉理解及边缘计算等垂直领域的深度渗透,多智能体系统正成为处理复杂场景任务的关键架构。传统基于文本对话(Text-to-Text,T2T)的协作模式,虽在基础任务中表现尚可,却在面对高维语义传递时暴露出根本性缺陷:信息在文本压缩过程中大量流失、自然语言固有的模糊性导致指令歧义、以及逐token生成机制引发的通信延迟。这些瓶…

    2025年10月29日
    14600
  • AI大模型周报:阿里Qwen3.5 Plus多模态突破、谷歌Gemini 3.1 Pro推理升级、蚂蚁Ling-2.5即时模型开源

    2月16日 【开源】阿里推出最新模型 Qwen3.5 Plus,支持文本、图像和视频多模态输入。 该模型在语言理解、逻辑推理、代码生成、智能体任务、图像理解、视频理解、图形用户界面(GUI)等多种任务中表现卓越,并支持内置工具调用。详情请参见:https://help.aliyun.com/zh/model-studio/text-generation 【开…

    2026年2月23日
    6000
  • AI革命下的程序员生存指南:当代码稀疏化遇上技能焦虑,如何驾驭这场“9级大地震”?

    年末假期是总结与思考的时刻,但对于程序员而言,深入思考后可能会感到一丝不安。 近期,Andrej Karpathy 在 X 平台发布的一条推文,引发了数万程序员和从业者的强烈共鸣与热议。 Karpathy 坦言:“我从未像现在这样,感觉自己作为一名程序员如此落后。” 他指出,编程这一职业正在被彻底重构。程序员直接编写的代码越来越少,更多的工作转变为在各种工具…

    2025年12月27日
    20100
  • 工信部2025新政:新型互联网交换中心如何重塑算力网络与数据流通格局?

    工业和信息化部办公厅正式印发《关于加快推进国家新型互联网交换中心创新发展的指导意见》(工信厅信管〔2025〕67号,以下简称《指导意见》),明确提出要加快构建国家新型互联网交换中心(以下简称“交换中心”)网络体系、深化应用创新、健全监管制度,推动交换中心成为支撑新质生产力发展、建设网络强国和数字中国的核心基础设施。 这一政策的落地,标志着我国新型互联网交换中…

    AI产业动态 2026年2月20日
    6900
  • 高德空间智能:从地图导航到物理世界建模,如何重塑Robotaxi与AGI路径

    近日,一张神秘海报在科技圈引发广泛讨论,最终揭晓为高德与小鹏汽车达成合作,共同面向全球提供Robotaxi服务。这一合作不仅是高德将“空间智能+出行服务能力”整合开放的关键一步,更标志着“空间智能”这一理念从概念走向现实的重要起点。 高德此次合作背后,是其从传统地图导航向空间智能全面转型的战略深化。过去几个月,高德先后发布“小高老师”、“高德扫街榜”等产品,…

    2025年11月6日
    14300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注