INTELLECT-3：开源RL技术栈引领大规模强化学习新范式

2025年12月10日下午12:11 • AI产业动态 • 阅读 98

近日，Prime Intellect正式发布了INTELLECT-3模型，这是一款拥有106B参数的混合专家（Mixture-of-Experts）架构模型，基于其自研的强化学习技术栈进行训练。该模型在数学、代码、科学和推理等多个基准测试中取得了同规模模型中的最佳表现，甚至超越了部分参数更大的前沿模型。更重要的是，Prime Intellect将完整的训练流程——包括模型权重、训练框架、数据集、RL环境和评测体系——全部开源，旨在推动大规模强化学习研究的普及与发展。

INTELLECT-3的技术架构基于GLM 4.5 Air进行了监督微调（SFT）和强化学习训练。其核心创新在于采用了全分布式的训练范式，这在长时序智能体rollout中至关重要。研究团队在开发上一代INTELLECT-2时就已经认识到，RL的未来必然是分布式的，即始终处于轻微off-policy状态，这是避免速度瓶颈、真正扩大训练规模的唯一途径。

在基准测试方面，INTELLECT-3展现出了卓越的性能。在数学推理任务中，它能够处理复杂的多步证明问题；在代码生成方面，它不仅能生成功能正确的代码，还能理解上下文需求进行适应性调整；在科学推理领域，它表现出对跨学科知识的整合能力；在逻辑推理测试中，它展现了强大的演绎和归纳能力。这些成绩的取得，得益于其精心设计的训练框架和多样化的环境设置。

训练框架的核心是PRIME-RL，这是Prime Intellect自研的分布式RL框架。该框架支持监督微调和大规模MoE模型的强化学习，与Verifiers环境深度整合，形成了从合成数据生成、监督微调、强化学习到评估的完整后训练体系。PRIME-RL的全分布式特性使其能够在64个互联节点上的512张NVIDIA H200 GPU上高效运行，实现了前所未有的训练规模。

过去六个月，研究团队进行了大量关于性能、稳定性和大规模效率的消融实验。这些实验不仅优化了训练流程，还验证了分布式架构在大规模RL训练中的可行性。Prime Intellect计划在即将上线的Lab平台提供托管式PRIME-RL，让研究人员无需处理复杂的基础设施就能进行大规模RL训练，这将显著降低RL研究的门槛。

训练环境的构建同样体现了技术创新。INTELLECT-3的训练环境由Verifiers库构建，并托管于Environments Hub——这是Prime Intellect面向社区的RL环境与评测中心。Verifiers作为领先的开源工具，提供了模块化、可扩展的组件，让复杂环境逻辑能够以简洁方式描述，同时保持极高性能与吞吐。

为了支持强化学习，Prime Intellect大幅扩展并升级了自研的Sandboxes基础设施。在几千条并发rollout中安全执行外部代码是一个重大挑战，需要具备亚秒级启动、毫秒级执行延迟的容器编排层。Prime Sandboxes通过绕过Kubernetes控制面板，直接与pod通信，实现了接近本地进程的延迟，即使在大规模并发下也能在10秒内启动，每个节点可稳定运行数百个隔离沙箱。

算力调度方面，研究团队在64个互联节点上部署了512张NVIDIA H200 GPU，面临的最大工程挑战是如何在可能出现硬件故障的分布式系统中保持确定性与同步。解决方案包括：使用Ansible进行基础设施即代码管理、自动发现硬件并进行InfiniBand预检；通过Slurm + cgroup v2确保任务干净退出；采用Lustre提供高吞吐训练I/O，NVMe NFS作为快速元数据存储；通过DCGM + Prometheus监控系统实现快速问题发现和节点管理。

训练方案分为两个主要阶段：基于GLM-4.5-Air的监督微调，以及大规模RL训练。整个训练过程持续两个月，涵盖了数学、代码、科学、逻辑、深度研究、软件工程等多样化RL环境。这些环境的设计旨在全面提升模型的推理与智能体能力，所有环境均已公开在Environments Hub上，为社区研究提供了宝贵资源。

展望未来，Prime Intellect的工作重点包括三个方面：首先是扩展智能体式RL，通过更强调智能体环境训练，在更多任务上获得性能提升；其次是丰富RL环境，Environments Hub目前已拥有500+任务，涵盖研究、电脑使用、定理证明、自动化和专业领域，下一步是让RL覆盖更多高质量的社区任务；最后是长时序智能体研究，让模型能够自我管理上下文，实现真正可通过RL训练的长时序行为。

INTELLECT-3的发布不仅展示了一个高性能的MoE模型，更重要的是它代表了一种开放的研究范式。通过将完整的技术栈开源，Prime Intellect正在构建一个开放的超级智能生态系统，让训练前沿模型的能力不再局限于少数大型科技公司。这种开放协作的模式有望加速AI技术的发展，推动整个行业向更加民主化、可访问的方向演进。随着更多研究者和开发者能够接触和使用这些先进工具，我们有望看到RL技术在更多领域的创新应用和突破性进展。

— 图片补充 —