此次正式发布,Ring-1T 完成了完整的训练流程,包括继续通过大规模可验证奖励强化学习(RLVR)进一步增强推理能力,并结合人类反馈强化学习(RLHF)提升通用表现,模型整体能力更均衡。
在高难度 IMO 测试中,Ring-1T 接入多智能体框架 AWorld,首次尝试便解出第1、3、4、5 题—— 4 题全对,达到 IMO 银牌水平,成为首个在国际奥数赛题上取得获奖级成绩的开源系统。
此次正式发布,Ring-1T 完成了完整的训练流程,包括继续通过大规模可验证奖励强化学习(RLVR)进一步增强推理能力,并结合人类反馈强化学习(RLHF)提升通用表现,模型整体能力更均衡。
在高难度 IMO 测试中,Ring-1T 接入多智能体框架 AWorld,首次尝试便解出第1、3、4、5 题—— 4 题全对,达到 IMO 银牌水平,成为首个在国际奥数赛题上取得获奖级成绩的开源系统。