蚂蚁Ring-1T正式登场,万亿参数思考模型,数学能力对标IMO银牌

此次正式发布,Ring-1T 完成了完整的训练流程,包括继续通过大规模可验证奖励强化学习(RLVR)进一步增强推理能力,并结合人类反馈强化学习(RLHF)提升通用表现,模型整体能力更均衡。
在高难度 IMO 测试中,Ring-1T 接入多智能体框架 AWorld,首次尝试便解出第1、3、4、5 题—— 4 题全对,达到 IMO 银牌水平,成为首个在国际奥数赛题上取得获奖级成绩的开源系统。

蚂蚁Ring-1T正式登场,万亿参数思考模型,数学能力对标IMO银牌

上一篇:

下一篇:

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注