智能体训练

清华北大腾讯联合研究：GTR框架破解VLM智能体训练中的’思维崩塌’难题

论文第一作者为清华大学在读博士生魏彤，研究方向为大模型智能体与强化学习，导师为兴军亮、史元春；共同一作为腾讯杨一君；合作者为北京大学卢宗青；通讯作者为叶德珩。基于可验证奖励的强化学习（Reinforcement Learning with Verifiable Reward, RLVR）能够有效提升大语言模型（LLMs）在思维链（Chain-of-Thou…

2026年3月13日

111000

AI产业动态

阿里开源Qwen3-Coder-Next：3B激活参数硬刚Sonnet4.5，智能体训练范式颠覆编程AI

今天凌晨，阿里开源了最新的编程模型 Qwen3-Coder-Next。其最引人注目的特点在于：一个仅激活 30亿参数的模型，在编程智能体任务上达到了与 Claude Sonnet 4.5 等顶级模型相当的水平。 Qwen团队在同步公开的技术报告中，提出了一个反行业直觉的核心结论： “扩展智能体训练规模，而非仅仅扩大模型规模，才是提升现实世界编码智能体能力的…

2026年2月4日

178000

AI产业动态

SmartSnap：让AI智能体变身“自证质检员”，1.5张截图完成结项报告的革命性训练方法

Youtu-Agent团队投稿量子位 | 公众号 QbitAI 在学校里做实验时，老师如何确认学生完成了实验并达到了预期效果？最常见的做法是要求学生提交一份实验报告。那么，当AI智能体执行一项任务后，我们如何检验其执行效果是否达标？一个可行的思路是：让AI在执行任务的同时，主动收集并提交一份“证据链报告”。智能体可以边执行边取证，自我检查是否符合预期，…

2026年1月10日

147000

AI产业动态

阿里开源ROCK：构建智能体规模化训练的“实战演练场”，打通Agentic AI落地关键环节

在人工智能技术快速演进的当下，大语言模型正经历从静态文本生成到动态环境交互的深刻范式转变。最前沿的模型已进化为能够与外部环境深度交互的Agentic模型，这不仅代表技术层面的进步，更标志着AI应用场景的根本性扩展。当前几乎所有SOTA级模型都具备了多轮交互能力，能够通过工具调用、代码执行、外部API调用等方式与环境进行实质性交互。简单来说，模型仅“能说”已无…

2025年11月26日

200000