智能体训练
-
清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的’思维崩塌’难题
论文第一作者为清华大学在读博士生魏彤,研究方向为大模型智能体与强化学习,导师为兴军亮、史元春;共同一作为腾讯杨一君;合作者为北京大学卢宗青;通讯作者为叶德珩。 基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Reward, RLVR)能够有效提升大语言模型(LLMs)在思维链(Chain-of-Thou…
-
阿里开源Qwen3-Coder-Next:3B激活参数硬刚Sonnet4.5,智能体训练范式颠覆编程AI
今天凌晨,阿里开源了最新的编程模型 Qwen3-Coder-Next。其最引人注目的特点在于:一个仅激活 30亿参数 的模型,在编程智能体任务上达到了与 Claude Sonnet 4.5 等顶级模型相当的水平。 Qwen团队在同步公开的技术报告中,提出了一个反行业直觉的核心结论: “扩展智能体训练规模,而非仅仅扩大模型规模,才是提升现实世界编码智能体能力的…
-
SmartSnap:让AI智能体变身“自证质检员”,1.5张截图完成结项报告的革命性训练方法
Youtu-Agent团队 投稿 量子位 | 公众号 QbitAI 在学校里做实验时,老师如何确认学生完成了实验并达到了预期效果?最常见的做法是要求学生提交一份实验报告。 那么,当AI智能体执行一项任务后,我们如何检验其执行效果是否达标?一个可行的思路是:让AI在执行任务的同时,主动收集并提交一份“证据链报告”。智能体可以边执行边取证,自我检查是否符合预期,…
-
阿里开源ROCK:构建智能体规模化训练的“实战演练场”,打通Agentic AI落地关键环节
在人工智能技术快速演进的当下,大语言模型正经历从静态文本生成到动态环境交互的深刻范式转变。最前沿的模型已进化为能够与外部环境深度交互的Agentic模型,这不仅代表技术层面的进步,更标志着AI应用场景的根本性扩展。当前几乎所有SOTA级模型都具备了多轮交互能力,能够通过工具调用、代码执行、外部API调用等方式与环境进行实质性交互。简单来说,模型仅“能说”已无…
