强化学习

  • AI与数学的深度拥抱:国产PackingStar系统在多维亲吻数难题上实现系统性突破

    2月14日,在一个以「亲吻」命名的问题上,人工智能与数学完成了一次「深度拥抱」。 1694年,牛顿和格雷戈里在剑桥提出一个问题:在一颗中心球周围,最多能紧贴放置多少颗相同的球?这就是三维空间的「亲吻数问题」。牛顿认为答案是12,格雷戈里则认为可能是13,直到1953年,数学家才彻底证实了牛顿的猜测。当维度升高,问题迅速进入「无人区」。过去50年,亲吻数构造仅…

    2026年2月14日
    9600
  • GRPO算法赋能多智能体系统:实现复杂任务规划的革命性训练方法

    面向长时程任务的智能体系统需要具备规划、正确使用工具以及逐步执行的能力。大多数现代智能体系统依赖推理,每次组件调用都从零开始,且缺乏事先训练,这会显著增加长时程任务中任一步骤出现错误规划或错误工具调用的概率。GRPO算法能够持续训练智能体在长任务中进行规划与正确执行。一个典型的基于GRPO的智能体训练系统大致如下所示…… GRPO如何影响智能体训练: 基于组…

    2026年2月13日
    14300
  • 自适应视觉推理新突破:MoVT范式让AI学会“看图说话”与“文字思考”的智能切换

    本文介绍了复旦大学与阿里巴巴未来生活实验室的研究成果,该工作已被 ICLR 2026 接收。 当前,视觉推理方法主要衍生出两种思考模式:一种是与大型语言模型一致的纯文本思考模式;另一种是更贴近图像本身的视觉化思考模式。这两种模式在不同任务领域各有优势,但现有工作通常只专注于单一模式,未能充分利用二者之间的互补性。 为此,本文提出了 Mixture-of-Vi…

    2026年2月5日
    9100
  • DAC-RL:首个分治推理强化学习训练框架,突破链式思维局限,实现6.3%推理性能跃升

    关键词:分治推理、强化学习、测试时可扩展性、链式思维、大语言模型训练 近年来,大型语言模型(LLMs)在复杂推理任务上展现出惊人能力,尤其是基于链式思维(Chain-of-Thought, CoT) 的逐步推理方法,已成为解决数学、逻辑与编程问题的标准范式。 然而,随着问题难度提升至竞赛级别(如国际数学奥林匹克、高阶定理证明等),传统 CoT 往往显得力不从…

    2026年2月5日
    8200
  • 港科团队突破AI学术博弈:RebuttalAgent用心智理论解码审稿人意图,让反驳回复直击痛点

    面对同行评审,许多作者都有过这样的经历:明明回答了审稿人的每一个问题,态度也足够谦卑,为什么最终还是没能打动对方? 现有的通用大模型在处理这类任务时,往往陷入一种“表面礼貌”的陷阱:它们擅长生成流畅、委婉的“Thank you for your insightful comment”,却缺乏对审稿人言外之意的深度洞察,导致回复虽然客气,但缺乏直击痛点的说服力…

    2026年2月3日
    9800
  • RLVR/GRPO组内优势估计的系统性偏差:揭秘大模型训练中的隐藏陷阱

    近年来,大模型在数学推理、代码生成等任务上取得突破,其背后一个关键技术是RLVR(Reinforcement Learning with Verifiable Rewards,可验证奖励的强化学习)。 简单来说,RLVR并非让模型被动接受人工评分,而是让模型主动生成多种解法,并依据可验证的客观规则(如答案是否正确)进行自我改进。这种通过反复试错来提升性能的模…

    2026年1月30日
    22300
  • OpenAI前架构师深度剖析:AGI的关键在于模型自主突破能力,泛化问题成最大挑战

    OpenAI前研究员Jerry Tworek近日在《Unsupervised Learning》节目中分享了他对AI发展的深度见解。Jerry Tworek是OpenAI推理模型o1、o3及Codex的关键架构师,深度参与了近年AI领域的多项突破。他近期离开OpenAI,旨在探索在大型实验室框架下较难开展的研究方向。 在访谈中,Jerry探讨了多个核心议题,…

    2026年1月30日
    18900
  • 阿里ReWatch-R1:让大模型学会“回看”视频推理,基于证据链思考告别幻觉

    为什么“逐步思考”在视频推理中会失效? 在数学推理任务中,让大模型“一步一步思考”通常能显著提升性能。然而,当同样的方法被应用于视频问答时,效果却常常不尽如人意,有时甚至不如让模型“直接回答”。 来自阿里巴巴未来生活实验室的研究团队指出,其根源在于任务性质的根本差异:数学推理是纯文本的逻辑推演,而视频推理要求模型在视觉信息与文本逻辑之间反复穿梭、交叉验证。简…

    2026年1月29日
    24900
  • LLM驱动的跨平台内核自动生成:融合监督微调与强化学习的智能优化新范式

    关键词:LLM、内核生成、自动化优化、智能体、基准测试 现代人工智能系统的性能从根本上受制于底层内核的质量,这类内核可将高层算法语义转化为底层硬件操作。要实现接近最优性能的内核,需要研发人员具备专家级的硬件架构知识与编程模型认知,这使得内核工程成为一项至关重要但耗时冗长且不具备可扩展性的工作。 Towards Automated Kernel Generat…

    2026年1月27日
    20000
  • OpenAI核心工程师翁家翌深度揭秘:ChatGPT是意外引爆,Infra修Bug速度决定模型公司生死线

    “ChatGPT 并不是 OpenAI 精心策划出来的。” “Agent 和 RL 后训练本质上是一回事。” 在发布前,OpenAI 内部甚至做好了“几天后就关掉”的心理准备;最初的目标,只是收集一点真实用户数据。那时没有人预料到,它会在几天内引爆整个世界,更没人能提前画出那条指数级增长的曲线。 而这场“意外爆炸”的背后,其实只是来自一个12人的 “RL T…

    2026年1月23日
    29300