强化学习

  • 清华MARSHAL框架:通过策略游戏自博弈激发大模型的多智能体推理泛化能力

    近日,清华大学等机构的研究团队提出了 MARSHAL 框架。该框架利用强化学习,让大语言模型在策略游戏中进行自博弈(Self-Play)。实验表明,这种多轮、多智能体训练不仅提升了模型在游戏中的博弈决策水平,更将其推理能力有效泛化到了通用的多智能体系统中:在数学竞赛和专家级问答等一般推理任务中,显著提升了多智能体系统的整体表现。 论文标题:MARSHAL: …

    2026年1月9日
    7400
  • DeepSeek R1爆更86页论文:开源模型如何用强化学习实现推理能力突破

    R1论文暴涨至86页!DeepSeek向世界证明:开源不仅能追平闭源,还能教闭源做事! 全网震撼!两天前,DeepSeek悄无声息地将R1的论文从原来的22页大幅更新至86页。这篇全新的论文证明,仅通过强化学习就能显著提升AI的推理能力。DeepSeek似乎在憋大招,甚至有网友推测,这种纯强化学习方法或许会出现在未来的R2版本中。 此次更新,将原始论文升级为…

    2026年1月8日
    7700
  • Tinker革新大模型训练:从“作坊炼丹”到“工业微调”的API革命

    当 OpenAI 前 CTO Mira Murati 创立的 Thinking Machines Lab 推出 Tinker 时,它为大模型训练带来了一种范式革新。Tinker 将复杂的训练过程抽象为前向传播、反向传播、优化器更新等一系列基础原语,从而将算法设计与分布式训练基础设施解耦。这使得训练大模型变得如同调用函数一样简单,标志着行业正从“作坊式炼丹”向…

    2026年1月7日
    7500
  • 8元跑通RL全流程!潞晨云微调SDK:算法与Infra解耦,1人顶替整支团队

    大模型下半场的战火,已经从“暴力预训练”烧向了“后训练”战场。 无论是OpenAI o1的推理突破,还是DeepSeek-R1靠强化学习 (RL) 实现的性能飞跃,都释放了一个明确信号: 决定模型天花板的,不再只是算力堆砌,而是更精准的微调和RL迭代。 但现实很骨感——复杂的分布式基建、高昂的显卡租金、繁琐的架构调优,像一道道高墙,把无数算法工程师挡在了“炼…

    2026年1月7日
    7200
  • MobileRL:突破端侧GUI智能体训练瓶颈,AndroidWorld成功率超80%的强化学习新框架

    关键词:MobileRL框架、端侧GUI智能体、强化学习、ADAGRPO算法、Android基准测试 MobileRL: Online Agentic Reinforcement Learning for Mobile GUI Agents https://arxiv.org/pdf/2509.18119 代码:https://github.com/THUD…

    2026年1月6日
    5600
  • Video-Thinker:小红书首创视频推理内生智能,让大模型自主导航动态时序

    随着多模态大语言模型(MLLM)的飞速发展,“Thinking with Images”范式已在图像理解和推理任务上取得了革命性突破——模型不再是被动接收视觉信息,而是学会了主动定位与思考。 然而,当面对包含复杂时序依赖与动态叙事的视频推理任务时,这一能力尚未得到有效延伸。现有的视频推理方法往往受限于对外部工具的依赖或预设的提示词策略,难以让模型内生出对时间…

    2026年1月2日
    7500
  • QwenLong-L1.5:一套配方三大法宝,让30B MoE模型长文本推理媲美GPT-5

    作为大模型从业者或研究员,你是否也曾为某个模型的“长文本能力”感到兴奋,却在实践中发现其表现远未达到预期? 你很可能遇到过以下困境之一: 虚假的繁荣:模型在“大海捞针”(Needle-in-a-Haystack)等简单检索测试中表现出色,营造了长文本问题已解决的假象。然而,当任务升级为需要串联分散证据、整合全局信息的多跳推理(multi-hop reason…

    2025年12月29日
    8300
  • LENS:首个基于强化推理的分割大模型,突破传统SFT能力天花板

    文本提示图像分割(Text-prompted image segmentation)是实现精细化视觉理解的关键技术,在人机交互、具身智能及机器人等前沿领域具有重要的战略意义。该技术使机器能够根据自然语言指令,在复杂的视觉场景中定位并分割出任意目标。 然而,当前主流的技术路径,如基于监督式微调(Supervised Fine-Tuning, SFT)的方法,正…

    2025年12月29日
    8000
  • 阶跃星辰发布NextStep-1.1:自回归流匹配模型通过RL增强大幅提升图像生成质量

    当国产大模型在年底轮番冲刺、热议不断时,阶跃星辰一度显得颇为安静。 Kimi凭借K2模型重获关注,智谱与MiniMax在发布新SOTA模型的同时推进IPO进程,DeepSeek也因新功能引发热议。相比之下,作为“六小龙”中坚持自研路线的选手,阶跃星辰近期的声量似乎有所减弱。 直到其最新图像模型 NextStep-1.1 的发布,打破了这份“安静”。 Next…

    2025年12月27日
    11200
  • 腾讯混元与厦大联合推出JarvisEvo:首个具备自我评估与反思能力的智能修图Agent,精准调用200+专业工具

    一句话让照片变大片,比专业软件简单、比AI修图更可控! 腾讯混元携手厦门大学推出JarvisEvo——一个统一的图像编辑智能体,旨在模拟人类专家设计师,通过迭代编辑、视觉感知、自我评估和自我反思来完成图像处理。 “像专家一样思考,像工匠一样打磨”。JarvisEvo不仅能调用Lightroom等专业工具进行修图,更能“看见”修图后的变化并进行自我评判,从而实…

    2025年12月26日
    8100