强化学习

  • OpenAI前联合创始人深度复盘:ChatGPT本可提前问世,AGI实现或比预期晚2-3倍,上下文学习短期内无可替代

    “如果早知道 Scaling 的回报这么高,那ChatGPT完全可以更早做出来!” 这是OpenAI的前联合创始人、Thinking Machines首席科学家John Schulman在最新采访中的论断。 以他的判断,放在2018-2019年,只要几位非常优秀的人工作一年左右,就可以做出接近 ChatGPT-3.5 的系统。 John Schulman是强…

    2025年12月24日
    9400
  • 强化学习赋能3D生成:首个文本到3D的RL范式攻克几何与物理合理性难题

    强化学习赋能3D生成:首个文本到3D的RL范式攻克几何与物理合理性难题 在大语言模型和文生图领域,强化学习(RL)已成为提升模型思维链与生成质量的关键方法。但当我们将目光转向更为复杂的文本到3D生成时,这套方法还会管用吗? 近期,一项由西北工业大学、北京大学、香港中文大学、上海人工智能实验室、香港科技大学合作开展的研究系统性探索了这一重要问题。 论文链接: …

    2025年12月20日
    8000
  • 强化学习赋能文本到3D生成:从算法突破到能力边界探索

    在人工智能生成内容领域,文本到3D生成技术正成为继大语言模型和文生图之后的下一个前沿阵地。这一技术旨在将自然语言描述转化为具有复杂几何结构、纹理细节和物理合理性的三维模型,其应用潜力覆盖数字孪生、游戏开发、工业设计、虚拟现实等多个关键领域。然而,与相对成熟的文本到2D图像生成相比,文本到3D生成面临着更为严峻的技术挑战:三维数据本身具有更高的维度复杂性、更强…

    2025年12月19日
    10200
  • INTELLECT-3:开源RL技术栈引领大规模强化学习新范式

    近日,Prime Intellect正式发布了INTELLECT-3模型,这是一款拥有106B参数的混合专家(Mixture-of-Experts)架构模型,基于其自研的强化学习技术栈进行训练。该模型在数学、代码、科学和推理等多个基准测试中取得了同规模模型中的最佳表现,甚至超越了部分参数更大的前沿模型。更重要的是,Prime Intellect将完整的训练流…

    2025年12月10日
    9400
  • 阿里千问突破大模型强化学习稳定性难题:从序列级奖励到token级优化的理论重构与实践验证

    在人工智能领域,大语言模型(LLM)的强化学习(RL)训练已成为提升模型复杂推理与问题解决能力的关键技术路径。然而,当前主流RL方法普遍面临一个根本性矛盾:奖励信号通常基于完整生成序列(序列级)进行评估,而优化过程却在单个token级别进行。这种“奖励-优化”层级的不匹配不仅引发了理论上的健全性质疑,更在实际训练中导致稳定性问题,特别是在混合专家(MoE)等…

    2025年12月7日
    10000
  • Orchestrator-8B:以强化学习驱动的智能体编排新范式,实现成本、效率与准确性的三重突破

    在人工智能领域,面对日益复杂的任务需求,单纯依赖规模更大的模型往往陷入成本高昂、响应迟缓的困境。最近,英伟达与香港大学的研究团队提出了一种创新的解决方案——Orchestrator-8B,它通过一个仅80亿参数的小型模型作为“指挥家”,动态协调代码解释器、网络搜索、数学模型乃至更强大的大模型等多样化工具,形成高效的多智能体协作系统。这一范式不仅显著提升了任务…

    2025年12月7日
    9400
  • 突破智能体工作流瓶颈:ToolOrchestra框架如何通过强化学习实现动态资源调度

    在人工智能领域,智能体工作流的构建一直是提升任务执行效率的关键。然而,传统基于提示词工程的工作流设计存在明显的性能天花板,而静态路由策略则常导致计算资源的严重浪费。香港大学与NVIDIA团队的最新研究《ToolOrchestra: Learning to Orchestrate Tools with Multi-Objective Reinforcement…

    2025年11月28日
    7700
  • Meta REFRAG革新RAG架构:30倍提速、16倍上下文、成本减半,彻底解决上下文垃圾问题

    你是否遇到过这样的困扰:只想让大模型读取10段关键资料,它却被迫处理100段,导致token消耗激增,响应速度却异常缓慢? 这一行业普遍痛点,如今被Meta提出的全新方案彻底解决。 他们刚刚开源了一个名为 REFRAG 的革新性RAG架构。其核心思想极为直接:在信息输入大模型前,将无关的上下文极度压缩,仅保留并提供真正有用的部分。 实测数据令人印象深刻:* …

    2025年11月23日
    8300
  • VANS模型:从文本到视频的AI推理革命,开启“视频即答案”新纪元

    在人工智能技术日新月异的今天,我们正见证着AI从单纯的信息处理工具向具备深度感知与创造性输出能力的智能体演进。传统AI模型在面对用户查询时,往往局限于生成文本答案,这种交互方式在解释复杂动态过程或视觉化场景时显得力不从心。例如,当用户询问“如何打温莎结”时,文字描述难以精确传达手指的缠绕顺序和力度变化;而面对“电影主角下一秒会做什么”的开放式问题,静态的文字…

    2025年11月22日
    7900
  • 从静态问答到动态探案:DiagGym虚拟临床环境如何训练AI诊断智能体

    在医疗人工智能领域,一个长期存在的核心挑战是如何让AI系统掌握临床诊断的动态本质。真实的临床诊断绝非简单的单轮问答,而是一个复杂的多轮决策过程——医生需要根据不完整的初步信息,提出鉴别诊断假设,然后通过主动选择检查项目来逐步排除或确认可能性,最终在信息充足时做出准确诊断。然而,当前大多数医疗大语言模型(LLM)的训练范式更接近于“开卷考试”,它们基于静态、完…

    2025年11月11日
    7200