强化学习

  • 字节清华联手打造CUDA Agent:AI写代码不仅正确,还能比人类专家快40%

    近日,字节跳动 Seed 团队与清华大学 AIR 的研究人员联合发布了一项名为 CUDA Agent 的新研究,在 AI 代码生成领域引起了广泛关注。 该研究训练了一个能够编写高性能 CUDA 内核的智能体模型。其目标不仅是生成语法正确的代码,更是产出经过深度优化、执行效率显著提升的内核。 在基准测试中,CUDA Agent 展现出卓越的性能:在简单/中等复…

    2026年3月3日
    23100
  • RL驱动的KV缓存压缩框架KV Policy:超越启发式策略SOTA性能,仅增1%预填充计算开销

    关键词:大语言模型、KV 缓存、强化学习、缓存驱逐、长上下文推理 自 Transformer 架构诞生以来,大型语言模型(LLMs)在自然语言处理领域取得了革命性进展。从文本生成到逻辑推理,从多轮对话到长文档理解,LLMs 的能力边界不断拓展。然而,模型性能的飞跃背后,是日益严峻的推理效率挑战——当处理长序列或交互式会话时,KV(Key-Value)缓存成为…

    2026年3月1日
    10000
  • 首次证实RL能让3D模型学会推理,复杂文本描述下生成质量跃升!

    首个系统性研究:强化学习如何让3D模型学会推理? 图像生成领域,强化学习(RL)已交出亮眼答卷。那么,在更具挑战性的3D生成领域,RL能否同样奏效?当GRPO等算法让大模型在数学、代码推理上实现质变时,一项开创性研究率先给出了答案——首个将强化学习系统性引入文本到3D自回归生成的工作 正式诞生,并已被CVPR 2026接收。该研究并非简单移植2D经验,而是针…

    2026年2月27日
    13100
  • RL赋能3D生成新突破:首个系统性强化学习研究让3D模型学会复杂文本推理,生成质量大幅跃升

    RL赋能3D生成新突破:首个系统性强化学习研究让3D模型学会复杂文本推理 图像生成领域,强化学习(RL)已取得显著成果。那么,3D生成呢? 当GRPO(Group Relative Policy Optimization)等技术推动大模型在数学、代码推理上实现质变时,一项开创性研究率先给出了答案——首个将强化学习系统性引入文本到3D自回归生成的研究正式诞生,…

    2026年2月27日
    8700
  • EmotionThinker:首个面向可解释情感推理的强化学习框架,让SpeechLLM学会“解释情绪”

    语音情感识别(Speech Emotion Recognition, SER)在过去基本遵循同一种范式:输入语音,输出情绪标签。这种设定在工程上有效,但在认知层面却过于简化。 在人类交流中,情绪判断从来不是一个“标签选择”的过程,而是一种基于证据整合的推理行为。我们会综合语调变化、音高起伏、语速快慢、重音位置、语义内容,以及说话人的身份特征,去解释“为什么”…

    2026年2月25日
    14100
  • 图灵奖得主Sutton深度剖析:AI模型本质脆弱,经验时代才是智能进化的下一站

    今天的AI,让人又喜又怕。短短三年,AI已经从聊天机器人进化到可以操控计算机终端的智能体,但同时也给硅谷带来了“AI恐慌”,导致许多SaaS厂商市值惨跌。 在行业的狂喜与不安中,图灵奖得主、强化学习之父Richard Sutton在SAIR成立后的首场全球直播中,发表了他对AI冷静而反直觉的分析。 Sutton开篇便指出一个冷静的判断:当前的AI只是局部的智…

    2026年2月24日
    13300
  • Reagent框架:为AI智能体引入“过程分”奖励机制,破解稀疏奖励难题

    在许多大模型与智能体的训练范式中,普遍存在一种“唯结果论”的做法:仅根据最终答案的正确与否给予奖励,正确则得分,错误则得零分。 在单轮问答场景中,这种“只看结果”的机制尚可勉强应对。然而,当任务转变为需要多轮对话、搜索、浏览网页、编写代码、读取文件等复杂操作的长链条任务时,仅用一个比特(对/错)来概括整条复杂的行为轨迹,就显得过于粗糙。 其后果是:那些仅差一…

    2026年2月20日
    10800
  • 春晚舞台上演机器人功夫秀:宇树科技全自主集群控制技术全球首秀

    这已经是宇树机器人第三次亮相春晚,却带来了前所未有的震撼。 在今年的央视春节联欢晚会上,全球领先的宇树科技将舞台变成了新技术的展示场。一群活力十足的人形机器人上演了一出武术表演《武 BOT》,全程镜头连贯,几乎没有切换。 表演中的人形机器人型号包括现象级的 G1 以及刚刚发布的 H2。它们在快速奔跑中完成了穿插变阵和复杂的武术动作。这种高动态、高协同的全自主…

    2026年2月19日
    13100
  • 从春晚舞台到全球瞩目:宇树机器人如何通过《武BOT》实现人形机器人集群武术表演的技术突破

    宇树的“赛博功夫”,火到海外了。 当机器人开始显露“真功夫”,春晚的科技叙事变了。过去几年,机器人登上各种大大小小的舞台,更多是承载一种科技符号,它们或是节奏偏慢的舞蹈方阵,或是呆萌可爱的互动玩偶,观众图个新鲜,看个热闹。但2026年马年春晚,宇树科技带着G1与H2人形机器人登场的那一刻,几乎所有人意识到:机器人演示进入下一个阶段了。 跑酷、翻桌、单腿连续空…

    2026年2月18日
    12500
  • 中国AI突破300年数学难题:强化学习系统PackingStar刷新高维亲吻数多项世界纪录

    闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 数学上有一个经典难题,名为亲吻数问题(Kissing Number Problem)。它困扰了人类三百余年,而最近,一项来自中国AI的研究,为这一领域带来了突破性进展。 这个问题探讨的是:在n维空间中,一个单位球体的周围,最多能有多少个同样大小的球体与它恰好相切(即“亲吻”),且彼此互不重叠。 亲吻数问题…

    2026年2月14日
    10100