强化学习 - 鲸林向海

字节清华联手打造CUDA Agent：AI写代码不仅正确，还能比人类专家快40%

近日，字节跳动 Seed 团队与清华大学 AIR 的研究人员联合发布了一项名为 CUDA Agent 的新研究，在 AI 代码生成领域引起了广泛关注。该研究训练了一个能够编写高性能 CUDA 内核的智能体模型。其目标不仅是生成语法正确的代码，更是产出经过深度优化、执行效率显著提升的内核。在基准测试中，CUDA Agent 展现出卓越的性能：在简单/中等复…

2026年3月3日

231000

大模型推理

RL驱动的KV缓存压缩框架KV Policy：超越启发式策略SOTA性能，仅增1%预填充计算开销

关键词：大语言模型、KV 缓存、强化学习、缓存驱逐、长上下文推理自 Transformer 架构诞生以来，大型语言模型（LLMs）在自然语言处理领域取得了革命性进展。从文本生成到逻辑推理，从多轮对话到长文档理解，LLMs 的能力边界不断拓展。然而，模型性能的飞跃背后，是日益严峻的推理效率挑战——当处理长序列或交互式会话时，KV（Key-Value）缓存成为…

2026年3月1日

100000

大模型推理

首次证实RL能让3D模型学会推理，复杂文本描述下生成质量跃升！

首个系统性研究：强化学习如何让3D模型学会推理？图像生成领域，强化学习（RL）已交出亮眼答卷。那么，在更具挑战性的3D生成领域，RL能否同样奏效？当GRPO等算法让大模型在数学、代码推理上实现质变时，一项开创性研究率先给出了答案——首个将强化学习系统性引入文本到3D自回归生成的工作正式诞生，并已被CVPR 2026接收。该研究并非简单移植2D经验，而是针…

2026年2月27日

131000

大模型推理

RL赋能3D生成新突破：首个系统性强化学习研究让3D模型学会复杂文本推理，生成质量大幅跃升

RL赋能3D生成新突破：首个系统性强化学习研究让3D模型学会复杂文本推理图像生成领域，强化学习（RL）已取得显著成果。那么，3D生成呢？当GRPO（Group Relative Policy Optimization）等技术推动大模型在数学、代码推理上实现质变时，一项开创性研究率先给出了答案——首个将强化学习系统性引入文本到3D自回归生成的研究正式诞生，…

2026年2月27日

87000

大模型推理

EmotionThinker：首个面向可解释情感推理的强化学习框架，让SpeechLLM学会“解释情绪”

语音情感识别（Speech Emotion Recognition, SER）在过去基本遵循同一种范式：输入语音，输出情绪标签。这种设定在工程上有效，但在认知层面却过于简化。在人类交流中，情绪判断从来不是一个“标签选择”的过程，而是一种基于证据整合的推理行为。我们会综合语调变化、音高起伏、语速快慢、重音位置、语义内容，以及说话人的身份特征，去解释“为什么”…

2026年2月25日

141000

AI产业动态

图灵奖得主Sutton深度剖析：AI模型本质脆弱，经验时代才是智能进化的下一站

今天的AI，让人又喜又怕。短短三年，AI已经从聊天机器人进化到可以操控计算机终端的智能体，但同时也给硅谷带来了“AI恐慌”，导致许多SaaS厂商市值惨跌。在行业的狂喜与不安中，图灵奖得主、强化学习之父Richard Sutton在SAIR成立后的首场全球直播中，发表了他对AI冷静而反直觉的分析。 Sutton开篇便指出一个冷静的判断：当前的AI只是局部的智…

2026年2月24日

133000

大模型训练

Reagent框架：为AI智能体引入“过程分”奖励机制，破解稀疏奖励难题

在许多大模型与智能体的训练范式中，普遍存在一种“唯结果论”的做法：仅根据最终答案的正确与否给予奖励，正确则得分，错误则得零分。在单轮问答场景中，这种“只看结果”的机制尚可勉强应对。然而，当任务转变为需要多轮对话、搜索、浏览网页、编写代码、读取文件等复杂操作的长链条任务时，仅用一个比特（对/错）来概括整条复杂的行为轨迹，就显得过于粗糙。其后果是：那些仅差一…

2026年2月20日

108000

AI产业动态

春晚舞台上演机器人功夫秀：宇树科技全自主集群控制技术全球首秀

这已经是宇树机器人第三次亮相春晚，却带来了前所未有的震撼。在今年的央视春节联欢晚会上，全球领先的宇树科技将舞台变成了新技术的展示场。一群活力十足的人形机器人上演了一出武术表演《武 BOT》，全程镜头连贯，几乎没有切换。表演中的人形机器人型号包括现象级的 G1 以及刚刚发布的 H2。它们在快速奔跑中完成了穿插变阵和复杂的武术动作。这种高动态、高协同的全自主…

2026年2月19日

131000

AI产业动态

从春晚舞台到全球瞩目：宇树机器人如何通过《武BOT》实现人形机器人集群武术表演的技术突破

宇树的“赛博功夫”，火到海外了。当机器人开始显露“真功夫”，春晚的科技叙事变了。过去几年，机器人登上各种大大小小的舞台，更多是承载一种科技符号，它们或是节奏偏慢的舞蹈方阵，或是呆萌可爱的互动玩偶，观众图个新鲜，看个热闹。但2026年马年春晚，宇树科技带着G1与H2人形机器人登场的那一刻，几乎所有人意识到：机器人演示进入下一个阶段了。跑酷、翻桌、单腿连续空…

2026年2月18日

125000

AI产业动态

中国AI突破300年数学难题：强化学习系统PackingStar刷新高维亲吻数多项世界纪录

闻乐发自凹非寺量子位 | 公众号 QbitAI 数学上有一个经典难题，名为亲吻数问题（Kissing Number Problem）。它困扰了人类三百余年，而最近，一项来自中国AI的研究，为这一领域带来了突破性进展。这个问题探讨的是：在n维空间中，一个单位球体的周围，最多能有多少个同样大小的球体与它恰好相切（即“亲吻”），且彼此互不重叠。亲吻数问题…

2026年2月14日

101000