强化学习_鲸林向海

RLVR/GRPO组内优势估计的系统性偏差：揭秘大模型训练中的隐藏陷阱

近年来，大模型在数学推理、代码生成等任务上取得突破，其背后一个关键技术是RLVR（Reinforcement Learning with Verifiable Rewards，可验证奖励的强化学习）。简单来说，RLVR并非让模型被动接受人工评分，而是让模型主动生成多种解法，并依据可验证的客观规则（如答案是否正确）进行自我改进。这种通过反复试错来提升性能的模…

3天前

9000

大模型工程

OpenAI前架构师深度剖析：AGI的关键在于模型自主突破能力，泛化问题成最大挑战

编辑 | 听雨 OpenAI前研究员Jerry Tworek近日在《Unsupervised Learning》节目中分享了他对AI发展的深度见解。Jerry Tworek是OpenAI推理模型o1、o3及Codex的关键架构师，深度参与了近年AI领域的多项突破。他近期离开OpenAI，旨在探索在大型实验室框架下较难开展的研究方向。在访谈中，Jerry探讨…

3天前

7000

大模型推理

阿里ReWatch-R1：让大模型学会“回看”视频推理，基于证据链思考告别幻觉

为什么“逐步思考”在视频推理中会失效？在数学推理任务中，让大模型“一步一步思考”通常能显著提升性能。然而，当同样的方法被应用于视频问答时，效果却常常不尽如人意，有时甚至不如让模型“直接回答”。来自阿里巴巴未来生活实验室的研究团队指出，其根源在于任务性质的根本差异：数学推理是纯文本的逻辑推演，而视频推理要求模型在视觉信息与文本逻辑之间反复穿梭、交叉验证。简…

4天前

9000

大模型工程

LLM驱动的跨平台内核自动生成：融合监督微调与强化学习的智能优化新范式

关键词：LLM、内核生成、自动化优化、智能体、基准测试现代人工智能系统的性能从根本上受制于底层内核的质量，这类内核可将高层算法语义转化为底层硬件操作。要实现接近最优性能的内核，需要研发人员具备专家级的硬件架构知识与编程模型认知，这使得内核工程成为一项至关重要但耗时冗长且不具备可扩展性的工作。 Towards Automated Kernel Generat…

6天前

51000

大模型工程

OpenAI核心工程师翁家翌深度揭秘：ChatGPT是意外引爆，Infra修Bug速度决定模型公司生死线

“ChatGPT 并不是 OpenAI 精心策划出来的。” “Agent 和 RL 后训练本质上是一回事。” 在发布前，OpenAI 内部甚至做好了“几天后就关掉”的心理准备；最初的目标，只是收集一点真实用户数据。那时没有人预料到，它会在几天内引爆整个世界，更没人能提前画出那条指数级增长的曲线。而这场“意外爆炸”的背后，其实只是来自一个12人的 “RL T…

2026年1月23日

77000

大模型工程

AscendKernelGen：突破NPU算子生成瓶颈，大语言模型领域适配实现95.5%编译成功率

关键词：昇腾 Ascend、NPU 内核生成、大语言模型、领域适应、强化学习、评估基准在人工智能飞速发展的今天，深度学习的计算需求呈指数级增长，传统的 CPU 和通用 GPU 已难以满足特定场景下的高效计算要求。为此，神经处理单元（Neural Processing Unit，NPU）作为专为 AI 计算设计的领域专用加速器，逐渐成为现代 AI 基础设施…

2026年1月23日

33000

大模型训练

强化学习云：大模型训练下半场的新引擎与基础设施革命

2024年底，硅谷和北京的业界人士都在讨论同一个令人不安的话题：Scaling Law似乎正在撞墙。当时，尽管英伟达的股价仍在飙升，但多方信源显示，包括备受期待的Orion（原计划的GPT-5）在内，新一代旗舰模型在单纯增加参数规模和训练数据后，并未展现出预期的边际效益提升。同时，也有研究认为高质量预训练数据将很快耗尽，甚至预测了明确的时间节点：2028年…

2026年1月12日

56000

大模型训练

英伟达GDPO：突破GRPO局限，精准优化多奖励强化学习

GRPO 是促使 DeepSeek-R1 成功的基础技术之一。最近一两年，GRPO 及其变体因其高效性和简洁性，已成为业内广泛采用的强化学习算法。然而，随着语言模型能力的不断提升，用户对它们的期待也在发生变化：不仅要回答正确，还要在各种不同场景下表现出符合多样化人类偏好的行为。为此，强化学习训练流程开始引入多种奖励信号，每一种奖励对应一种不同的偏好，用来共…

2026年1月11日

82000

大模型训练

SmartSnap：让AI智能体变身“自证质检员”，1.5张截图完成结项报告的革命性训练方法

Youtu-Agent团队投稿量子位 | 公众号 QbitAI 在学校里做实验时，老师如何确认学生完成了实验并达到了预期效果？最常见的做法是要求学生提交一份实验报告。那么，当AI智能体执行一项任务后，我们如何检验其执行效果是否达标？一个可行的思路是：让AI在执行任务的同时，主动收集并提交一份“证据链报告”。智能体可以边执行边取证，自我检查是否符合预期，…

2026年1月10日

47000

大模型工程

告别人工规则！阿里巴巴AgeMem：让LLM通过强化学习自主管理记忆，统一长短期记忆处理

大型语言模型在处理长对话或多步复杂任务时，最头疼的就是记忆管理问题。现有的方法往往采用人工设定的规则来决定哪些信息该存、哪些该删，效果有限且不够灵活。阿里巴巴团队最近在论文《Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Langua…

2026年1月10日

95000