后训练 - 鲸林向海

腾讯混元提出HY-SOAR：让扩散模型学会自我反思，无奖励模型优于RL方法

腾讯混元提出HY-SOAR：让扩散模型学会自我反思，无奖励模型优于RL方法近日，腾讯混元团队提出HY-SOAR（Self-Correction for Optimal Alignment and Refinement），一种面向扩散模型和流匹配模型的数据驱动后训练方法。 SOAR不依赖奖励模型、不用偏好标注、不靠负样本，直接从训练数据中挖掘轨迹级纠正信号，…

2026年4月23日

171000

AI产业动态

OpenAI核心工程师翁家翌深度揭秘：ChatGPT是意外引爆，Infra修Bug速度决定模型公司生死线

“ChatGPT 并不是 OpenAI 精心策划出来的。” “Agent 和 RL 后训练本质上是一回事。” 在发布前，OpenAI 内部甚至做好了“几天后就关掉”的心理准备；最初的目标，只是收集一点真实用户数据。那时没有人预料到，它会在几天内引爆整个世界，更没人能提前画出那条指数级增长的曲线。而这场“意外爆炸”的背后，其实只是来自一个12人的 “RL T…

2026年1月23日

872000

AI产业动态

Gemini负责人揭秘：Pro模型竟是Flash的“蒸馏器”，后训练与持续学习成AI进化新战场

2025年底，AI领域最引人注目的事件之一是Gemini 3 Flash的发布。这款模型主打轻量级与高速度，其智能表现不仅全面超越了前代Gemini 2.5 Pro，甚至在编程能力和多模态推理等部分性能上反超了Gemini 3 Pro与GPT-5.2，表现令人惊艳。就在近日，Gemini的三位联合技术负责人——Oriol Vinyals、Jeff Dean…

2025年12月21日

452001