后训练
-
腾讯混元提出HY-SOAR:让扩散模型学会自我反思,无奖励模型优于RL方法
腾讯混元提出HY-SOAR:让扩散模型学会自我反思,无奖励模型优于RL方法 近日,腾讯混元团队提出HY-SOAR(Self-Correction for Optimal Alignment and Refinement),一种面向扩散模型和流匹配模型的数据驱动后训练方法。 SOAR不依赖奖励模型、不用偏好标注、不靠负样本,直接从训练数据中挖掘轨迹级纠正信号,…
-
OpenAI核心工程师翁家翌深度揭秘:ChatGPT是意外引爆,Infra修Bug速度决定模型公司生死线
“ChatGPT 并不是 OpenAI 精心策划出来的。” “Agent 和 RL 后训练本质上是一回事。” 在发布前,OpenAI 内部甚至做好了“几天后就关掉”的心理准备;最初的目标,只是收集一点真实用户数据。那时没有人预料到,它会在几天内引爆整个世界,更没人能提前画出那条指数级增长的曲线。 而这场“意外爆炸”的背后,其实只是来自一个12人的 “RL T…
-
Gemini负责人揭秘:Pro模型竟是Flash的“蒸馏器”,后训练与持续学习成AI进化新战场
2025年底,AI领域最引人注目的事件之一是Gemini 3 Flash的发布。这款模型主打轻量级与高速度,其智能表现不仅全面超越了前代Gemini 2.5 Pro,甚至在编程能力和多模态推理等部分性能上反超了Gemini 3 Pro与GPT-5.2,表现令人惊艳。 就在近日,Gemini的三位联合技术负责人——Oriol Vinyals、Jeff Dean…
