后训练
-
OpenAI核心工程师翁家翌深度揭秘:ChatGPT是意外引爆,Infra修Bug速度决定模型公司生死线
“ChatGPT 并不是 OpenAI 精心策划出来的。” “Agent 和 RL 后训练本质上是一回事。” 在发布前,OpenAI 内部甚至做好了“几天后就关掉”的心理准备;最初的目标,只是收集一点真实用户数据。那时没有人预料到,它会在几天内引爆整个世界,更没人能提前画出那条指数级增长的曲线。 而这场“意外爆炸”的背后,其实只是来自一个12人的 “RL T…
-
Gemini负责人揭秘:Pro模型竟是Flash的“蒸馏器”,后训练与持续学习成AI进化新战场
2025年底,AI领域最引人注目的事件之一是Gemini 3 Flash的发布。这款模型主打轻量级与高速度,其智能表现不仅全面超越了前代Gemini 2.5 Pro,甚至在编程能力和多模态推理等部分性能上反超了Gemini 3 Pro与GPT-5.2,表现令人惊艳。 就在近日,Gemini的三位联合技术负责人——Oriol Vinyals、Jeff Dean…