后训练扩展

  • 强化学习云:大模型训练下半场的新引擎与基础设施革命

    2024年底,硅谷和北京的业界人士都在讨论同一个令人不安的话题:Scaling Law似乎正在撞墙。 当时,尽管英伟达的股价仍在飙升,但多方信源显示,包括备受期待的Orion(原计划的GPT-5)在内,新一代旗舰模型在单纯增加参数规模和训练数据后,并未展现出预期的边际效益提升。同时,也有研究认为高质量预训练数据将很快耗尽,甚至预测了明确的时间节点:2028年…

    2026年1月12日
    5300