gpt-4o
-
AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o
斯坦福团队推出AgentFlow框架,通过在线强化学习让仅7B参数的小模型在流式协作中“边做边学”。该方法使模型在搜索、数学等10项任务中性能显著提升,部分表现甚至超越了GPT-4o等超大模型,证明了优化系统设计可突破模型规模限制。
斯坦福团队推出AgentFlow框架,通过在线强化学习让仅7B参数的小模型在流式协作中“边做边学”。该方法使模型在搜索、数学等10项任务中性能显著提升,部分表现甚至超越了GPT-4o等超大模型,证明了优化系统设计可突破模型规模限制。