大模型训练
-
AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o
斯坦福团队推出AgentFlow框架,通过在线强化学习让仅7B参数的小模型在流式协作中“边做边学”。该方法使模型在搜索、数学等10项任务中性能显著提升,部分表现甚至超越了GPT-4o等超大模型,证明了优化系统设计可突破模型规模限制。
-
LLM记忆管理终于不用“手把手教”了,新框架让智能体自主管理记忆系统
不再依赖人工设计,让模型真正学会管理记忆。 来自来自加州大学圣地亚哥分校、斯坦福大学的研究人员提出了一个创新的强化学习框架—— Mem-α,用于训练LLM智能体自主管理复杂的记忆系统。 在实际应用中,仅仅依靠prompts和instructions往往不足以覆盖所有场景:模型经常会遇到不知道如何更新记忆的情况,尤其是当记忆系统像MIRIX那样变得复杂时。 不…
-
“微调已死”新佐证:谷歌革新AI学习范式,开创双向经验学习之路
谷歌提出ReasoningBank技术,使AI能通过从自身成功与失败的经验中学习,形成一个持续自我优化的闭环,从而减少对传统微调的依赖。