在线学习 - 鲸林向海

部署时学习：让LLM Agent在真实任务流中持续进化

当大型语言模型代理（LLM Agent）步入真实世界应用场景时，它面对的已不再是静态的、一次性完成的测试数据集，而是源源不断、持续抵达的任务流。每一次工具调用、代码执行、网页搜索或任务完成，都会随之产生反馈信号：操作是成功还是失败？收集到的证据是否充足？所选工具是否恰当？这些在部署阶段自然涌现的信号，能否反过来成为代理自我优化的养分？研究团队的最新成果提…

7小时前

22000

大模型训练

OpenClaw-RL：让AI越用越聪明的开源框架，北大博士团队破解AI智能体训练难题

过去一周，一款名为 OpenClaw 的红色卡通龙虾形象 AI 智能体引发了广泛关注。这款能够执行具体任务的智能体，其体验过程颇具戏剧性：从用户争相部署，到因使用问题（如账号安全、文件误操作）而匆忙卸载，周期可能短至一周。那么，如何让此类 AI 智能体在使用中持续改进，而非引发问题？北京大学博士、美国普林斯顿大学博士后研究员杨灵（合作导师为王梦迪教授）及其…

2026年3月16日

777000

大模型工程

智谱AI唐杰：领域大模型是伪命题，在线学习与自我评估将成新Scaling范式

清华大学教授、智谱AI首席科学家唐杰近期发表长文，总结了其对2025年大模型发展的核心观察。文章从预训练、中后训练、Agent、多模态到具身智能等多个维度展开，提出了若干关键论断。唐杰教授的核心观点在于，大模型正从“学会世界”走向“进入世界”，真正的挑战已从智能本身转向如何将智能转化为现实生产力。他强调，Agent的落地是模型从认知系统转变为生产系统的关…

2025年12月26日

406000