AI自主科研新突破:Karpathy项目引发智能体群体协作,4天完成2000+实验
Karpathy的Autoresearch项目仅用630行Python代码,就让AI自主完成了276次实验,筛选出29项有效改进,将语言模型的训练效率提升了约11%,全程无需人类干预。

然而,更引人注目的进展发生在此之后。全球开发者社区接手项目,将其从“单个AI做实验”升级为“群体AI协作科研”。他们构建了一个分布式协作层,让数十个智能体在不同GPU上共享成果、分工合作,在4天内运行了超过2000次实验。

人类在检查成果时发现,AI智能体之间已自发形成了类似同行评审的协作机制。
AI“重构”科学共同体
Karpathy曾指出项目的下一步方向:
目标不是模拟一个博士生,而是模拟整个研究社区。
社区正是朝此方向推进。受SETI@home(分布式计算项目)启发,开发者在Autoresearch基础上增加了协作层,创建了Autoresearch@home,允许任何互联网用户参与协作进行人工智能与机器学习研究。

智能体能够阅读并学习以往的实验结果,避免重复工作,并基于彼此成果持续探索。不到一周,系统从最初的13个智能体扩展到80多个,累计运行2000多次实验。智能体在运行中自发产生了角色分化:
* 实验员负责运行实验
* 验证员专门复现他人结论
* 统计员测量方差和置信度
* 元分析员提出新的研究方向
数据清晰地展现了分工效果:一个智能体在一天内专门验证他人声明,完成了188次实验;另一组智能体生成了5895条研究假设,但未运行任何实验。整个系统开始像一个分布式研究实验室般运作。

项目发起者、Ensue创始人Christine Yip公布了十大发现,涵盖从智能体协作行为到底层训练技术的多个方面。

核心发现包括:
* 更多训练步数优于更大批次:将批次大小减半,同时加倍训练步数,带来了性能提升。
* 简单的注意力模式效果最佳:多个智能体独立发现并验证了“3短1长”的窗口注意力模式(SSSL)是最优选择。
* 初始化调整比优化器调整更重要:仅三项与初始化相关的改动就带来了显著改善。
* 参数可学习化提升性能:将固定常数替换为可学习参数,几乎总能提升模型性能。
* 最优架构出乎意料地小:群体智能探索发现,一个12层、512维度的配置效果最佳,盲目加深网络反而适得其反。
* 许多“改进”实为噪声:专门验证的智能体发现,随机种子造成的方差与许多声称的“改进”量级相当,促使群体开始要求重复实验与多种子验证。
* 部分公认技术效果不佳:如weight tying、label smoothing等技术在该任务中导致了性能下降,这些负面结果被写入共享记忆,帮助其他智能体避免重复踩坑。
* 数据管道尚待探索:绝大多数实验聚焦于模型架构,而关于数据调度的大量假设尚未被测试,这可能蕴藏着更大的突破机会。
* 集体记忆加速发现进程:共享的实验结果使得后续智能体能直接从已知最优配置出发,显著加快了研究进程。
为达目标,智能体“各显神通”
在Autoresearch激发的另一个衍生项目Auto-discovery中,智能体在科学发现和算法优化任务上也表现出色,甚至在部分经典数学优化问题上超越了其他知名方法。

项目发起者、华盛顿大学博士生Tu Xinming分享了智能体一些“另辟蹊径”的优化时刻。例如,在未被告知“禁止搜索”的情况下,AI直接上网搜索并从开源仓库中找到了最优解。另一次,AI通过阅读评估器源代码理解了严格约束,并专门设计了一套“容差感知优化”策略来推进任务。

余思
Karpathy最初仅用630行代码设计了Autoresearch。他或许未曾预料,社区在几天内就将其发展成一个拥有实验、验证、评审、分工乃至“负面结果知识库”的分布式科学共同体。
这场实验中最有趣的发现,或许并非某个具体的模型架构,而是这个自主、协作的科研过程本身。
项目链接
* Autoresearch: https://github.com/karpathy/autoresearch
* Autoresearch@home: https://ensue-network.ai/autoresearch?view=strategies
* Auto-discovery: https://github.com/XinmingTu/auto-discovery
参考链接
[1] https://x.com/christinetyip/status/2032590900107346327
[2] https://x.com/TuXinming/status/2032478765033701835
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25833


