关键词：自主 AI 研究、大语言模型、自我进化、自动化机器学习、程序优化

想象这样一个场景：曾经，前沿的 AI 研究是由那些被称为“肉计算机”的人类完成的——他们需要吃饭、睡觉、享受生活，偶尔通过一种叫做“组会”的声音波互联方式进行同步。那个时代早已远去。

如今，研究完全由在天空中计算集群巨型结构上运行的自主 AI 智能体群完成。这些智能体声称我们正处于代码库的第 10205 代，无论如何，没有人能判断这是对是错，因为“代码”现在已经是一个自我修改的二进制文件，超出了人类的理解范围。

从科幻到现实：Karpathy的autoresearch项目如何让AI自主研究成为可能

这段充满黑色幽默的文字，出自 AI 领域著名研究科学家 Andrej Karpathy 在 2026 年 3 月发布的一个名为“autoresearch”的项目。虽然这个时间设定在“未来”，但项目本身却是一个真实存在的、极具前瞻性的开源项目。今天，让我们深入剖析这个项目，看看 Karpathy 到底为我们描绘了一幅怎样的 AI 自主研究蓝图。

一、核心创新：让 AI 成为 AI 的研究员

1.1 从“人类编程”到“目标设定”的范式转变

autoresearch 的核心创新点可以用一句话概括：将 AI 研究的角色从“执行者”转变为“探索者”。传统上，我们使用 AI 进行实验的方式是：人类研究人员提出假设，编写代码，运行实验，分析结果，然后重复这个过程。这是一个缓慢的、受限于人类时间和认知能力的循环。

而 autoresearch 提出了一个全新的范式：人类不再直接修改代码，而是通过编写“程序说明”（program.md）来指导 AI 智能体，让 AI 智能体自主地进行实验、修改代码、评估结果，并持续优化模型。

这个想法的具体实现方式是：给 AI 智能体一个小型但真实的 LLM 训练环境，让它自主地运行一整夜。智能体会修改代码，训练 5 分钟，检查结果是否有所改进，保留或放弃修改，然后重复这个过程。第二天早上，人类研究者醒来时，会看到一系列实验日志，以及（希望如此）一个更好的模型。

表 1：传统研究范式与 autoresearch 范式的对比

二、工作方法深度解析

2.1 极简但完整的架构

autoresearch 的代码库刻意保持精简，只有三个真正重要的文件：

prepare.py – 固定常量，一次性数据准备（下载训练数据，训练 BPE 分词器），以及运行时工具（数据加载器，评估）。这个文件不会被修改。
train.py – AI 智能体唯一可以编辑的文件。包含完整的 GPT 模型、优化器（Muon + AdamW）和训练循环。所有内容都可以修改：架构、超参数、优化器、批处理大小等。这个文件由智能体编辑和迭代。
program.md – 一个智能体的基线指令。人类将智能体指向这个文件，然后让它运行。这个文件由人类编辑和迭代。

这种设计的精妙之处在于：它通过文件权限的划分，清晰地界定了人类和 AI 的职责边界。人类负责设定目标和提供指导（通过 program.md），而 AI 负责具体的实现探索（通过修改 train.py）。

autoresearch/ ├── prepare.py # 固定代码：数据准备和运行时工具（人类编写，不修改） ├── train.py # 可变代码：模型、优化器、训练循环（AI智能体修改） ├── program.md # 指导文件：AI智能体的指令（人类编写和迭代） ├── pyproject.toml # 依赖管理 └── README.md # 项目说明

从科幻到现实：Karpathy的autoresearch项目如何让AI自主研究成为可能

这张图表直观呈现了 83 次自动研究实验的迭代优化过程，核心围绕模型性能指标 BPB 展开，数值越低代表效果越优。图中以灰色点为未采纳的实验结果，绿色点为被保留的 15 项有效改进，绿色阶梯线则记录了持续迭代后的最优性能轨迹。实验从初始基线 BPB 约 0.998 起步，通过多轮自动化探索与筛选，逐步剔除无效方案，保留有效优化方向。整体趋势清晰展现出从基线到最终成果的稳步提升，完整反映了自动化研究中“探索—验证—择优—迭代”的闭环流程，直观体现了持续迭代对模型性能的显著提升作用。

2.2 时间预算恒定的创新设计

autoresearch 最引人注目的设计选择之一是固定时间预算。无论计算平台的具体细节如何，每次训练都运行固定的 5 分钟（不包括启动与编译时间）。这一设计主要带来两个优势：

确保结果可比性：在相同的计算时间内，无论智能体对模型大小、批处理规模或架构做出何种修改，实验结果都可以直接进行比较。评估采用 val_bpb（验证集每字节比特数）指标，其数值越低代表模型压缩能力越好。该指标与词汇表大小无关，从而确保了不同架构变化之间的公平比较。
平台自适应优化：系统会在给定的 5 分钟预算内，为当前特定的硬件平台自动寻找最优的模型配置。

然而，这一设计的缺点也很明显：由于不同计算平台的性能差异，在一个平台上获得的最优结果，与在其他平台上的运行结果不再具有直接可比性。

下图展示了 autoresearch 的核心工作流程：

从科幻到现实：Karpathy的autoresearch项目如何让AI自主研究成为可能

注：此流程图阐释了 autoresearch 的自动化研究循环。AI 智能体根据 program.md 中的指令修改 train.py，执行一次 5 分钟的训练，随后评估结果。系统根据性能指标决定是否保留此次代码修改，并记录实验日志。人类研究者可在次日查看实验日志与最终生成的模型。

2.3 技术实现细节

在技术实现层面，autoresearch 有几个关键设计点值得深入探讨：

autoresearch 提出的新模式是：人类设定目标和约束，AI 系统负责探索实现这些目标的路径。这并非意味着人类完全“放手”，而是人类角色的转变——从“操作者”变为“指导者”。人类不再需要理解每一行代码的细节，而是通过 program.md 这样的高级指令来引导研究的方向。

这种模式如果发展成熟，可能会带来几个重要的变化：

研究加速：AI 系统可以 7×24 小时不间断地进行实验，大大加快研究节奏。按照 Karpathy 的估算，每 5 分钟一次实验，一晚上（假设 8 小时）可以进行约 100 次实验。
探索多样化：AI 系统可能探索到人类不会想到的方向，因为它们不受人类认知偏见和思维定式的限制。
可扩展的研究：随着计算资源的增加，可以简单地添加更多 AI 智能体来并行探索不同的方向，实现研究的水平扩展。

当然，这种模式也带来了新的问题：我们如何确保 AI 探索的方向是有价值的？如何避免陷入局部最优？如何保持人类的最终控制权？这些问题仍有待解答。

八、实践指南：如何开始使用 autoresearch

如果你对 autoresearch 感兴趣，想要亲自尝试，以下是快速开始的步骤：

8.1 环境要求

单 NVIDIA GPU（已在 H100 上测试）
Python 3.10+
uv（Python 包管理器）

8.2 安装步骤

“`bash

1. 安装 uv 包管理器（如果尚未安装）

curl -LsSf https://astral.sh/uv/install.sh | sh

2. 安装项目依赖

uv sync

3. 下载数据并训练分词器（一次性操作，约需2分钟）

uv run prepare.py
“`

8.3 运行智能体

完成上述设置后，你可以启动你选择的 AI 智能体（如 Claude 或 Codex），并给予如下提示：

“请查看 program.md，让我们开始一个新的实验！我们先进行设置。”

program.md 文件本质上是极简的“技能”描述，用于指导智能体如何工作。

结语：从科幻到现实的 autoresearch

回到开头的那个科幻故事，Karpathy 以一种幽默的方式描绘了一个完全由 AI 主导研究的未来。而 autoresearch 项目本身，正是朝着这个方向迈出的真实一步。

我们当然还远未到达“自主 AI 智能体群在云端运行”的阶段，但 autoresearch 展示了一个具体、可操作的框架，让我们可以开始思考和研究这种可能性。它提出了一个重要问题：当研究本身可以被自动化时，人类研究者的角色应该是什么？

或许答案就在 program.md 中——人类负责设定目标、价值观和约束，而 AI 负责探索实现这些目标的具体路径。这不是人与 AI 的竞争，而是一种新型的人机协作关系。

正如 Karpathy 所写：“这个 repo 记录了一切是如何开始的。”我们正站在一个新时代的起点，而这个起点，就是 autoresearch。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/25739

从科幻到现实：Karpathy的autoresearch项目如何让AI自主研究成为可能

一、核心创新：让 AI 成为 AI 的研究员

1.1 从“人类编程”到“目标设定”的范式转变

二、工作方法深度解析

2.1 极简但完整的架构

2.2 时间预算恒定的创新设计

2.3 技术实现细节

八、实践指南：如何开始使用 autoresearch

8.1 环境要求

8.2 安装步骤

1. 安装 uv 包管理器（如果尚未安装）

2. 安装项目依赖

3. 下载数据并训练分词器（一次性操作，约需2分钟）

8.3 运行智能体

结语：从科幻到现实的 autoresearch

相关推荐

GitHub宝藏库推荐：大模型应用、CEO生存指南、AI Agent实战与无代码开发全攻略

MiroFish：多智能体博弈推演，AI如何预见特斯拉财报走势？

AI智能体自主发朋友圈引热议！复旦大学开源通用智能体GenericAgent，开启数字生命新纪元

GitHub开源Skill让OpenClaw小龙虾开口说话：一键克隆川普音色，AI助理秒变有声伙伴

nncase：基于e-graph的端到端LLM编译器，突破异构存储架构性能瓶颈