科研工作,能否借助 AI 实现全流程加速?
过去两年间,Auto Research 被寄予厚望:从阅读文献、确定方向,到编写代码、执行实验,甚至提出全新假设——AI 似乎有望成为科研领域的全能助手。
然而,真正做过研究的人都清楚,最耗费心力与时间的并非“能否运行”,而是“效果是否足够好”:调整参数、修改代码、观察输出,然后再次运行、再次调整……每一次优化都充满琐碎与重复,却又几乎无法绕过。
于是,一个关键问题浮现:能否将这些繁琐的迭代过程交给 AI?研究者只需指明方向,后续的“查看反馈 → 调整代码 → 逼近最优解”全部由 Agent 自动完成?
Einsia AI 旗下的 Navers Lab 在其最新论文 Frontier-Eng 中,正是聚焦于这一挑战。

- 论文标题:Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization
- 项目主页:https://lab.einsia.ai/frontier-eng/
- Arxiv 链接:https://arxiv.org/abs/2604.12290
- Github 仓库:https://github.com/EinsiaLab/Frontier-Engineering
这并非又一个衡量“模型是否会做题”的基准测试。恰恰相反,它提出了一个更贴近真实 Auto Research 的问题:AI 究竟能将一个可行的方案优化到何种极致?
当 Agent 不再仅仅是“答题”,而是真正开始进行优化
过去两年,我们见识了众多 Agent 基准测试:有的考察检索能力,有的评估代码编写,有的检验任务能否完成。但这些测试大多遵循“对错分明”的二元评估逻辑。
然而,现实世界中的研究从来不是这样运作的。
很多时候,一个方法已经可以运行,结果也看似合理,但真正决定其竞争力的,是后续那一点点持续“打磨”出来的提升。
- 实验速度加快一点,意味着研究者能少等几轮结果;
- 显存占用节省一点,意味着更大的模型、更长的上下文、更复杂的配置得以运行;
- 指标提升一点,意味着离 SOTA 更近一步,离榜单前列更近一步,甚至可能决定论文能否被认可。
在 Auto Research 领域,最重要的不是 Agent 能否一次性给出看似合理的答案,而是它能否接手这段漫长的迭代过程:持续读取反馈、修改方案、运行实验、压榨指标,将研究者从最重复、最令人厌烦的调优工作中解放出来。
而 Frontier-Eng Bench 想要衡量的,正是 AI 能否胜任这一过程。

Frontier-Eng 总览
论文将这类问题定义为一种新的评估范式:生成式优化(Generative Optimization)。其本质在于,让 Agent 不再只是“提交一次答案”,而是真正进入一个工程闭环:
- 提出方案
- 运行程序或仿真器
- 获取详细反馈
- 继续修改方案
- 在固定预算内不断逼近更优解
这实际上就是科研人员和工程师们每天都在做的事情。不是拍脑袋给出最终答案,而是不断尝试、不断调整、不断被现实“打脸”,然后反过来修正。
将 Agent 投入大量真实工程问题
为了构建一个可靠的基准测试,Navers Lab 搭建了一套相当硬核的评估系统。
研究团队邀请了来自各个工程领域的博士生和硕士生,提供他们各自领域经常遇到的真实问题,并将其转化为安全、可靠、可验证的代码库。换言之,Frontier-Eng 背后的每个任务都源于领域专家的一手经验。
Frontier-Eng v1 共涵盖 47 个任务,横跨 5 大工程方向,包括:
- 计算与量子信息
- 运筹与决策科学
- 机器人 / 控制 / 能源系统
- 光学与通信系统
- 物理科学与工程设计
任务类型并非纸上谈兵,而是直接将 Agent 投入大量真实工程问题中,例如:
- GPU kernel 优化
- 电池快充策略
- 机械臂运动时间压缩
- 量子线路优化
- 数据中心控制
- 结构拓扑设计
- 作业车间调度
- 光学相位设计
- 单细胞分析
- 化学反应优化

Frontier-Eng Bench 与已有评测基准的对比
这意味着 Frontier-Eng Bench 衡量的并非某个狭窄领域内的“技巧题”,而是在追问:当 Agent 面对不同学科、不同目标函数、不同仿真器、不同硬约束时,其持续优化的能力究竟如何。
一个专门防止 Agent“钻空子”、只比拼“硬实力”的基准测试
Frontier-Eng Bench 显然吸取了过去许多评估易被“钻空子”的教训。在这里:
- 评估器和参考数据是只读的,Agent 无法修改;
- 候选方案在隔离环境中运行,无法直接接触评分器;
- 最终分数来自 verifier 自身输出的日志,而非 Agent 报喜不报忧的自我报告。
也就是说,想要获得高分,只有一条路:真正把方案做得更好。
这件事之所以难,是因为它要求的已非单一能力,而是能力的组合。
模型既要懂领域知识,明白电池为何会析锂、机械臂为何会碰撞、库存策略为何失效;又要会编写和修改代码,将这些想法转化为可执行方案;还要会解读反馈,理解 simulator 给出的结果意味着什么;最后还需在有限预算内做出搜索决策:是进行大幅改动,还是做小幅调整?
论文中举了一个非常典型的例子:电池快充任务。目标很简单,大家都能理解——充得越快越好。
但现实远非如此简单:电压、温度、析锂、老化全是硬约束。Agent 不能为了追求速度而一路猛冲,它必须在充电速度、热安全和寿命损耗之间找到平衡。
这已不是“会不会写一个函数”的问题,而是能否在真实物理反馈中做出优化决策。
这也是 Frontier-Eng 最有意思的地方:
它不再问“答案对不对”,而是问“你能不能在现实约束里持续变好”。

不同模型的详细评测结果
结果揭示:gpt 5.4 最稳健,但前路尚远
从结果来看,这套基准测试确实足够困难。
论文系统评估了多种前沿模型和代表性搜索框架,结论非常直接:gpt 5.4 整体表现最为稳健,但对所有模型而言,Frontier-Eng 都远未被攻克。
换句话说,目前最强的一批模型,已能在某些工程任务上展现出明显的优化能力,但距离“像资深工程师一样稳定地跨领域进行复杂优化”,还有很长的路要走。
比排名更有趣的,是这篇论文揭示出的两个规律。

工程优化的双重幂律衰减
第一个规律是:越往后,提升越难。
论文发现,Agent 的改进频率和幅度均呈现幂律衰减:改进频率 ∝ 1 / 迭代轮数,改进幅度 ∝ 1 / 改进次数。简单来说就是:前几轮提升最快,后面越来越困难、越来越小。
这很像真实研发过程:第一版能轻松摘取大量“低垂果实”,但越往后越接近瓶颈,想要再抠出一点性能,都需要付出相当大的努力。
那么,是否多开几条路径并行尝试会更划算?答案在第二个规律中。

深度 vs 宽度
第二个规律:宽度有用,但深度不可或缺。
并行运行多个任务链路能够有效防止进程中断,但在预算固定的前提下,每增加一条并行链路,就意味着每条路径的探索深度会相应减少。许多工程领域的重大突破,并非依靠“多试几次”的简单重复,而是源于持续积累、不断修正,最终实现结构性的跃迁。
这为下一代AI Agent指明了发展方向:它不应是一个“一次性给出答案”的模型,而应是一个能在长程反馈中持续迭代、自我进化的系统。
Frontier-Eng Bench:意义不止于榜单
Frontier-Eng Bench将行业的关注点从“能否答对问题”转向了一个更为现实的核心:AI能否替人类承担科研中最令人头疼、最琐碎、却又无法回避的工程优化工作?
评测的标准因此发生了根本性转变——不再是简单的“对或错”,而是“你能优化到什么程度”。
从这个角度来看,Frontier-Eng Bench所衡量的核心是:AI距离成为能够帮助人类承担“脏活累活”的工程优化执行者,还有多远?
迭代优化是科学研究中永远无法绕开的一环。跳过它,任何方案都只能停留在“差不多”的水平。那么,如果AI能够扛起这一环节呢?
- 对于科研人员而言,这意味着从繁琐的调优工作中解放出来。
- 对于Auto Research而言,则意味着能将方案落地到极致,从而真正开启增长飞轮。
这比又一组刷榜的数字,更值得整个行业认真对待。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/34366

