AI科研神器来了？Frontier-Eng让Agent自动优化实验，告别调参噩梦

科研工作，能否借助 AI 实现全流程加速？

过去两年间，Auto Research 被寄予厚望：从阅读文献、确定方向，到编写代码、执行实验，甚至提出全新假设——AI 似乎有望成为科研领域的全能助手。

然而，真正做过研究的人都清楚，最耗费心力与时间的并非“能否运行”，而是“效果是否足够好”：调整参数、修改代码、观察输出，然后再次运行、再次调整……每一次优化都充满琐碎与重复，却又几乎无法绕过。

于是，一个关键问题浮现：能否将这些繁琐的迭代过程交给 AI？研究者只需指明方向，后续的“查看反馈 → 调整代码 → 逼近最优解”全部由 Agent 自动完成？

Einsia AI 旗下的 Navers Lab 在其最新论文 Frontier-Eng 中，正是聚焦于这一挑战。

AI科研神器来了？Frontier-Eng让Agent自动优化实验，告别调参噩梦

论文标题：Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization
项目主页：https://lab.einsia.ai/frontier-eng/
Arxiv 链接：https://arxiv.org/abs/2604.12290
Github 仓库：https://github.com/EinsiaLab/Frontier-Engineering

这并非又一个衡量“模型是否会做题”的基准测试。恰恰相反，它提出了一个更贴近真实 Auto Research 的问题：AI 究竟能将一个可行的方案优化到何种极致？

当 Agent 不再仅仅是“答题”，而是真正开始进行优化

过去两年，我们见识了众多 Agent 基准测试：有的考察检索能力，有的评估代码编写，有的检验任务能否完成。但这些测试大多遵循“对错分明”的二元评估逻辑。

然而，现实世界中的研究从来不是这样运作的。

很多时候，一个方法已经可以运行，结果也看似合理，但真正决定其竞争力的，是后续那一点点持续“打磨”出来的提升。

实验速度加快一点，意味着研究者能少等几轮结果；
显存占用节省一点，意味着更大的模型、更长的上下文、更复杂的配置得以运行；
指标提升一点，意味着离 SOTA 更近一步，离榜单前列更近一步，甚至可能决定论文能否被认可。

在 Auto Research 领域，最重要的不是 Agent 能否一次性给出看似合理的答案，而是它能否接手这段漫长的迭代过程：持续读取反馈、修改方案、运行实验、压榨指标，将研究者从最重复、最令人厌烦的调优工作中解放出来。

而 Frontier-Eng Bench 想要衡量的，正是 AI 能否胜任这一过程。

AI科研神器来了？Frontier-Eng让Agent自动优化实验，告别调参噩梦

Frontier-Eng 总览

论文将这类问题定义为一种新的评估范式：生成式优化（Generative Optimization）。其本质在于，让 Agent 不再只是“提交一次答案”，而是真正进入一个工程闭环：

提出方案
运行程序或仿真器
获取详细反馈
继续修改方案
在固定预算内不断逼近更优解

这实际上就是科研人员和工程师们每天都在做的事情。不是拍脑袋给出最终答案，而是不断尝试、不断调整、不断被现实“打脸”，然后反过来修正。

将 Agent 投入大量真实工程问题

为了构建一个可靠的基准测试，Navers Lab 搭建了一套相当硬核的评估系统。

研究团队邀请了来自各个工程领域的博士生和硕士生，提供他们各自领域经常遇到的真实问题，并将其转化为安全、可靠、可验证的代码库。换言之，Frontier-Eng 背后的每个任务都源于领域专家的一手经验。

Frontier-Eng v1 共涵盖 47 个任务，横跨 5 大工程方向，包括：

计算与量子信息
运筹与决策科学
机器人 / 控制 / 能源系统
光学与通信系统
物理科学与工程设计

任务类型并非纸上谈兵，而是直接将 Agent 投入大量真实工程问题中，例如：

GPU kernel 优化
电池快充策略
机械臂运动时间压缩
量子线路优化
数据中心控制
结构拓扑设计
作业车间调度
光学相位设计
单细胞分析
化学反应优化

AI科研神器来了？Frontier-Eng让Agent自动优化实验，告别调参噩梦

Frontier-Eng Bench 与已有评测基准的对比

这意味着 Frontier-Eng Bench 衡量的并非某个狭窄领域内的“技巧题”，而是在追问：当 Agent 面对不同学科、不同目标函数、不同仿真器、不同硬约束时，其持续优化的能力究竟如何。

一个专门防止 Agent“钻空子”、只比拼“硬实力”的基准测试

Frontier-Eng Bench 显然吸取了过去许多评估易被“钻空子”的教训。在这里：

评估器和参考数据是只读的，Agent 无法修改；
候选方案在隔离环境中运行，无法直接接触评分器；
最终分数来自 verifier 自身输出的日志，而非 Agent 报喜不报忧的自我报告。

也就是说，想要获得高分，只有一条路：真正把方案做得更好。

这件事之所以难，是因为它要求的已非单一能力，而是能力的组合。

模型既要懂领域知识，明白电池为何会析锂、机械臂为何会碰撞、库存策略为何失效；又要会编写和修改代码，将这些想法转化为可执行方案；还要会解读反馈，理解 simulator 给出的结果意味着什么；最后还需在有限预算内做出搜索决策：是进行大幅改动，还是做小幅调整？

论文中举了一个非常典型的例子：电池快充任务。目标很简单，大家都能理解——充得越快越好。

但现实远非如此简单：电压、温度、析锂、老化全是硬约束。Agent 不能为了追求速度而一路猛冲，它必须在充电速度、热安全和寿命损耗之间找到平衡。

这已不是“会不会写一个函数”的问题，而是能否在真实物理反馈中做出优化决策。

这也是 Frontier-Eng 最有意思的地方：

它不再问“答案对不对”，而是问“你能不能在现实约束里持续变好”。

AI科研神器来了？Frontier-Eng让Agent自动优化实验，告别调参噩梦

不同模型的详细评测结果

结果揭示：gpt 5.4 最稳健，但前路尚远

从结果来看，这套基准测试确实足够困难。

论文系统评估了多种前沿模型和代表性搜索框架，结论非常直接：gpt 5.4 整体表现最为稳健，但对所有模型而言，Frontier-Eng 都远未被攻克。

换句话说，目前最强的一批模型，已能在某些工程任务上展现出明显的优化能力，但距离“像资深工程师一样稳定地跨领域进行复杂优化”，还有很长的路要走。

比排名更有趣的，是这篇论文揭示出的两个规律。

AI科研神器来了？Frontier-Eng让Agent自动优化实验，告别调参噩梦

工程优化的双重幂律衰减

第一个规律是：越往后，提升越难。

论文发现，Agent 的改进频率和幅度均呈现幂律衰减：改进频率 ∝ 1 / 迭代轮数，改进幅度 ∝ 1 / 改进次数。简单来说就是：前几轮提升最快，后面越来越困难、越来越小。

这很像真实研发过程：第一版能轻松摘取大量“低垂果实”，但越往后越接近瓶颈，想要再抠出一点性能，都需要付出相当大的努力。

那么，是否多开几条路径并行尝试会更划算？答案在第二个规律中。

AI科研神器来了？Frontier-Eng让Agent自动优化实验，告别调参噩梦

深度 vs 宽度

第二个规律：宽度有用，但深度不可或缺。

并行运行多个任务链路能够有效防止进程中断，但在预算固定的前提下，每增加一条并行链路，就意味着每条路径的探索深度会相应减少。许多工程领域的重大突破，并非依靠“多试几次”的简单重复，而是源于持续积累、不断修正，最终实现结构性的跃迁。

这为下一代AI Agent指明了发展方向：它不应是一个“一次性给出答案”的模型，而应是一个能在长程反馈中持续迭代、自我进化的系统。

Frontier-Eng Bench：意义不止于榜单

Frontier-Eng Bench将行业的关注点从“能否答对问题”转向了一个更为现实的核心：AI能否替人类承担科研中最令人头疼、最琐碎、却又无法回避的工程优化工作？

评测的标准因此发生了根本性转变——不再是简单的“对或错”，而是“你能优化到什么程度”。

从这个角度来看，Frontier-Eng Bench所衡量的核心是：AI距离成为能够帮助人类承担“脏活累活”的工程优化执行者，还有多远？

迭代优化是科学研究中永远无法绕开的一环。跳过它，任何方案都只能停留在“差不多”的水平。那么，如果AI能够扛起这一环节呢？

对于科研人员而言，这意味着从繁琐的调优工作中解放出来。
对于Auto Research而言，则意味着能将方案落地到极致，从而真正开启增长飞轮。

这比又一组刷榜的数字，更值得整个行业认真对待。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/34366

AI科研神器来了？Frontier-Eng让Agent自动优化实验，告别调参噩梦

Frontier-Eng Bench：意义不止于榜单

相关推荐

通义 Qwen3.5-Flash 测评：开源新锐的剑之所及

BabyVision评测揭示多模态模型视觉能力仅达三岁幼儿水平，AI看懂世界之路仍漫长

GPT-5.2实测：速度革命性突破，准确率小幅回退，定位转向实时应用

硬件Bug修复，AI智能体为何“水土不服”？北大HWE-Bench基准揭示残酷真相

Agent能力评测全景图：从多轮对话到数据分析，解锁智能体真实水平