2026年AI领域最重要的概念Harness:从百度伐谋登顶MLE-Bench看AI智能体的工程化革命

编辑 | 泽南

2026 年 AI 领域最重要的概念,可能非 Harness 莫属。

上个月底,Anthropic 的 AI 编程智能体 Claude Code 源代码意外泄露,业界在围观之下无不发出感叹:「Harness engineering 真是太难了。」

2026年AI领域最重要的概念Harness:从百度伐谋登顶MLE-Bench看AI智能体的工程化革命

作为 AI 智能体(Agent)的两大支柱之一,大模型是基础,Harness 则是上层建筑。具体来说,Harness Engineering 是指围绕 AI 智能体设计系统、约束和反馈循环,使其在生产环境中能够可靠运行的工程学科。

在这其中,权限与安全护栏、记忆与状态管理、工具与工作流编排,以及自我纠错循环的机制缺一不可。AI 领域对于 Harness 的重视,意味着 AI 技术正在告别盲盒时代,迈向了工程学的范畴。

在产业落地这个层面上,国内的实践走在了前面,并率先完成了第三方的实证。

近日,在由 OpenAI 主导设立的权威基准测试 MLE-Bench 上,企业级算法自主优化智能体百度伐谋(Famou)击败了各路玩家登顶,并刷新了 SOTA 成绩。

2026年AI领域最重要的概念Harness:从百度伐谋登顶MLE-Bench看AI智能体的工程化革命
2026年AI领域最重要的概念Harness:从百度伐谋登顶MLE-Bench看AI智能体的工程化革命

这是继去年 10 月首次登顶后,百度伐谋的第二次领跑。这次拿下第一的是 2.0 版,预计于今年 5 月 13 日的 Create 2026 百度 AI 开发者大会上正式发布。

与那些考常识问答、写代码的常规评测不同,MLE-Bench 被业内公认为是检验智能体「动手能力」的硬核考场。它挑选了 75 个来自顶尖数据科学平台 Kaggle 竞赛的真实工程难题,重点考察 AI 在模型训练、数据准备、实验运行等机器学习全流程中的端到端实战能力。

简单来说,MLE-Bench 不考「单选题」,它考的是工程项目开发的应用题,需要 AI 智能体能像一位经验丰富的人类算法工程师一样,完成从需求理解到解法输出的全链路设计,找出全局最优解。

能在 MLE-Bench 上登顶,意味着伐谋已经超越了做题家的范畴,在解决实际工程和算法优化问题上的能力达到了顶尖水平。

而且这次的成绩「来之不易」。

登榜风波:有关 AI 评测底线的较量

故事要先从一场榜单风波说起。

去年 10 月,百度伐谋团队首次向 OpenAI 主导的 MLE-Bench 提交了 Famou Agent 的成绩,以 43.56 分拿下当时的 SOTA(最优水平)。在此之前,这个硬核的机器学习工程榜单提交者寥寥,伐谋的登顶瞬间让榜单热闹了起来,陆续吸引了近 10 家顶尖团队入场角逐。

到 12 月末,百度伐谋推出了 2.0 版本,并以 59.56 分再次登顶。

有意思的是在这次升级中,伐谋团队做出了一个有些反直觉的决定:他们没有使用当时最先进的基座模型,而是继续使用上一代的模型作为基础。他们希望单独验证智能体 Harness 自身的系统进步。

今年 2 月,在大家都还在 60 分区间苦苦挣扎时,一家名为 Disarray 的创业公司突然提交了一份 77.78 分的答卷。

但很快 AI 社区发现了异样之处:Disarray 的智能体在某些任务(如 GPS 定位任务)上竟然跑出了「0.0 误差」的成绩,在另一些图像任务中也拿到了低得离谱的分数。这种几乎不可能的成绩引爆了 GitHub 讨论区。

有研究者发现,Disarray 的智能体在运行过程中会利用 MLE-Bench 机制的漏洞接收来自「私有测试集」的二值反馈信号,智能体在还没交卷的时候,就已经提前知道了考试答案的大致方向。同时,它甚至在某些任务中直接调用了外部网络数据。

2026年AI领域最重要的概念Harness:从百度伐谋登顶MLE-Bench看AI智能体的工程化革命

争议之外,伐谋团队决定出手,他们换上了最新 SOTA 模型作为基础模型进行提交,最终得分:64.44 分。虽然绝对分数没有超过利用了漏洞的 Disarray,但这个成绩没有使用私有测试集的反馈信号,也没有使用外部网络数据。

3 月 23 日,MLE-Bench 官方终于做出决定,新增一个专属的清洁赛道(No Private LB),将所有具有数据泄漏嫌疑的方法(包括 Disarray)隔离,并打上警示标签。

排除了干扰项后,一直坚守实验原则、拒绝走捷径的百度伐谋 2.0 以无可争议的分数重回主榜榜首。

这场榜单名次的更迭,似乎也隐喻了 AI 工程化的核心命题:在有研究团队不断刷分的同时,也有探索者正在践行 Harness 的工程化思路,一步步攻克真实世界任务的壁垒。

伐谋 2.0 为什么能赢?

百度能够在全球顶尖智能体的角逐中拔得头筹并非偶然,答案就藏在那个让整个硅谷都在热烈讨论的新词里:Harness Engineering(系统编排工程)。

过去几年,AI 行业的竞争焦点集中在基础模型上。但人们发现,在处理真实世界复杂的工程问题时,再聪明的模型如果没有合理的系统编排与约束,还是会在长链条任务中失去方向,陷入死循环,或者产出无法落地的错误代码。

Harness Engineering 因此逐渐受人重视,其目标非常明确:从手工构建 AI 转向框架驱动的演化。

基于大模型这个「发动机」,Harness 负责管理任务的拆解、记忆存储、试错反馈、工具调用以及安全边界。已有不少 AI 专业人士认为,在未来的 AI 竞赛中,谁能构建出最优秀的 Harness 框架,谁就能真正把大模型的智力转化为生产力。

2026年AI领域最重要的概念Harness:从百度伐谋登顶MLE-Bench看AI智能体的工程化革命

这个前沿议题也正是百度伐谋一直以来努力的方向。

伐谋是一个让 AI 算法自主进化、寻找全局最优解的多智能体系统,旨在高效率地解决高难度的问题。它结合了大语言模型和进化搜索算法,能够解决复杂的现实世界问题。去年 11 月的百度世界大会上,我们已经见证了百度伐谋的技术框架和实践成果。

2026年AI领域最重要的概念Harness:从百度伐谋登顶MLE-Bench看AI智能体的工程化革命

李彦宏曾表示,「只要问题的解法是明确可验证的,伐谋就可以模拟甚至超越顶尖的算法专家。」

在伐谋 2.0 版本上,演化策略、长程记忆机制、底层基础设施等层面又获得了全面优化。

首先,伐谋执行的是多智能体并行探索模式。在面对一个新任务时,系统首先会通过多智能体并发生成多个「初始算法解」(冷启动),将它们分发到不同的「岛屿」形成初始种群。随后进入自演化阶段,在分布式集群上利用大规模并行的变异与交叉机制持续迭代,不断向全局最优解逼近。它不需要工程师手工构建每一层能力,而是让智能体在演化中自主寻优。

其次,伐谋升级了长程记忆机制,能让智能体像人类工程师一样在长链条任务中保持思路清晰、逻辑一致。该机制解决了大模型「做着后面忘了前面」的痛点,让智能体能在真实世界复杂的工程任务中记住此前的分析、决策和中间结果。

最后,通过底层基础设施优化,伐谋实现了算法演化迭代效率的显著提升。依托百度智能云的全栈 AI 云优化,伐谋在计算资源调度、任务并行执行、容错恢复等方面做到了极致。底层的夯实,让整个庞大的系统能够「跑得稳、跑得快、跑得可靠」。

榜单是验证,产业是答案

MLE-Bench 榜单的成绩只是技术验证的一角,百度伐谋其实已经在真实物理世界里解决了很多产业难题,其中不乏一些我们想象不到的案例。

在汽车研发领域,风阻系数是影响新能源车续航的关键指标,但气动验证一直面临挑战。传统方法依赖仿真软件求解复杂的偏微分方程,单次验证耗时可达10小时。设计师完成草图后,往往需要被动等待工程师的反馈,过程如同“开盲盒”。

亚洲最大的独立汽车设计公司阿尔特,将其AI核心平台与百度伐谋深度结合,利用伐谋的自我演化能力,训练出“御风”智能预测系统。

2026年AI领域最重要的概念Harness:从百度伐谋登顶MLE-Bench看AI智能体的工程化革命

该系统将原本需要10小时的分析验证过程,缩短至数分钟内即可输出可视化压力云图及风阻系数,预测误差控制在5%以内。这种能力上的代差,使得传统的“设计-验证-修改”串行流程,升级为“边设计、边验证”的并行协同模式,整车研发周期因此缩短了25%。

在金融领域,数字银行的核心护城河在于风控,而风控的生命线则依赖于“特征挖掘”。中信百信银行将伐谋智能体引入其核心风控体系。在此,伐谋扮演着一位不知疲倦的“策略演化大师”,凭借其高维数据感知能力,7×24小时于海量数据中挖掘风险特征,在极短时间内达到了专业数据工程师的水平。

实战成果显著:伐谋不仅将特征挖掘效率提升了100%,还精准捕捉到人类分析师极易忽略的高价值特征,使风控模型的风险区分度提升了2.41%。这意味着银行能够在可控风险范围内更精准地识别优质客户,从而拓宽普惠金融的服务边界。

更进一步,伐谋解决复杂问题的能力不仅应用于工业场景,也在推动前沿科研范式的革新。

北京工业大学将百度伐谋应用于中国空间站微型空气质量监测设备的研发。面对核心部件“气相色谱柱”的流场均匀性难题,伐谋通过自我演化突破了常规设计思路,找到了构型更小、排列更紧密的最优解,显著提升了气体分离效率。

天津大学则将其应用于灾害预测与预警模型的筛选与优化(如滑坡位移预测、结构面岩爆)。过去依赖人工串行试验、动辄以“周”为单位的模型选优周期,被伐谋压缩至6小时以内。

借助AI智能体的能力,人类专家得以从繁复的手动试错中解放出来,回归科研的本质——定义科学问题、发现新规律。而那些最困难、最耗时的算法演化与庞杂计算,正逐步交由智能体高效完成。

结语

从百度伐谋的一系列实践中可以看出,Harness Engineering 正在成为下一代AI工程化的重要分水岭。

经过大量实际任务的验证,伐谋证明了一套完整的AI智能体架构,无需人类工程师手工编写每一层规则,即可通过自我演化寻找最优解。

当AI竞赛的焦点从模型层延伸至框架层,国内AI团队在工程实践领域的持续深耕,正在定义新的工程化范式。新一代生产力,正在真实场景中攻克那些“最难的问题”。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/29794

(0)
上一篇 2026年4月11日 下午1:46
下一篇 2026年4月11日 下午1:55

相关推荐

  • 智算新纪元:2026超万卡集群技术演进与产业协同全景解析

    自ChatGPT发布以来,全球科技产业迎来大模型创新浪潮,数据作为新生产要素、算力作为新基础能源、大模型作为新生产工具的格局已全面成型,各行各业从“+AI”向“AI+”的转型进入深水区。 2024至2026两年间,大模型参数量从万亿级向十万亿级跨越,多模态、超长序列、实时交互等场景的爆发式增长,推动智算基础设施迎来代际升级,超万卡集群已从“军备竞赛标配”转变…

    大模型工程 2026年2月23日
    1.0K00
  • 从BERT到Genie:掩码范式如何铺就通往AGI的世界模型之路

    从BERT到Genie:掩码范式如何铺就通往AGI的世界模型之路 从OpenAI的Sora到Google DeepMind的Genie,2025年无疑是世界模型 (World Model) 的爆发之年。 然而,繁荣的背后是概念的混战:世界模型究竟是什么?是强化学习里用来训练Agent的环境模拟器?是看过所有YouTube视频的预测模型?还是一个能生成无限3D…

    2026年1月1日
    48500
  • 智谱GLM-5技术全公开:国产芯片全适配,长任务时代开启

    GLM-5 技术论文完全公开 GLM-5 背后的技术论文现已完全公开。 论文标题直接点明了其核心主张:告别Vibe Coding,迈入 智能体工程(Agentic Engineering)。 正如之前的实测所示,GLM-5能够自主连续运行代码超过24小时,进行超过700次工具调用和800次上下文切换,甚至可以从零开始构建一个Game Boy Advance(…

    2026年2月25日
    49600
  • 告别手动造数据:5款高效生成逼真测试数据的开发者利器

    几乎每位开发者都经历过因缺少数据而测试受阻的时刻。无论是测试一个API、一个表单还是一个数据看板,如果没有足够真实的数据输入,测试结果往往缺乏参考价值。手动编造假邮箱、手机号或地址,对付几行数据尚可,一旦需要成百上千条记录,就会变成一项耗时且枯燥的苦差事。 为了进行有效的测试,我们需要结构化且逼真的应用数据。无论是验证分页逻辑的稳健性,还是观察API在面对混…

    2025年12月5日
    40200
  • 深度网络通信瓶颈:152层模型为何“沉默”?华中科大团队揭示层间信息稀释难题

    深度网络通信瓶颈:152层模型为何“沉默”?华中科大团队揭示层间信息稀释难题(上) 过去十年,深度学习领域取得进展的方式出奇地一致:构建更大的模型。更多的参数、更多的数据、更长的上下文。这套方法确实有效:损失在降低,能力在增长,扩展定律(Scaling Law)精确地指引着研究团队需要投入多少资源。 然而,扩展的方向不同,其挑战和影响也截然不同。序列长度的扩…

    2026年4月20日
    23200