如果有价值一百万美元的顶级专家任务,AI 能完成其中多少?
答案是:价值约 48 万美元的任务,而完成这些任务的 API 成本仅需约 100 美元。
这个结论源于 Humanlaya Data Lab 联合北京通用人工智能研究院(BIGAI)、xbench、M-A-P 共同构建的百万美元级评测基准——$OneMillion-Bench。该基准招募了来自摩根士丹利、世达律师事务所、协和医院、国家电网、清华大学等机构的 100 余位资深专家,耗时超过 2000 小时,构建了总经济价值等价于人类专家工作百万美元的任务集。
随着 AI Agent 逐渐从概念走向应用,业界愈发关注其实际替代人类完成任务的能力。$OneMillion-Bench 的核心思路直接明了:以“人类专家的时间与成本”为任务定价,再用“是否满足专家交付要求”来衡量模型表现。简而言之,如果将 AI 视为“数字专家”,面对总价百万美元的任务,它究竟能“赚到”多少钱?

$OneMillion-Bench 模型表现及其获取的经济价值
01 | 从“答题机”到“数字员工”:行业亟需可衡量经济价值的标尺
自 2025 年“AI Agent 元年”以来,AI 正从“答题机”向“数字员工”演进。然而,现有评测集往往缺乏对实际经济价值的衡量,存在区分度不足、难以自动化、且多局限于英文语境等问题。
为此,$OneMillion-Bench 旨在构建一套兼具高经济价值、高区分度且可自动评测的基准。它包含 400 道高难度题目(中英文各 200 题),覆盖金融、法律、医疗、自然科学与工业五大领域下的 92 个三级细分领域。与常见的考试题不同,每道题均模拟真实行业场景下的开放式专家任务,并采用 Rubrics(评分准则)结合 LLM as Judge 的方式进行评测。
该基准要求模型提供可落地的实操方案与决策链路,不仅回答“是什么”,更要阐明“怎么做、按什么顺序做、以及为什么这么做”。

$OneMillion-Bench 涵盖的 5 大领域、37 个二级和 92 个三级细分类别
“百万美元”的命名源于这些任务本身的高昂价值。该基准摒弃了仅评估准确率的传统方式,转而用“货币”量化每道题的现实劳动价值:任务经济价值 = 资深专家完成该任务的耗时 × 专家时薪。时薪数据锚定官方或行业权威来源(如中国部分城市人社局、美国劳工统计局),任务耗时则由多领域专家共同评估得出。
将所有任务的经济价值加总后,其总额超过了 100 万美元。这意味着,在现实世界中将这些工作交由资深专家团队完成,所需成本正是百万美元量级。由此,模型评测不再停留于抽象分数,而是能更直观地回答:AI 当前能稳定交付多少“可兑现价值”,以及距离真正“上岗”还存在哪些差距。

$OneMillion-Bench 经济价值计算方式示意
02 | 四大关键设计原则
1. 高真实性、高含金量的专家任务
基准从经济价值出发,旨在衡量模型在真实世界中创造可交付价值的能力。每道开放式题目均邀请一线资深专家,将真实工作流拆解为细粒度考点(每题15-35个,累计超7000个),覆盖5-15年经验从业者的典型场景,重点考察特定情境下的专家级决策能力。
2. 引入“非对称负分”机制,防止奖励黑客(Reward Hacking)
为避免模型通过堆砌内容“蒙对”考点,基准特别设置了行文逻辑、结构等扣分项。考点分值采用非对称设计(+10 ~ -20),对明确或致命错误施以更重惩罚,更贴近真实工作体感——做对不一定大幅加分,但做错往往代价高昂。
3. 覆盖92个细分领域,区分中英文语境
任务细化至92个三级分类的真实工作流,并分为中文(CN)与全球(Global)两大子集。题目设计充分考虑本地化的法规、流程与业务语境,以更精准刻画模型在特定地域场景中的能力差异。
4. 构建可规模化、可质控的专家生产流程
为确保数据质量,团队在专家招募、选拔与培训上投入巨大,专家平均整体通过率低于5%,题目最终质检通过率为38.1%。采用3-4名专家协作的流水线(Pipeline)进行数据生产,包含对抗性评审与仲裁机制,并通过双向截断策略控制题目难度,确保质量与一致性。

题目示例
03 | 评测结果解读:SOTA模型成绩“合格”,但距离稳定交付尚有距离
当前,最强模型在基准上的任务通过率超过40%,这意味着在价值百万美元的任务中,其可交付产出价值约50万美元,而完成这些任务的API成本仅约100美元。这表明,AI在极高难度、高价值的专业任务上,已能创造可观的经济价值。

模型的平均通过率、平均分及可产生的总经济价值
洞察一:成绩“合格”但远未“可托付”
若仅看平均分,头部模型已进入合格区间(60%+),第二梯队也多超过50%,说明AI能覆盖不少专业任务的关键点。然而,真实工作中,“平均合格”往往意味着需要返工。因此,基准引入了更贴近落地的指标——通过率(Pass Rate):单题得分需达到70%及以上,才算“通过”并可交付。
基于此,榜单中的经济价值(Economic Value) 并非按平均分线性折算,而是严格按“可交付”口径计算,只有通过的任务才计入“能赚到的钱”。可以说,平均分像是“考试成绩”,而通过率才是“上岗证”。
从通过率视角看,即使排名第一的模型也骤降至43.5%,即仅有不到45%的任务可通过验收;第二梯队多在25%~30%区间。换言之,目前尚无模型能在超过一半的任务中稳定达到可交付标准。AI虽已能交付部分高价值任务,但距离全面、稳定地胜任专业工作,仍有相当长的路要走。
洞察二:联网搜索(Web Search)是一把双刃剑
联网搜索功能通常能显著补齐模型在事实性信息上的短板,尤其在金融经济领域的时效性问题,以及医疗、工业、法律等规范持续演进的领域。然而,其使用也需审慎,信息的筛选与整合能力同样关键。
但它也会引入噪声与“看似权威的错误来源”,从而导致结果波动甚至回退。下一阶段的竞争焦点已不再是“是否具备搜索能力”,而是“能否有效运用搜索”——包括能否筛选可靠信源、进行交叉验证、将证据链融入推理过程,以及在信息噪声中保持逻辑一致性。
Insight 3:复杂推理仍是通用瓶颈,方向正确但缺乏可执行的细节
模型能够生成表面连贯的解释,但在需要深层理解、多步演绎或在庞大可能性空间中探索的任务中,仍会表现出深度不足与准确性波动。典型案例如软件工程、机器学习相关的探索式问题:这类任务通常需要先构建框架,再进行推导、反证与回溯修正,而模型往往中途跳步,或以看似合理的叙述替代严密推理。
此外,模型容易给出方向正确但缺乏可执行细节的回应。例如在医疗场景中,模型可能泛泛而谈,却遗漏关键的临床要素;在自然科学任务中,则常出现对实验条件预期不足、约束考虑不细、机制链条理解肤浅等问题。这类失误在实际落地中危害显著,因为回答“看起来正确”,却缺乏可付诸实践的信息量。
05|更进一步——将模型推进至“可交付”阶段
站在2024年的视角,AI或许仍像一个“大型玩具”。但展望2026年——当OpenClaw将智能体推向大众之后——我们看到的是另一番图景:AI已能交付价值达50万美元级别的专业工作;接下来的竞争关键在于持续提升这一价值,并使其更稳定、更可复核、更可控,从而将智能的边际进步直接转化为生产力与收入。
$OneMillion-Bench的意义并非“再造一个排行榜”,而在于量化“数字员工”的能力边界:当前与未来,你可以放心将哪些工作交付于它?
更多参考链接:
Humanlaya:https://lab.humanlaya.com/
BIGAI:https://www.bigai.ai
xbench:https://xbench.org
M-A-P:https://huggingface.co/m-a-p
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25087
