AI专家级任务评测新标准：百万美元基准揭示模型真实经济价值

如果有价值一百万美元的顶级专家任务，AI 能完成其中多少？

答案是：价值约 48 万美元的任务，而完成这些任务的 API 成本仅需约 100 美元。

这个结论源于 Humanlaya Data Lab 联合北京通用人工智能研究院（BIGAI）、xbench、M-A-P 共同构建的百万美元级评测基准——$OneMillion-Bench。该基准招募了来自摩根士丹利、世达律师事务所、协和医院、国家电网、清华大学等机构的 100 余位资深专家，耗时超过 2000 小时，构建了总经济价值等价于人类专家工作百万美元的任务集。

随着 AI Agent 逐渐从概念走向应用，业界愈发关注其实际替代人类完成任务的能力。$OneMillion-Bench 的核心思路直接明了：以“人类专家的时间与成本”为任务定价，再用“是否满足专家交付要求”来衡量模型表现。简而言之，如果将 AI 视为“数字专家”，面对总价百万美元的任务，它究竟能“赚到”多少钱？

AI专家级任务评测新标准：百万美元基准揭示模型真实经济价值
$OneMillion-Bench 模型表现及其获取的经济价值

01 | 从“答题机”到“数字员工”：行业亟需可衡量经济价值的标尺

自 2025 年“AI Agent 元年”以来，AI 正从“答题机”向“数字员工”演进。然而，现有评测集往往缺乏对实际经济价值的衡量，存在区分度不足、难以自动化、且多局限于英文语境等问题。

为此，$OneMillion-Bench 旨在构建一套兼具高经济价值、高区分度且可自动评测的基准。它包含 400 道高难度题目（中英文各 200 题），覆盖金融、法律、医疗、自然科学与工业五大领域下的 92 个三级细分领域。与常见的考试题不同，每道题均模拟真实行业场景下的开放式专家任务，并采用 Rubrics（评分准则）结合 LLM as Judge 的方式进行评测。

该基准要求模型提供可落地的实操方案与决策链路，不仅回答“是什么”，更要阐明“怎么做、按什么顺序做、以及为什么这么做”。

AI专家级任务评测新标准：百万美元基准揭示模型真实经济价值
$OneMillion-Bench 涵盖的 5 大领域、37 个二级和 92 个三级细分类别

“百万美元”的命名源于这些任务本身的高昂价值。该基准摒弃了仅评估准确率的传统方式，转而用“货币”量化每道题的现实劳动价值：任务经济价值 = 资深专家完成该任务的耗时 × 专家时薪。时薪数据锚定官方或行业权威来源（如中国部分城市人社局、美国劳工统计局），任务耗时则由多领域专家共同评估得出。

将所有任务的经济价值加总后，其总额超过了 100 万美元。这意味着，在现实世界中将这些工作交由资深专家团队完成，所需成本正是百万美元量级。由此，模型评测不再停留于抽象分数，而是能更直观地回答：AI 当前能稳定交付多少“可兑现价值”，以及距离真正“上岗”还存在哪些差距。

AI专家级任务评测新标准：百万美元基准揭示模型真实经济价值
$OneMillion-Bench 经济价值计算方式示意

02 | 四大关键设计原则

1. 高真实性、高含金量的专家任务
基准从经济价值出发，旨在衡量模型在真实世界中创造可交付价值的能力。每道开放式题目均邀请一线资深专家，将真实工作流拆解为细粒度考点（每题15-35个，累计超7000个），覆盖5-15年经验从业者的典型场景，重点考察特定情境下的专家级决策能力。

2. 引入“非对称负分”机制，防止奖励黑客（Reward Hacking）
为避免模型通过堆砌内容“蒙对”考点，基准特别设置了行文逻辑、结构等扣分项。考点分值采用非对称设计（+10 ~ -20），对明确或致命错误施以更重惩罚，更贴近真实工作体感——做对不一定大幅加分，但做错往往代价高昂。

3. 覆盖92个细分领域，区分中英文语境
任务细化至92个三级分类的真实工作流，并分为中文（CN）与全球（Global）两大子集。题目设计充分考虑本地化的法规、流程与业务语境，以更精准刻画模型在特定地域场景中的能力差异。

4. 构建可规模化、可质控的专家生产流程
为确保数据质量，团队在专家招募、选拔与培训上投入巨大，专家平均整体通过率低于5%，题目最终质检通过率为38.1%。采用3-4名专家协作的流水线（Pipeline）进行数据生产，包含对抗性评审与仲裁机制，并通过双向截断策略控制题目难度，确保质量与一致性。

AI专家级任务评测新标准：百万美元基准揭示模型真实经济价值
题目示例

03 | 评测结果解读：SOTA模型成绩“合格”，但距离稳定交付尚有距离

当前，最强模型在基准上的任务通过率超过40%，这意味着在价值百万美元的任务中，其可交付产出价值约50万美元，而完成这些任务的API成本仅约100美元。这表明，AI在极高难度、高价值的专业任务上，已能创造可观的经济价值。

AI专家级任务评测新标准：百万美元基准揭示模型真实经济价值
模型的平均通过率、平均分及可产生的总经济价值

洞察一：成绩“合格”但远未“可托付”
若仅看平均分，头部模型已进入合格区间（60%+），第二梯队也多超过50%，说明AI能覆盖不少专业任务的关键点。然而，真实工作中，“平均合格”往往意味着需要返工。因此，基准引入了更贴近落地的指标——通过率（Pass Rate）：单题得分需达到70%及以上，才算“通过”并可交付。

基于此，榜单中的经济价值（Economic Value） 并非按平均分线性折算，而是严格按“可交付”口径计算，只有通过的任务才计入“能赚到的钱”。可以说，平均分像是“考试成绩”，而通过率才是“上岗证”。

从通过率视角看，即使排名第一的模型也骤降至43.5%，即仅有不到45%的任务可通过验收；第二梯队多在25%~30%区间。换言之，目前尚无模型能在超过一半的任务中稳定达到可交付标准。AI虽已能交付部分高价值任务，但距离全面、稳定地胜任专业工作，仍有相当长的路要走。

洞察二：联网搜索（Web Search）是一把双刃剑
联网搜索功能通常能显著补齐模型在事实性信息上的短板，尤其在金融经济领域的时效性问题，以及医疗、工业、法律等规范持续演进的领域。然而，其使用也需审慎，信息的筛选与整合能力同样关键。

但它也会引入噪声与“看似权威的错误来源”，从而导致结果波动甚至回退。下一阶段的竞争焦点已不再是“是否具备搜索能力”，而是“能否有效运用搜索”——包括能否筛选可靠信源、进行交叉验证、将证据链融入推理过程，以及在信息噪声中保持逻辑一致性。

Insight 3：复杂推理仍是通用瓶颈，方向正确但缺乏可执行的细节

模型能够生成表面连贯的解释，但在需要深层理解、多步演绎或在庞大可能性空间中探索的任务中，仍会表现出深度不足与准确性波动。典型案例如软件工程、机器学习相关的探索式问题：这类任务通常需要先构建框架，再进行推导、反证与回溯修正，而模型往往中途跳步，或以看似合理的叙述替代严密推理。

此外，模型容易给出方向正确但缺乏可执行细节的回应。例如在医疗场景中，模型可能泛泛而谈，却遗漏关键的临床要素；在自然科学任务中，则常出现对实验条件预期不足、约束考虑不细、机制链条理解肤浅等问题。这类失误在实际落地中危害显著，因为回答“看起来正确”，却缺乏可付诸实践的信息量。

05｜更进一步——将模型推进至“可交付”阶段

站在2024年的视角，AI或许仍像一个“大型玩具”。但展望2026年——当OpenClaw将智能体推向大众之后——我们看到的是另一番图景：AI已能交付价值达50万美元级别的专业工作；接下来的竞争关键在于持续提升这一价值，并使其更稳定、更可复核、更可控，从而将智能的边际进步直接转化为生产力与收入。

$OneMillion-Bench的意义并非“再造一个排行榜”，而在于量化“数字员工”的能力边界：当前与未来，你可以放心将哪些工作交付于它？

更多参考链接：
Humanlaya：https://lab.humanlaya.com/
BIGAI：https://www.bigai.ai
xbench：https://xbench.org
M-A-P：https://huggingface.co/m-a-p

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/25087

AI专家级任务评测新标准：百万美元基准揭示模型真实经济价值

01 | 从“答题机”到“数字员工”：行业亟需可衡量经济价值的标尺

02 | 四大关键设计原则

03 | 评测结果解读：SOTA模型成绩“合格”，但距离稳定交付尚有距离

相关推荐

揭秘多模态大模型评测中的“隐形浪费”：半数资源竟在重复劳动？

MiniMax M2.1深度实测：全栈开发新利器，从人生K线图到iOS木鱼App的代码生成实战

谷歌Gemini-3-Flash-Preview实测：成本仅为Pro版1/4，性能超越上代Pro，中文评测排名跃升至第5

GPT-5.1-high深度评测：推理能力飙升10%，但成本暴涨5.6倍，性价比失衡引争议

GAPS框架：全球首个专病循证评测标准，AI医生临床能力迎来硬核标尺