AI专家级任务评测新标准:百万美元基准揭示模型真实经济价值

如果有价值一百万美元的顶级专家任务,AI 能完成其中多少?

答案是:价值约 48 万美元的任务,而完成这些任务的 API 成本仅需约 100 美元。

这个结论源于 Humanlaya Data Lab 联合北京通用人工智能研究院(BIGAI)、xbench、M-A-P 共同构建的百万美元级评测基准——$OneMillion-Bench。该基准招募了来自摩根士丹利、世达律师事务所、协和医院、国家电网、清华大学等机构的 100 余位资深专家,耗时超过 2000 小时,构建了总经济价值等价于人类专家工作百万美元的任务集。

随着 AI Agent 逐渐从概念走向应用,业界愈发关注其实际替代人类完成任务的能力。$OneMillion-Bench 的核心思路直接明了:以“人类专家的时间与成本”为任务定价,再用“是否满足专家交付要求”来衡量模型表现。简而言之,如果将 AI 视为“数字专家”,面对总价百万美元的任务,它究竟能“赚到”多少钱?

AI专家级任务评测新标准:百万美元基准揭示模型真实经济价值
$OneMillion-Bench 模型表现及其获取的经济价值

01 | 从“答题机”到“数字员工”:行业亟需可衡量经济价值的标尺

自 2025 年“AI Agent 元年”以来,AI 正从“答题机”向“数字员工”演进。然而,现有评测集往往缺乏对实际经济价值的衡量,存在区分度不足、难以自动化、且多局限于英文语境等问题。

为此,$OneMillion-Bench 旨在构建一套兼具高经济价值、高区分度且可自动评测的基准。它包含 400 道高难度题目(中英文各 200 题),覆盖金融、法律、医疗、自然科学与工业五大领域下的 92 个三级细分领域。与常见的考试题不同,每道题均模拟真实行业场景下的开放式专家任务,并采用 Rubrics(评分准则)结合 LLM as Judge 的方式进行评测。

该基准要求模型提供可落地的实操方案与决策链路,不仅回答“是什么”,更要阐明“怎么做、按什么顺序做、以及为什么这么做”。

AI专家级任务评测新标准:百万美元基准揭示模型真实经济价值
$OneMillion-Bench 涵盖的 5 大领域、37 个二级和 92 个三级细分类别

“百万美元”的命名源于这些任务本身的高昂价值。该基准摒弃了仅评估准确率的传统方式,转而用“货币”量化每道题的现实劳动价值:任务经济价值 = 资深专家完成该任务的耗时 × 专家时薪。时薪数据锚定官方或行业权威来源(如中国部分城市人社局、美国劳工统计局),任务耗时则由多领域专家共同评估得出。

将所有任务的经济价值加总后,其总额超过了 100 万美元。这意味着,在现实世界中将这些工作交由资深专家团队完成,所需成本正是百万美元量级。由此,模型评测不再停留于抽象分数,而是能更直观地回答:AI 当前能稳定交付多少“可兑现价值”,以及距离真正“上岗”还存在哪些差距。

AI专家级任务评测新标准:百万美元基准揭示模型真实经济价值
$OneMillion-Bench 经济价值计算方式示意

02 | 四大关键设计原则

1. 高真实性、高含金量的专家任务
基准从经济价值出发,旨在衡量模型在真实世界中创造可交付价值的能力。每道开放式题目均邀请一线资深专家,将真实工作流拆解为细粒度考点(每题15-35个,累计超7000个),覆盖5-15年经验从业者的典型场景,重点考察特定情境下的专家级决策能力。

2. 引入“非对称负分”机制,防止奖励黑客(Reward Hacking)
为避免模型通过堆砌内容“蒙对”考点,基准特别设置了行文逻辑、结构等扣分项。考点分值采用非对称设计(+10 ~ -20),对明确或致命错误施以更重惩罚,更贴近真实工作体感——做对不一定大幅加分,但做错往往代价高昂。

3. 覆盖92个细分领域,区分中英文语境
任务细化至92个三级分类的真实工作流,并分为中文(CN)与全球(Global)两大子集。题目设计充分考虑本地化的法规、流程与业务语境,以更精准刻画模型在特定地域场景中的能力差异。

4. 构建可规模化、可质控的专家生产流程
为确保数据质量,团队在专家招募、选拔与培训上投入巨大,专家平均整体通过率低于5%,题目最终质检通过率为38.1%。采用3-4名专家协作的流水线(Pipeline)进行数据生产,包含对抗性评审与仲裁机制,并通过双向截断策略控制题目难度,确保质量与一致性。

AI专家级任务评测新标准:百万美元基准揭示模型真实经济价值
题目示例

03 | 评测结果解读:SOTA模型成绩“合格”,但距离稳定交付尚有距离

当前,最强模型在基准上的任务通过率超过40%,这意味着在价值百万美元的任务中,其可交付产出价值约50万美元,而完成这些任务的API成本仅约100美元。这表明,AI在极高难度、高价值的专业任务上,已能创造可观的经济价值。

AI专家级任务评测新标准:百万美元基准揭示模型真实经济价值
模型的平均通过率、平均分及可产生的总经济价值

洞察一:成绩“合格”但远未“可托付”
若仅看平均分,头部模型已进入合格区间(60%+),第二梯队也多超过50%,说明AI能覆盖不少专业任务的关键点。然而,真实工作中,“平均合格”往往意味着需要返工。因此,基准引入了更贴近落地的指标——通过率(Pass Rate):单题得分需达到70%及以上,才算“通过”并可交付。

基于此,榜单中的经济价值(Economic Value) 并非按平均分线性折算,而是严格按“可交付”口径计算,只有通过的任务才计入“能赚到的钱”。可以说,平均分像是“考试成绩”,而通过率才是“上岗证”。

从通过率视角看,即使排名第一的模型也骤降至43.5%,即仅有不到45%的任务可通过验收;第二梯队多在25%~30%区间。换言之,目前尚无模型能在超过一半的任务中稳定达到可交付标准。AI虽已能交付部分高价值任务,但距离全面、稳定地胜任专业工作,仍有相当长的路要走。

洞察二:联网搜索(Web Search)是一把双刃剑
联网搜索功能通常能显著补齐模型在事实性信息上的短板,尤其在金融经济领域的时效性问题,以及医疗、工业、法律等规范持续演进的领域。然而,其使用也需审慎,信息的筛选与整合能力同样关键。

但它也会引入噪声与“看似权威的错误来源”,从而导致结果波动甚至回退。下一阶段的竞争焦点已不再是“是否具备搜索能力”,而是“能否有效运用搜索”——包括能否筛选可靠信源、进行交叉验证、将证据链融入推理过程,以及在信息噪声中保持逻辑一致性。

Insight 3:复杂推理仍是通用瓶颈,方向正确但缺乏可执行的细节

模型能够生成表面连贯的解释,但在需要深层理解、多步演绎或在庞大可能性空间中探索的任务中,仍会表现出深度不足与准确性波动。典型案例如软件工程、机器学习相关的探索式问题:这类任务通常需要先构建框架,再进行推导、反证与回溯修正,而模型往往中途跳步,或以看似合理的叙述替代严密推理。

此外,模型容易给出方向正确但缺乏可执行细节的回应。例如在医疗场景中,模型可能泛泛而谈,却遗漏关键的临床要素;在自然科学任务中,则常出现对实验条件预期不足、约束考虑不细、机制链条理解肤浅等问题。这类失误在实际落地中危害显著,因为回答“看起来正确”,却缺乏可付诸实践的信息量。

05|更进一步——将模型推进至“可交付”阶段

站在2024年的视角,AI或许仍像一个“大型玩具”。但展望2026年——当OpenClaw将智能体推向大众之后——我们看到的是另一番图景:AI已能交付价值达50万美元级别的专业工作;接下来的竞争关键在于持续提升这一价值,并使其更稳定、更可复核、更可控,从而将智能的边际进步直接转化为生产力与收入。

$OneMillion-Bench的意义并非“再造一个排行榜”,而在于量化“数字员工”的能力边界:当前与未来,你可以放心将哪些工作交付于它?

更多参考链接:
Humanlaya:https://lab.humanlaya.com/
BIGAI:https://www.bigai.ai
xbench:https://xbench.org
M-A-P:https://huggingface.co/m-a-p


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25087

(0)
上一篇 7小时前
下一篇 7小时前

相关推荐

  • 智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

    智谱AI近期发布了其2025年中的旗舰模型GLM-4.7,该版本的核心定位是强化Agentic Coding能力。 一句话总结:GLM-4.7在文本理解与创意写作方面表现突出,但在复杂代码生成与多模态理解上仍有明显不足,距离成为“Agentic Coding新标杆”尚需努力。 核心评测结论:* 三大亮点: * 基础推理扎实:在数学计算、逻辑推理、文本处理等基…

    2026年1月4日
    1.0K00
  • 阿里Qwen3.5-27B深度评测:理科思维突出,文档处理与逻辑推理是亮点,艺术创作待提升

    阿里近期推出了Qwen3.5-27B模型,作为Qwen3.5系列中的中型主力版本,它定位为一款兼顾高性价比与密集推理需求的开源模型。其实际性能表现如何?以下是本次评测的核心结论。 核心结论: 三大亮点: OCR与文档理解能力出色: 在纯文本提取、复杂表格结构还原及合并单元格识别等任务中表现精准,效果优于部分更大参数的模型。 空间逻辑与数学推理能力强: 在立体…

    2026年3月1日
    23600
  • 国产具身智能新突破:千寻Spirit v1.5开源即登顶全球真机评测榜首

    全球榜单中唯一成功率超过50%的模型。 智东西1月12日报道,今日,千寻智能正式开源自研VLA基础模型Spirit v1.5。就在前一天,该模型在全球具身智能模型评测平台RoboChallenge的综合评测中斩获第一。 RoboChallenge的基准测试包含30项任务,如摆放薯条、寻找固定颜色物体、贴胶带等。Spirit v1.5的综合得分为66.09分,…

    2026年1月12日
    16600
  • 实测Gemini 3 Pro:屠榜AI基准测试,一键生成网页应用与游戏

    谷歌最新发布的 Gemini 3 Pro 模型在多项 AI 基准测试中实现了“断层式”领先。与通常宣称“领先1个百分点”的模型不同,它在关键测试中领先幅度高达5-6个百分点。 尤其在被誉为「人类最后考试」的“Humanity’s Last Exam”基准上,它取得了45.8%的准确率。该测试由全球近千名学者联合打造,包含3000道高难度题目。 以…

    2025年11月21日
    13400
  • LLM应用评测全指南:核心指标、基准测试与实践方法

    手动抽查提示词和输出,既慢又容易遗漏,长期来看难以持续。要确保 LLM 应用上线后稳定可靠,必须将评估过程自动化、流水线化。本文旨在全面解析 LLM 评测的各个方面,帮助你构建长期稳定运行的 LLM 应用。 对 LLM 进行评测,是确保其输出符合人类预期的关键环节,涉及伦理安全、准确性、相关性等多个维度。从工程实践角度看,LLM 的输出可被转化为一系列单元测…

    2025年10月22日
    14900