
点外卖时想让 AI 帮你筛选出符合口味、价格合适、配送及时的餐厅;规划旅行时希望它能一站式搞定机票、酒店、餐厅预订——这些看似简单的需求,对当前的大模型智能体而言,却是一道难以逾越的门槛。
美团 LongCat 团队近日发布的 VitaBench(Versatile Interactive Tasks Benchmark)评测基准,给出了一组值得深思的数据:即便是当前最领先的推理模型,在跨场景复杂任务中的成功率也仅有 30% 。这个数字背后,折射出智能体从“能用”到“好用”之间,仍存在相当距离。
现有评测基准的四重局限
在深入分析 VitaBench 的设计之前,我们需要理解一个关键问题:为什么现有的智能体评测体系难以反映真实应用场景的挑战?
工具生态过于简化。 早期的评测基准主要关注单次 API 调用的准确率——函数能否选对、参数能否填对。然而现实场景中,工具之间存在复杂的依赖关系,需要组合调用才能完成任务。
信息维度单一。 真实应用需要处理时空信息、常识知识、多场景服务数据、用户画像、历史交易记录等多源信息,而多数基准仅聚焦于单一类型。
探索空间受限。 为模拟真实场景,一些基准会将领域知识组装成冗长的策略文档,要求模型严格遵循。这种做法虽然贴近现实,却限制了模型在复杂环境中自主探索解空间的能力。
用户交互静态化。 用户需求往往是模糊的、会在对话中演变的,情绪和表达方式也各不相同。大多数基准并未充分考虑这种动态复杂性。
三维量化框架:拆解任务复杂性的本质
VitaBench 的核心创新在于提出了一套系统化的复杂度量化框架,从三个维度拆解智能体任务的难度。
推理复杂度 衡量的是智能体在部分可观测环境中整合信息的能力。具体指标包括:环境整体信息量、需要通过交互才能获取的信息比例、以及任务中显性与隐性推理点的数量。在 VitaBench 中,单个任务可涉及 5-20 个服务提供商、超过 100 个候选产品,形成了相当复杂的搜索与推理空间。
工具复杂度 将工具集建模为有向图,顶点代表工具,边代表依赖关系。图的规模与密度反映了掌握工具集的难度,而完成任务所需的调用链路长度则体现了需求覆盖的广度。VitaBench 从外卖点餐、餐厅就餐、旅游出行三大场景中提炼出 66 个工具,通过 Python 函数实现,确保调用结果的稳定性。
交互复杂度 则关注智能体在动态多轮对话中的掌控能力。VitaBench 构建了包含人口属性、饮食偏好、消费历史的用户画像系统,并对情绪表达(急躁、焦虑、冷漠等)和交互模式(细节导向、依赖型、逻辑型等)进行建模。用户的状态和意图会在交互过程中持续变化,要求智能体实时调整策略。
构建流程:从框架到任务的两阶段设计

VitaBench 的构建遵循清晰的两阶段流程,兼顾系统性与可扩展性。
第一阶段聚焦于框架设计。 团队从三个领域中抽象核心功能,定义了 66 个简化但功能完整的 API 工具;基于工具间的依赖关系构建有向图,将领域规则编码到图结构中;同时实现了基于语言模型的用户模拟器,支持模糊化需求生成与个性化响应。
第二阶段专注于任务创建。 用户画像基于真实平台数据合成差异化特征;任务指令融合多个真实用户请求,改写得到复合目标;环境数据结合真实数据合成扩展,再由人工核验确保任务可完成;每个任务还制定了独立且细粒度的评测标准。
这套设计有一个值得关注的特点:去除策略文档依赖。VitaBench 将领域规则统一编码到工具图结构中,智能体需要通过工具描述自行推理领域逻辑,而非依赖预设的规则文档。这种方式更贴近真实场景中“边探索边学习”的使用模式,也使得框架能够灵活支持各种场景与工具集的自由组合。

最终,团队基于三个领域构建了 400 项评测任务:300 项单场景任务聚焦于单一领域的复杂需求,100 项跨场景任务考察智能体在多场景间的切换执行与信息整合能力。每个任务均经过多名专业标注人员和领域专家的多次校验,既确保复杂度,又保证可完成性。
评估机制:细粒度的行为覆盖
针对长轨迹评估的复杂性,团队提出了基于 Rubric 的滑动窗口评估器。

传统的状态比对方法存在明显局限——商品推荐、行程规划等行为并不改变最终数据库状态,难以被有效捕捉。VitaBench 借鉴最新研究思路,将任务目标拆解为一组原子化评估准则(Rubric),实现更全面的行为覆盖。
评估器通过带重叠的滑动窗口扫描完整对话轨迹,在保持上下文连贯性的同时持续跟踪每个 Rubric 的状态,确保跨窗口一致。最终以严格的「全有或全无」标准判断任务完成与否。这种细粒度设计不仅提升了评估的可解释性,也为后续强化学习研究提供了更密集、可靠的反馈信号。
与人工标注相比,该评估器的一致性达到 Cohen’s κ 0.828,具备较高可信度。
评测结果揭示的几个关键发现

团队评测了包括 GPT-5、Claude-4.1-Opus、Gemini-2.5-Pro、Kimi-K2、GLM-4.5 等 20 余款主流模型。结果呈现出几个值得关注的规律:

跨场景协调是当前模型的显著短板。 表现最佳的 o3(high)模型在跨场景任务中的成功率仅为 30.0%,而单场景任务可达 48.3%。这说明模型在跨域工具协调与意图整合方面存在根本性不足。

稳定性问题不容忽视。 Pass@4(四次中至少成功一次)可达 60%,但 Pass^4(四次全部成功)接近 0%。这意味着即使模型“能做到”,也很难“稳定做到”——对于生产环境的可靠性要求而言,这是个关键挑战。
深度推理带来实质提升。 启用链式推理的模型普遍提升 5-8 个百分点,且交互轮次更少。这印证了在复杂任务中,规划能力的重要性。

消融实验进一步验证了三维复杂度框架的有效性:推理点数量与成功率呈强负相关;工具图规模越大,任务越难;引入真实用户模拟器后,性能下降 15-25 个百分点。
典型失败模式:问题出在哪里?

错误案例分析显示,推理相关错误占比最高(61.8%),其次是工具相关错误(21.1%)和交互相关错误(7.9%)。
几种代表性的失败模式值得关注:模型在时空推理与常识推理任务中容易忽略细节;即便具备正确的工具和条件,也常因对自身能力的不确定而提前放弃;当工具调用失败或需求模糊时,倾向于重复无效操作,而非主动调整策略。
这些问题指向了当前智能体在多维信息整合、自我评估、以及动态策略调整方面的改进空间。
对实践的启发
VitaBench 的价值不仅在于提供了一套评测工具,更在于它系统化地揭示了智能体在真实场景中面临的核心挑战。
对于正在构建或评估智能体系统的团队而言,这组数据提供了几个参考点:跨场景能力是当前的主要瓶颈;稳定性与准确率同样重要;深度推理机制能带来实质性提升;用户交互的复杂性不应被低估。
VitaBench 已全面开源,包括项目代码、数据集和持续更新的排行榜。对于关注智能体评测的同行,这是一个值得跟踪的基准。
项目主页:https://vitabench.github.io
论文链接:https://arxiv.org/abs/2509.26490
代码仓库:https://github.com/meituan-longcat/vitabench
数据集:https://huggingface.co/datasets/meituan-longcat/VitaBench
排行榜:https://vitabench.github.io/#Leaderboard
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14547
