跨场景协调

大模型评测

VitaBench评测揭示AI智能体真实应用瓶颈：跨场景成功率仅30%，三大维度量化任务复杂性

点外卖时想让 AI 帮你筛选出符合口味、价格合适、配送及时的餐厅；规划旅行时希望它能一站式搞定机票、酒店、餐厅预订——这些看似简单的需求，对当前的大模型智能体而言，却是一道难以逾越的门槛。美团 LongCat 团队近日发布的 VitaBench（Versatile Interactive Tasks Benchmark）评测基准，给出了一组值得深思的数据：…

2025年12月11日
192000