跨场景协调
-
VitaBench评测揭示AI智能体真实应用瓶颈:跨场景成功率仅30%,三大维度量化任务复杂性
点外卖时想让 AI 帮你筛选出符合口味、价格合适、配送及时的餐厅;规划旅行时希望它能一站式搞定机票、酒店、餐厅预订——这些看似简单的需求,对当前的大模型智能体而言,却是一道难以逾越的门槛。 美团 LongCat 团队近日发布的 VitaBench(Versatile Interactive Tasks Benchmark)评测基准,给出了一组值得深思的数据:…