工具使用

大模型评测

AI工具使用能力评测新突破：WildToolBench揭示大语言模型在真实场景中的巨大差距

关键词：大语言模型、工具使用、基准评测、真实场景、智能体当 AI 从实验室走向真实世界，简单的任务竟可能成为难以逾越的鸿沟。假设你正在准备一场关于“2024年热门电影推荐”的演示，于是向 AI 助手发出指令：“帮我查查今年最火的几部电影，然后做个简单的调查问卷 PPT。” 在实验室的理想环境中，AI 或许能完美地执行这一任务：调用电影搜索 API 获取列…

10小时前
28000