Claw-Eval

大模型评测

AI Agent评测进入下半场：从“看答案”到“看行动”，Claw-Eval如何防止系统放水？

今天的 AI Agent 越来越像能真正干活的数字员工：可以调用 API、查询数据库、撰写邮件、修改代码、安排日程、生成报表。但真正的难题并非它“会不会说”，而是两个更实际的问题：它到底有没有真正完成任务？以及我们用来测试它的任务，是否还代表当下真实世界最重要的工作流程？ Claw-Eval 回答了前者，Claw-Eval-Live 回答了后者。前者解决的是…

1天前
158000