Claw-Eval
-
AI Agent评测进入下半场:从“看答案”到“看行动”,Claw-Eval如何防止系统放水?
今天的 AI Agent 越来越像能真正干活的数字员工:可以调用 API、查询数据库、撰写邮件、修改代码、安排日程、生成报表。但真正的难题并非它“会不会说”,而是两个更实际的问题:它到底有没有真正完成任务?以及我们用来测试它的任务,是否还代表当下真实世界最重要的工作流程? Claw-Eval 回答了前者,Claw-Eval-Live 回答了后者。前者解决的是…