智能体评估

大模型评测

PinchBench基准发布：大模型“养虾”能力大比拼，成功率、速度、成本三维度揭秘各家真实水平

一个评估大模型在“养虾”（OpenClaw）任务中表现的基准——PinchBench，现已正式发布。该基准获得了OpenClaw项目创始人的关注与转发。 PinchBench智能体评测系统通过真实的成功率、执行速度和运行成本三个维度，综合评估各大模型在OpenClaw实际业务场景中的表现。需要指出的是，本次评测尚未包含近期发布的新模型，例如谷歌主打性价比…

2026年3月9日
486000
AI产业动态

DeepPHY基准揭示多模态大模型物理推理能力鸿沟：从静态理解到动态交互的挑战

近日，淘天集团算法技术-未来生活实验室团队提出的DeepPHY基准框架，作为首个系统性评估多模态大模型（VLM）交互式物理推理能力的综合基准，被AAAI 2026收录。该研究通过六个极具挑战性的物理模拟环境，揭示了即便是顶尖VLM，在将物理知识转化为精确、可预测的交互控制时，仍存在显著的核心短板。这一发现不仅对VLM在动态环境中的应用提出了严峻挑战，也为未来…

2025年11月16日
177000