DeepPHY基准揭示多模态大模型物理推理能力鸿沟：从静态理解到动态交互的挑战

近日，淘天集团算法技术-未来生活实验室团队提出的DeepPHY基准框架，作为首个系统性评估多模态大模型（VLM）交互式物理推理能力的综合基准，被AAAI 2026收录。该研究通过六个极具挑战性的物理模拟环境，揭示了即便是顶尖VLM，在将物理知识转化为精确、可预测的交互控制时，仍存在显著的核心短板。这一发现不仅对VLM在动态环境中的应用提出了严峻挑战，也为未来智能体技术的发展指明了关键方向。

当前，基于视觉语言模型的智能体在游戏、GUI操作和具身AI等动态交互环境中已取得显著进展。然而，现有基准大多侧重于静态问答，或采用过度简化的物理模型，难以全面评估智能体在真实物理世界中的推理能力。这种局限性导致VLM在静态图像理解上表现出色，但一旦进入需要与物理世界持续交互的动态环境，其性能往往大幅下降。DeepPHY的提出，正是为了弥补这一空白，通过构建一个综合性的物理推理考场，系统性地衡量VLM的“物理智商”。

DeepPHY基准框架的核心创新在于其集成了六个各具特色的物理挑战环境，全面覆盖了从基础物理（如碰撞、重力）到复杂动力学（如多体动力学、绳索张力）的多个维度。这些环境包括：PHYRE，在静态2D物理场景中考验模型的前瞻性规划能力；I-PHYRE，测试模型的时序规划，要求在精确时刻触发物理变化；Kinetix，检验模型的多部件协同控制与动态适应能力；台球环境，考察对碰撞、旋转和摩擦力等高级物理效应的理解；愤怒的小鸟，挑战模型对抛物线运动、结构力学和连锁反应的直觉掌握；以及割绳子，被视为物理智能的终极考验，要求精确时机、动作序列和多道具协同的综合推理。

为了让VLM能够专注于物理推理而非目标检测，研究人员对环境的观测和动作空间进行了标准化改造。通过增强观测空间（如在图像上叠加网格或ID标签，清晰标注可交互对象）和结构化动作空间（将连续或复杂动作转化为离散的、结构化的格式），DeepPHY降低了VLM的感知负担，使其在零样本设置下也能进行有效交互。这种设计使得评估更聚焦于VLM的物理推理智商，而非其感知能力。

在DeepPHY上，研究人员对17个主流VLM（包括Qwen、Claude、Gemini、GPT系列等开源与闭源模型）进行了全面的零样本评估。结果揭示了当前VLM在物理推理方面存在的普遍且深刻的局限性。总体而言，在多个环境中，大多数VLM的性能甚至无法超越一个随机执行动作的MOCK基线，这表明即便动作空间被大幅简化，模型依然缺乏对物理世界基本规律的深入理解。虽然最新的闭源大模型（如GPT-o3、Gemini-2.5-Pro）表现相对较好，但与理想性能和人类水平相比，仍有巨大鸿沟。

分环境剖析进一步暴露了VLM在不同维度的短板。在PHYRE和I-PHYRE环境中，模型难以从失败的尝试中有效学习，即使给予多次机会，成功率提升缓慢，表明其无法构建准确的内部物理世界模型来指导后续决策。在Kinetix环境中，随着任务难度增加，模型性能急剧下降，额外的视觉标注甚至会成为“认知干扰”，损害性能，这揭示了模型在处理复杂信息时的脆弱性。在Pooltool（台球）环境中，某些模型（如GPT-4o-mini）取得的100%成功率并非源于策略规划，而是在所有交互中返回了相同答案，完全不懂得利用旋转、角度等高级物理技巧进行布局，暴露了其策略的浅薄。在愤怒的小鸟和割绳子环境中，模型与人类玩家差距巨大，核心弱点在于时空推理能力的缺失，例如无法预测切断绳索后糖果的最佳摆动时机，或小鸟撞击后建筑物的连锁坍塌效果。

研究中最引人深思的发现是VLM“说得到”却“做不到”的脱节现象。团队设计了两种提示策略：直接输出动作的VLA模式，和要求模型先预测物理结果再输出动作的WM（World Model）模式。直觉上，WM模式应能促进模型思考，提升性能，但实验结果恰恰相反——在绝大多数复杂任务中，WM模式反而降低了成功率。通过进一步的案例分析，表明尽管模型能够用语言准确地描述出预期的物理结果，但在实际交互中却无法将这些知识转化为有效动作。这种脱节揭示了VLM在物理推理中的核心缺陷：它们可能通过大规模训练获得了丰富的物理知识描述能力，但缺乏将这些知识应用于动态、连续交互环境的内部机制。

DeepPHY的研究不仅为评估VLM的物理推理能力提供了标准化工具，也为未来智能体技术的发展提出了关键问题。如何让VLM从静态理解走向动态交互？如何构建能够真正理解物理因果关系的世界模型？这些问题的答案将直接影响具身智能、机器人控制等领域的进步。随着物理推理成为世界模型和具身智能的基石，DeepPHY基准的推出，标志着VLM评估从表面性能向深层能力转变的重要一步。未来，研究人员需在模型架构、训练方法和评估基准上持续创新，以弥合VLM在物理推理方面的鸿沟，推动智能体在真实世界中的广泛应用。