多模态大模型

DeepPHY基准揭示多模态大模型物理推理能力鸿沟：从静态理解到动态交互的挑战

近日，淘天集团算法技术-未来生活实验室团队提出的DeepPHY基准框架，作为首个系统性评估多模态大模型（VLM）交互式物理推理能力的综合基准，被AAAI 2026收录。该研究通过六个极具挑战性的物理模拟环境，揭示了即便是顶尖VLM，在将物理知识转化为精确、可预测的交互控制时，仍存在显著的核心短板。这一发现不仅对VLM在动态环境中的应用提出了严峻挑战，也为未来…

2025年11月16日

174000

AI产业动态

多模态大模型决策机制深度解析：从宏观偏好到微观不确定性

多模态大语言模型（MLLMs）作为人工智能领域的前沿技术，在整合视觉、文本等多种信息源方面展现出卓越能力。然而，当不同模态呈现相互冲突的信息时（例如图像显示蓝色汽车而文本描述为红色），模型如何做出最终决策成为一个关键科学问题。传统研究通常将模型选择与某一模态保持一致的行为称为“模态跟随”，并通过数据集层面的宏观统计数据来衡量。但这种方法存在根本性缺陷：它忽略…

2025年11月14日

164000

大模型评测

揭秘多模态大模型评测中的“隐形浪费”：半数资源竟在重复劳动？

当我们投入大量资源对多模态AI模型进行复杂评测时，是否想过其中有多少环节其实是在“原地打转”？最近，上海人工智能实验室联合上海交通大学、浙江大学的一项研究揭示了一个值得警惕的现象：当前主流的多模态大模型基准评测中，普遍存在着大量冗余。研究团队对超过20个主流多模态基准和100多个模型进行了系统性扫描，发现了一些颇具启发性的规律。这意味着什么？简单来说，我…

2025年11月12日

220000

AI产业动态

Bee项目：以数据质量革命重塑全开源多模态大模型格局

在人工智能快速发展的浪潮中，多模态大模型（MLLM）已成为连接视觉与语言智能的关键桥梁。然而，长期以来，全开源MLLM的性能始终被闭源和半开源模型所压制，形成了明显的技术壁垒。清华大学与腾讯混元团队联合推出的Bee项目，正是对这一困境的深刻回应。该项目不仅是一个模型，更是一套全栈式、完全开放的解决方案，旨在通过数据质量革命，从根本上拉近开源社区与顶尖模型之间…

2025年11月11日

204000

AI产业动态

UI-Genie：移动GUI智能体的自我进化革命——从数据瓶颈到自主能力跃迁

在人工智能技术快速演进的当下，多模态大模型正经历着从被动响应到主动执行的深刻转型。香港中文大学MMLab与vivo AI Lab联合团队的最新研究成果UI-Genie，为这一转型提供了极具启发性的技术路径。该研究由肖涵（第一作者，研究方向为多模态大模型和智能体学习）、王国志（研究方向为多模态大模型和Agent强化学习）共同完成，项目负责人任帅（研究方向为多模…

2025年11月7日

158000

AI产业动态

Open-o3 Video：首个显式时空证据嵌入的视频推理开源模型，实现有迹可循的AI视觉思考

在人工智能的多模态浪潮中，视频理解因其同时承载时间动态与空间交互的复杂性，始终被视为最具挑战性的任务之一。传统模型虽能回答“发生了什么”，却难以精准指出事件“何时何地”发生，其推理过程往往如同黑箱，缺乏可解释的视觉证据支撑。近日，来自北京大学与字节跳动的联合研究团队，正式推出了首个将显式时空证据嵌入视频推理全过程的开源模型——Open-o3 Video。这一…

2025年11月5日

184000

AI产业动态

PixelCraft：以高保真视觉处理与讨论式推理重塑结构化图像理解新范式

多模态大模型（MLLM）在自然图像理解领域已取得令人瞩目的成就，然而当任务场景转向图表、几何草图、科研绘图等高度结构化的图像时，传统方法的局限性便暴露无遗。细微的感知误差会沿着推理链条迅速放大，导致最终结论出现系统性偏差。线性、刚性的“链式思考”流程难以支撑复杂任务中必要的回溯、分支探索与假设修正，这已成为制约结构化图像理解迈向实用化的关键瓶颈。针对这一挑…

2025年11月3日

191000

AI产业动态

美团LongCat-Flash-Omni：全模态实时交互开源模型的架构突破与产业影响

在AI模型竞争日趋白热化的当下，美团最新开源的LongCat-Flash-Omni模型以“全模态实时交互”为核心卖点，不仅刷新了开源多模态模型的性能基准，更在架构设计层面展现了独特的技术路径。这款总参数560B、激活参数仅27B的MoE架构模型，成功实现了多模态能力与推理效率的平衡，标志着开源大模型在实用化道路上迈出了关键一步。从性能表现来看，LongCa…

2025年11月3日

175000

AI产业动态

悟界・Emu3.5：原生多模态世界大模型开启AI第三条Scaling范式

在人工智能技术快速演进的今天，多模态大模型正成为推动AI向通用人工智能迈进的关键力量。当业界仍在围绕自回归与扩散模型的技术路线展开激烈讨论时，北京智源人工智能研究院（BAAI）最新发布的悟界・Emu3.5模型，以其创新的“多模态世界大模型”定位，为这场技术辩论提供了全新的视角和答案。 Emu3.5不仅仅是一次常规的模型迭代，它被定义为“多模态世界大模型”（M…

2025年10月30日

187000