多模态大模型
-
DeepPHY基准揭示多模态大模型物理推理能力鸿沟:从静态理解到动态交互的挑战
近日,淘天集团算法技术-未来生活实验室团队提出的DeepPHY基准框架,作为首个系统性评估多模态大模型(VLM)交互式物理推理能力的综合基准,被AAAI 2026收录。该研究通过六个极具挑战性的物理模拟环境,揭示了即便是顶尖VLM,在将物理知识转化为精确、可预测的交互控制时,仍存在显著的核心短板。这一发现不仅对VLM在动态环境中的应用提出了严峻挑战,也为未来…
-
多模态大模型决策机制深度解析:从宏观偏好到微观不确定性
多模态大语言模型(MLLMs)作为人工智能领域的前沿技术,在整合视觉、文本等多种信息源方面展现出卓越能力。然而,当不同模态呈现相互冲突的信息时(例如图像显示蓝色汽车而文本描述为红色),模型如何做出最终决策成为一个关键科学问题。传统研究通常将模型选择与某一模态保持一致的行为称为“模态跟随”,并通过数据集层面的宏观统计数据来衡量。但这种方法存在根本性缺陷:它忽略…
-
揭秘多模态大模型评测中的“隐形浪费”:半数资源竟在重复劳动?
当我们投入大量资源对多模态AI模型进行复杂评测时,是否想过其中有多少环节其实是在“原地打转”? 最近,上海人工智能实验室联合上海交通大学、浙江大学的一项研究揭示了一个值得警惕的现象:当前主流的多模态大模型基准评测中,普遍存在着大量冗余。研究团队对超过20个主流多模态基准和100多个模型进行了系统性扫描,发现了一些颇具启发性的规律。 这意味着什么?简单来说,我…
-
Bee项目:以数据质量革命重塑全开源多模态大模型格局
在人工智能快速发展的浪潮中,多模态大模型(MLLM)已成为连接视觉与语言智能的关键桥梁。然而,长期以来,全开源MLLM的性能始终被闭源和半开源模型所压制,形成了明显的技术壁垒。清华大学与腾讯混元团队联合推出的Bee项目,正是对这一困境的深刻回应。该项目不仅是一个模型,更是一套全栈式、完全开放的解决方案,旨在通过数据质量革命,从根本上拉近开源社区与顶尖模型之间…
-
UI-Genie:移动GUI智能体的自我进化革命——从数据瓶颈到自主能力跃迁
在人工智能技术快速演进的当下,多模态大模型正经历着从被动响应到主动执行的深刻转型。香港中文大学MMLab与vivo AI Lab联合团队的最新研究成果UI-Genie,为这一转型提供了极具启发性的技术路径。该研究由肖涵(第一作者,研究方向为多模态大模型和智能体学习)、王国志(研究方向为多模态大模型和Agent强化学习)共同完成,项目负责人任帅(研究方向为多模…
-
Open-o3 Video:首个显式时空证据嵌入的视频推理开源模型,实现有迹可循的AI视觉思考
在人工智能的多模态浪潮中,视频理解因其同时承载时间动态与空间交互的复杂性,始终被视为最具挑战性的任务之一。传统模型虽能回答“发生了什么”,却难以精准指出事件“何时何地”发生,其推理过程往往如同黑箱,缺乏可解释的视觉证据支撑。近日,来自北京大学与字节跳动的联合研究团队,正式推出了首个将显式时空证据嵌入视频推理全过程的开源模型——Open-o3 Video。这一…
-
PixelCraft:以高保真视觉处理与讨论式推理重塑结构化图像理解新范式
多模态大模型(MLLM)在自然图像理解领域已取得令人瞩目的成就,然而当任务场景转向图表、几何草图、科研绘图等高度结构化的图像时,传统方法的局限性便暴露无遗。细微的感知误差会沿着推理链条迅速放大,导致最终结论出现系统性偏差。线性、刚性的“链式思考”流程难以支撑复杂任务中必要的回溯、分支探索与假设修正,这已成为制约结构化图像理解迈向实用化的关键瓶颈。 针对这一挑…
-
美团LongCat-Flash-Omni:全模态实时交互开源模型的架构突破与产业影响
在AI模型竞争日趋白热化的当下,美团最新开源的LongCat-Flash-Omni模型以“全模态实时交互”为核心卖点,不仅刷新了开源多模态模型的性能基准,更在架构设计层面展现了独特的技术路径。这款总参数560B、激活参数仅27B的MoE架构模型,成功实现了多模态能力与推理效率的平衡,标志着开源大模型在实用化道路上迈出了关键一步。 从性能表现来看,LongCa…
-
悟界・Emu3.5:原生多模态世界大模型开启AI第三条Scaling范式
在人工智能技术快速演进的今天,多模态大模型正成为推动AI向通用人工智能迈进的关键力量。当业界仍在围绕自回归与扩散模型的技术路线展开激烈讨论时,北京智源人工智能研究院(BAAI)最新发布的悟界・Emu3.5模型,以其创新的“多模态世界大模型”定位,为这场技术辩论提供了全新的视角和答案。 Emu3.5不仅仅是一次常规的模型迭代,它被定义为“多模态世界大模型”(M…
