多模态大模型
-
大模型做不出理科题?研究揭示瓶颈在“眼神差”,CodePercept用代码重塑视觉感知
当多模态大语言模型在科学、技术、工程和数学领域的视觉推理任务中频频遭遇“滑铁卢”,一个根本性的困惑始终萦绕在研究者心头:大模型无法解答理科题目,究竟是源于其推理能力的先天不足(“脑子笨”),还是视觉感知环节存在缺陷(“眼神差”)? 为揭开这一谜团,来自上海交通大学与Qwen等机构的研究团队,将任务拆解为两个独立的阶段进行系统性分析:视觉感知阶段(将图像转化为…
-
夜间第一人称视觉AI集体失明?EgoNight基准揭示大模型夜晚理解力大幅下降
人类在夜里走路,即便光线昏暗也能认出熟人、避开障碍。 但AI的第一人称视觉模型到了晚上基本等于“瞎了”。 昏暗光照、反光、噪声、运动模糊,再加上佩戴式设备的抖动和遮挡…让视觉理解这道题,夜间难度直接翻倍。 来自INSAIT、华东师范大学、港科大(广州)、南开大学、复旦大学等机构的研究者提出EgoNight 基准,系统聚焦夜间第一人称视觉理解 这一长期被忽视的…
-
Video-MME-v2震撼发布:揭示大模型视频理解与人类的巨大鸿沟,传统评测指标已“失真”
现有大模型评测分数日趋饱和,但与真实体验差距显著。南京大学傅朝友团队牵头,在 Google Gemini 评测团队邀约下推出视频理解新基准 Video-MME-v2。凭借创新的分层能力体系与组级非线性评分,以及 3300+ 人工时高质量标注,揭示模型与人类的巨大鸿沟(49 vs 90)、传统 Acc 指标虚高、以及 “Thinking” 并非总是增益等现象。…
-
多模态大模型幻觉真相:转折词后最易“想偏”,新方法LEAD用潜在熵解码破解难题
研究发现,多模态大模型的幻觉问题,很多时候并非源于“看错”图像,而是在推理链最不确定的阶段“想偏”。具体而言,模型在生成 because、however、wait 等转折词时,往往处于高熵关键节点,更容易脱离视觉证据,转向语言先验的“脑补”。新方法 LEAD 通过在高熵阶段进行潜在语义空间解码、保留多种推理可能,并注入视觉锚点,有效缓解了这一问题。 随着多模…
-
腾讯混元团队发布HY-Embodied-0.5系列模型,为具身智能量身定制,实现物理世界精准交互
让大模型真正走进并理解物理世界,是当前人工智能领域最迫切的挑战之一。然而,通用视觉语言模型(VLM)在文本和图像理解上表现出色,一旦应用于需要与物理环境精确交互的机器人等具身智能体时,却常常显得“笨手笨脚”。 核心问题在于,物理世界容不得半点含糊。通用模型通常满足于“大致正确”的图像理解,而具身智能则需要极度精细的三维空间感知,以及对真实物理交互的预测和规划…
-
ReCALL框架破解大模型检索难题:AI国家队联合新加坡国立大学实现生成式模型无损变检索器,CVPR 2026收录
行业痛点:范式冲突导致大模型检索“能力退化” 多模态大模型(MLLM)在图文理解与逻辑推理方面展现出强大能力,将其应用于组合图像检索(CIR)任务,本应具有显著优势。然而,现实情况却相反:将生成式大模型强行改造为判别式检索器后,模型会出现严重的能力退化,甚至无法解决原本能够精准处理的问题。生成式与判别式之间的范式冲突,成为大模型向检索领域落地的核心障碍。 近…
-
SWE-Vision:让大模型用代码“看见”世界,五大视觉基准刷新SOTA
多模态大模型在代码生成与理解方面取得了显著进展,但其在基础视觉任务上的表现却时常不尽如人意。针对这一短板,UniPat AI 提出了一个极简的视觉智能体框架——SWE-Vision。该框架的核心思想是让模型能够编写并执行 Python 代码,以此处理和验证自身的视觉判断。在五个主流视觉基准测试中,SWE-Vision 均取得了当前最优的性能。 01|模型看得…
-
清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的’思维崩塌’难题
论文第一作者为清华大学在读博士生魏彤,研究方向为大模型智能体与强化学习,导师为兴军亮、史元春;共同一作为腾讯杨一君;合作者为北京大学卢宗青;通讯作者为叶德珩。 基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Reward, RLVR)能够有效提升大语言模型(LLMs)在思维链(Chain-of-Thou…
-
EgoSound:首个第一人称声音理解基准发布,多模态大模型“失聪”问题被量化,最强模型与人类差距超27%
EgoSound:首个第一人称声音理解基准发布,多模态大模型“失聪”问题被量化 当多模态大模型进入真实世界,其“失聪”问题开始凸显。 例如,在厨房场景中:背景可能有人交谈、金属碰撞、蒸汽嘶鸣——这些关键信息并未呈现在画面里,却完全由声音传递。此时,即便是当前最先进的模型也开始“失灵”:它们能看懂动作,却听不懂发生了什么;能描述现象,却无法推断背后的原因。 核…
-
清华大学联合美团推出3DThinker:首个让大模型“脑补”三维场景的突破性框架
给定几张场景图片,人类往往能在脑海中想象出该场景的三维布局。然而,当前的多模态大模型仍主要基于纯文本或二维视觉信息进行推理,难以有效表达图像中隐含的几何结构。 为此,清华大学与美团研究团队联合提出了 3DThinker——首个旨在让大模型进行三维场景“脑补”的突破性框架。 论文地址:https://arxiv.org/pdf/2510.18632 代码地址:…
