多模态大模型

大模型做不出理科题？研究揭示瓶颈在“眼神差”，CodePercept用代码重塑视觉感知

当多模态大语言模型在科学、技术、工程和数学领域的视觉推理任务中频频遭遇“滑铁卢”，一个根本性的困惑始终萦绕在研究者心头：大模型无法解答理科题目，究竟是源于其推理能力的先天不足（“脑子笨”），还是视觉感知环节存在缺陷（“眼神差”）？为揭开这一谜团，来自上海交通大学与Qwen等机构的研究团队，将任务拆解为两个独立的阶段进行系统性分析：视觉感知阶段（将图像转化为…

1天前

61000

大模型评测

夜间第一人称视觉AI集体失明？EgoNight基准揭示大模型夜晚理解力大幅下降

人类在夜里走路，即便光线昏暗也能认出熟人、避开障碍。但AI的第一人称视觉模型到了晚上基本等于“瞎了”。昏暗光照、反光、噪声、运动模糊，再加上佩戴式设备的抖动和遮挡…让视觉理解这道题，夜间难度直接翻倍。来自INSAIT、华东师范大学、港科大（广州）、南开大学、复旦大学等机构的研究者提出EgoNight 基准，系统聚焦夜间第一人称视觉理解这一长期被忽视的…

2026年4月24日

185000

大模型评测

Video-MME-v2震撼发布：揭示大模型视频理解与人类的巨大鸿沟，传统评测指标已“失真”

现有大模型评测分数日趋饱和，但与真实体验差距显著。南京大学傅朝友团队牵头，在 Google Gemini 评测团队邀约下推出视频理解新基准 Video-MME-v2。凭借创新的分层能力体系与组级非线性评分，以及 3300+ 人工时高质量标注，揭示模型与人类的巨大鸿沟（49 vs 90）、传统 Acc 指标虚高、以及 “Thinking” 并非总是增益等现象。…

2026年4月13日

426000

大模型推理

多模态大模型幻觉真相：转折词后最易“想偏”，新方法LEAD用潜在熵解码破解难题

研究发现，多模态大模型的幻觉问题，很多时候并非源于“看错”图像，而是在推理链最不确定的阶段“想偏”。具体而言，模型在生成 because、however、wait 等转折词时，往往处于高熵关键节点，更容易脱离视觉证据，转向语言先验的“脑补”。新方法 LEAD 通过在高熵阶段进行潜在语义空间解码、保留多种推理可能，并注入视觉锚点，有效缓解了这一问题。随着多模…

2026年4月10日

254000

大模型工程

腾讯混元团队发布HY-Embodied-0.5系列模型，为具身智能量身定制，实现物理世界精准交互

让大模型真正走进并理解物理世界，是当前人工智能领域最迫切的挑战之一。然而，通用视觉语言模型（VLM）在文本和图像理解上表现出色，一旦应用于需要与物理环境精确交互的机器人等具身智能体时，却常常显得“笨手笨脚”。核心问题在于，物理世界容不得半点含糊。通用模型通常满足于“大致正确”的图像理解，而具身智能则需要极度精细的三维空间感知，以及对真实物理交互的预测和规划…

2026年4月9日

1.2K000

大模型工程

ReCALL框架破解大模型检索难题：AI国家队联合新加坡国立大学实现生成式模型无损变检索器，CVPR 2026收录

行业痛点：范式冲突导致大模型检索“能力退化” 多模态大模型（MLLM）在图文理解与逻辑推理方面展现出强大能力，将其应用于组合图像检索（CIR）任务，本应具有显著优势。然而，现实情况却相反：将生成式大模型强行改造为判别式检索器后，模型会出现严重的能力退化，甚至无法解决原本能够精准处理的问题。生成式与判别式之间的范式冲突，成为大模型向检索领域落地的核心障碍。近…

2026年4月7日

288000

开源项目

SWE-Vision：让大模型用代码“看见”世界，五大视觉基准刷新SOTA

多模态大模型在代码生成与理解方面取得了显著进展，但其在基础视觉任务上的表现却时常不尽如人意。针对这一短板，UniPat AI 提出了一个极简的视觉智能体框架——SWE-Vision。该框架的核心思想是让模型能够编写并执行 Python 代码，以此处理和验证自身的视觉判断。在五个主流视觉基准测试中，SWE-Vision 均取得了当前最优的性能。 01｜模型看得…

2026年3月16日

457000

大模型训练

清华北大腾讯联合研究：GTR框架破解VLM智能体训练中的’思维崩塌’难题

论文第一作者为清华大学在读博士生魏彤，研究方向为大模型智能体与强化学习，导师为兴军亮、史元春；共同一作为腾讯杨一君；合作者为北京大学卢宗青；通讯作者为叶德珩。基于可验证奖励的强化学习（Reinforcement Learning with Verifiable Reward, RLVR）能够有效提升大语言模型（LLMs）在思维链（Chain-of-Thou…

2026年3月13日

382000

大模型评测

EgoSound：首个第一人称声音理解基准发布，多模态大模型“失聪”问题被量化，最强模型与人类差距超27%

EgoSound：首个第一人称声音理解基准发布，多模态大模型“失聪”问题被量化当多模态大模型进入真实世界，其“失聪”问题开始凸显。例如，在厨房场景中：背景可能有人交谈、金属碰撞、蒸汽嘶鸣——这些关键信息并未呈现在画面里，却完全由声音传递。此时，即便是当前最先进的模型也开始“失灵”：它们能看懂动作，却听不懂发生了什么；能描述现象，却无法推断背后的原因。核…

2026年3月12日

293000

大模型工程

清华大学联合美团推出3DThinker：首个让大模型“脑补”三维场景的突破性框架

给定几张场景图片，人类往往能在脑海中想象出该场景的三维布局。然而，当前的多模态大模型仍主要基于纯文本或二维视觉信息进行推理，难以有效表达图像中隐含的几何结构。为此，清华大学与美团研究团队联合提出了 3DThinker——首个旨在让大模型进行三维场景“脑补”的突破性框架。论文地址：https://arxiv.org/pdf/2510.18632 代码地址：…

2026年3月11日

319000