多模态大模型
-
SWE-Vision:让大模型用代码“看见”世界,五大视觉基准刷新SOTA
多模态大模型在代码生成与理解方面取得了显著进展,但其在基础视觉任务上的表现却时常不尽如人意。针对这一短板,UniPat AI 提出了一个极简的视觉智能体框架——SWE-Vision。该框架的核心思想是让模型能够编写并执行 Python 代码,以此处理和验证自身的视觉判断。在五个主流视觉基准测试中,SWE-Vision 均取得了当前最优的性能。 01|模型看得…
-
清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的’思维崩塌’难题
论文第一作者为清华大学在读博士生魏彤,研究方向为大模型智能体与强化学习,导师为兴军亮、史元春;共同一作为腾讯杨一君;合作者为北京大学卢宗青;通讯作者为叶德珩。 基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Reward, RLVR)能够有效提升大语言模型(LLMs)在思维链(Chain-of-Thou…
-
EgoSound:首个第一人称声音理解基准发布,多模态大模型“失聪”问题被量化,最强模型与人类差距超27%
EgoSound:首个第一人称声音理解基准发布,多模态大模型“失聪”问题被量化 当多模态大模型进入真实世界,其“失聪”问题开始凸显。 例如,在厨房场景中:背景可能有人交谈、金属碰撞、蒸汽嘶鸣——这些关键信息并未呈现在画面里,却完全由声音传递。此时,即便是当前最先进的模型也开始“失灵”:它们能看懂动作,却听不懂发生了什么;能描述现象,却无法推断背后的原因。 核…
-
清华大学联合美团推出3DThinker:首个让大模型“脑补”三维场景的突破性框架
给定几张场景图片,人类往往能在脑海中想象出该场景的三维布局。然而,当前的多模态大模型仍主要基于纯文本或二维视觉信息进行推理,难以有效表达图像中隐含的几何结构。 为此,清华大学与美团研究团队联合提出了 3DThinker——首个旨在让大模型进行三维场景“脑补”的突破性框架。 论文地址:https://arxiv.org/pdf/2510.18632 代码地址:…
-
OmniSIFT:音视频Token压缩新突破,仅35%Token实现性能提升,推理时间减少42%
OmniSIFT:音视频Token压缩新突破,仅35%Token实现性能提升,推理时间减少42% 随着多模态大模型向“全模态”演进,Gemini-2.5-Pro、Qwen2.5-Omni等模型已能同时理解视频与音频信息。然而,这种综合感知能力的计算代价巨大。一段几十秒的音视频往往被编码为成千上万个Token,其中大量是冗余信息。注意力可视化实验揭示,在多模态…
-
ReVision突破:无需图文配对,几何对齐解锁多模态大模型预训练新范式
无需图文配对,几何对齐解锁多模态大模型预训练新范式 在多模态大模型(MLLM)的研发中,一个长期共识是:没有图文对(Image-Text Pairs),就没有多模态能力。为了训练模型理解图像,业界通常需要耗费巨资收集海量图片,并为每张图片生成高质量的文本描述。这种强监督的配对数据,一直被视为多模态训练的基石。 然而,来自港科大(广州)、新加坡国立大学等机构的…
-
AI大模型周报:阿里Qwen3.5 Plus多模态突破、谷歌Gemini 3.1 Pro推理升级、蚂蚁Ling-2.5即时模型开源
2月16日 【开源】阿里推出最新模型 Qwen3.5 Plus,支持文本、图像和视频多模态输入。 该模型在语言理解、逻辑推理、代码生成、智能体任务、图像理解、视频理解、图形用户界面(GUI)等多种任务中表现卓越,并支持内置工具调用。详情请参见:https://help.aliyun.com/zh/model-studio/text-generation 【开…
-
美团STAR大模型:突破多模态“理解-生成”零和困局,GenEval得分超0.91
近日,美团推出全新多模态统一大模型方案 STAR(STacked AutoRegressive Scheme for Unified Multimodal Learning),凭借创新的“堆叠自回归架构 + 任务递进训练”双核心设计,实现了“理解能力不打折、生成能力达顶尖”的双重突破。 在 GenEval(文本-图像对齐)、DPG-Bench(复杂场景生成)…
-
智源Emu3登Nature:统一多模态的“世界模型”路线如何颠覆AI未来?
一场押注AI未来的技术豪赌。 北京时间1月29日,北京智源人工智能研究院推出的多模态大模型“悟界·Emu”登上Nature正刊。这是继DeepSeek之后第二个达成此成就的中国大模型团队研究成果,也是中国首篇围绕多模态大模型路线的Nature论文。 Nature编辑在点评中指出:“Emu3仅基于‘预测下一个token’实现了大规模文本、图像和视频的统一学习,…
-
阿里ReWatch-R1:让大模型学会“回看”视频推理,基于证据链思考告别幻觉
为什么“逐步思考”在视频推理中会失效? 在数学推理任务中,让大模型“一步一步思考”通常能显著提升性能。然而,当同样的方法被应用于视频问答时,效果却常常不尽如人意,有时甚至不如让模型“直接回答”。 来自阿里巴巴未来生活实验室的研究团队指出,其根源在于任务性质的根本差异:数学推理是纯文本的逻辑推演,而视频推理要求模型在视觉信息与文本逻辑之间反复穿梭、交叉验证。简…
