视觉语言模型
-
腾讯混元团队发布HY-Embodied-0.5系列模型,为具身智能量身定制,实现物理世界精准交互
让大模型真正走进并理解物理世界,是当前人工智能领域最迫切的挑战之一。然而,通用视觉语言模型(VLM)在文本和图像理解上表现出色,一旦应用于需要与物理环境精确交互的机器人等具身智能体时,却常常显得“笨手笨脚”。 核心问题在于,物理世界容不得半点含糊。通用模型通常满足于“大致正确”的图像理解,而具身智能则需要极度精细的三维空间感知,以及对真实物理交互的预测和规划…
-
清华&港中文团队提出ColaVLA:自动驾驶推理告别文本,潜空间思维+分层并行规划引领新范式
过去两年,自动驾驶与大模型(尤其是视觉语言模型,VLM)的结合成为热门研究方向。一个直观的思路是:利用VLM强大的场景理解与推理能力,使其像人类驾驶员一样,先理解环境、再做判断、最后输出控制轨迹。 然而,将这一思路落地到自动驾驶领域时,一个普遍存在的问题是:许多方法虽然引入了大模型,却仍将“推理”过程构建为文本链式思维(Chain-of-Thought)。即…
-
几何感知短板暴露!清华团队提出GEOPERCEIVE评测框架,首次独立评估VLM几何识别能力
几何感知短板暴露!清华团队提出GEOPERCEIVE评测框架,首次独立评估VLM几何识别能力 近年来,视觉语言模型(VLMs)在图文问答、表格理解、数学应用题等多模态任务上取得了显著进展。然而,当面对几何图形问题时,它们的表现往往明显下降。 近日,来自光明实验室与清华大学的研究团队通过深入剖析多个主流模型的错误案例,发现了一个关键问题:当前VLM在几何问题上…
-
超越语言建模:Meta与纽约大学探索统一多模态预训练,让AI直接理解现实世界
基础模型的能力爆发,源于海量文本的预训练。然而,文本只是人类对现实世界的一种抽象表达,是信息的有损压缩。 借用柏拉图的“洞穴寓言”:语言模型擅长描述墙壁上的影子,却从未见过投射影子的实体。它们精于捕捉符号,却难以理解物理世界中高保真的规律、结构与因果。 除了这一哲学局限,还存在一个现实瓶颈:高质量文本数据有限,且正逐渐枯竭。相比之下,视觉世界提供了近乎无限的…
-
阿里Qwen3.5-Plus实测:3970亿参数模型性能飙升,成本骤降47%
阿里正式发布Qwen3.5系列,并推出了该系列的首个模型——Qwen3.5-397B-A17B的开放权重版本。作为原生视觉-语言模型,Qwen3.5-397B-A17B在推理、编程、智能体能力与多模态理解等全方位基准评测中表现优异。该模型采用创新的混合架构,将线性注意力(Gated Delta Networks)与稀疏混合专家(MoE)相结合,总参数量达39…
-
PaperBanana:北大与谷歌联手推出AI论文插图生成器,顶会级图表一键生成
你负责写方法,AI负责画 Figure。科研打工人,终于等来「画图解放日」。 还在为论文里的方法框图熬夜画 PPT、拉箭头、对齐字体吗? 一张 Figure 2,动辄几个小时,严重的甚至能耗上几天,科研人的「隐藏副本」不是实验,而是画图。 既要忠于论文原意,又得暗暗符合顶会那套心照不宣的「学术审美」:颜色不能土,布局不能乱,箭头更不能连错。 看起来只是一张图…
-
Attention机制暗藏偏置陷阱:上海大学团队提出去偏修正公式,提升多模态大模型剪枝效率
Attention机制暗藏偏置陷阱:上海大学团队提出去偏修正公式,提升多模态大模型剪枝效率 近年来,视觉-语言模型在多模态理解任务中取得了显著进展。为了降低推理成本,模型通常通过语言到视觉的注意力来衡量视觉标记与文本之间的相关性,并据此进行视觉标记剪枝。 然而,一个长期被忽视的问题是:注意力本身是否真的能够作为“语义重要性”的可靠指标? 上海大学曾丹团队在最…
-
视觉压缩革命:DeepSeek-OCR与VTCBench如何重塑长文本理解的未来?
DeepSeek-OCR 提出的视觉文本压缩(Vision-Text Compression, VTC)技术,通过将文本编码为视觉 Token,实现了高达 10 倍的压缩率,显著降低了大模型处理长文本的计算与显存成本。然而,一个核心问题随之浮现:视觉语言模型(VLM)能否真正理解这种高度压缩后的高密度信息? 为了系统性地评估模型在视觉压缩范式下的认知能力,来…
-
阿里VLCache革新视觉语言模型推理:仅计算2%视觉token实现16倍加速,精度近无损
关键词:VLCache、视觉语言模型(VLM)、KV缓存复用、动态重计算、推理加速、精度保留 你有没有遇到过这样的场景:用 AI 工具连续询问同一张图片的不同问题时,每次都要等待好几秒才能得到回复?明明图片没有变,模型却要重复处理整幅图像,造成大量冗余计算。 VLCACHE: Computing 2% Vision Tokens and Reusing 98…
-
FastDriveVLA:专为自动驾驶VLA模型定制的视觉token剪枝方法,实现高效端到端驾驶
VLA 模型正被越来越多地应用于端到端自动驾驶系统中。然而,VLA 模型中冗长的视觉 token 极大地增加了计算成本。现有的通用视觉 token 剪枝方法并非为自动驾驶场景设计,在实际应用中存在诸多局限性。 小鹏汽车联合北京大学计算机科学学院多媒体信息处理国家重点实验室发表论文《FastDriveVLA》,为自动驾驶 VLA 模型中的高效视觉 token …
