多模态大模型

  • Attention机制暗藏偏置陷阱:上海大学团队提出去偏修正公式,提升多模态大模型剪枝效率

    Attention机制暗藏偏置陷阱:上海大学团队提出去偏修正公式,提升多模态大模型剪枝效率 近年来,视觉-语言模型在多模态理解任务中取得了显著进展。为了降低推理成本,模型通常通过语言到视觉的注意力来衡量视觉标记与文本之间的相关性,并据此进行视觉标记剪枝。 然而,一个长期被忽视的问题是:注意力本身是否真的能够作为“语义重要性”的可靠指标? 上海大学曾丹团队在最…

    2026年1月27日
    18500
  • 文心5.0正式版发布:2.4万亿参数原生全模态架构,登顶LMArena的“最强文科生”技术解析

    2.4万亿参数,原生全模态架构,在文本榜上“霸榜如喝水”。 在文心Moment大会上,文心大模型5.0正式版 上线。该模型参数量达2.4万亿,采用原生全模态统一建模技术,具备全模态理解与生成能力,支持文本、图像、音频、视频等多种信息的输入与输出。在40余项权威基准的综合评测中,文心5.0正式版的语言与多模态理解能力稳居国际第一梯队。其音频和视觉生成能力与垂直…

    2026年1月24日
    23700
  • LENS:首个基于强化推理的分割大模型,突破传统SFT能力天花板

    文本提示图像分割(Text-prompted image segmentation)是实现精细化视觉理解的关键技术,在人机交互、具身智能及机器人等前沿领域具有重要的战略意义。该技术使机器能够根据自然语言指令,在复杂的视觉场景中定位并分割出任意目标。 然而,当前主流的技术路径,如基于监督式微调(Supervised Fine-Tuning, SFT)的方法,正…

    2025年12月29日
    20600
  • 具身智能新纪元:LLMs与世界模型融合如何重塑物理世界交互

    本文全面探讨具身智能(Embodied AI) 的基础与前沿进展,核心聚焦大语言模型/ 多模态大模型 与世界模型(WMs ) 对具身智能的赋能作用 ——LLMs/MLLMs 通过语义推理和任务分解强化具身认知 ,WMs 通过构建外部世界的内部表征和未来预测 支撑物理合规交互,二者融合形成的MLLM-WM 联合架构 成为突破复杂物理世界任务的关键方向。 具身智…

    2025年12月23日
    26100
  • AI周报:智谱GLM-4.6V革新视觉Agent,谷歌Gemini 2.5与OpenAI GPT-5.2齐发,多模态与智能体技术迎来爆发期

    12月8日 【开源】 智谱AI发布GLM-4.6V系列多模态大模型,包含GLM-4.6V(106B)云端版和GLM-4.6V-Flash(9B)轻量版。该系列模型支持128k超长上下文,在同参数规模下实现了视觉理解SOTA性能。其最大亮点在于首次将Function Call能力原生融入视觉模型架构,打通了从“视觉感知”到“可执行行动”的完整链路,为多模态Ag…

    2025年12月15日
    25200
  • 原生高分辨率编码新突破:LLaVA-UHD v3渐进式视觉压缩框架深度解析

    随着多模态大模型(MLLMs)在视觉语言理解、图像描述、视觉问答等任务中展现出卓越能力,处理高分辨率图像已成为提升模型性能的关键瓶颈。传统方法在效率与精度之间面临两难选择:基于切片的编码虽能降低计算成本,却破坏了图像的空间连续性;而全局原生分辨率编码虽能保持完整语义,却带来难以承受的计算负担。清华大学与中科院研究团队最新发布的LLaVA-UHD v3,通过创…

    2025年12月9日
    20800
  • 多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

    在人工智能技术快速迭代的浪潮中,多模态大模型已成为连接视觉与语言智能的核心枢纽。然而,其后训练阶段长期面临两大关键挑战:缺乏可量化的样本难度评估体系,以及传统训练范式难以协同优化感知与推理能力。近期,由中南大学与中兴通讯AIM团队联合完成的研究,通过系统性实验设计,不仅为多模态后训练提供了创新的难度采样标准,更首次验证了仅依赖强化学习(GRPO)独立优化多模…

    2025年11月28日
    17600
  • VideoOrion:以对象动态为基石的视频理解新范式——双分支编码实现细粒度语义与指代能力突破

    在视频理解领域,信息复杂度远超静态图像,传统Video-LLM常依赖下采样或Token聚合将视频信息压缩至语言模型,导致细节丢失与语义纠缠问题。为此,北京大学与加州大学圣地亚哥分校联合团队提出VideoOrion框架,通过将前景显著的时空动态编码为Object Tokens,并与Context Tokens并行输入大语言模型,构建出高效、可解释且具备指代能力…

    2025年11月27日
    17200
  • MiMo-Embodied:全球首个跨具身基座模型的技术突破与产业影响

    在人工智能技术快速演进的当下,具身智能与自动驾驶作为两大前沿领域,长期面临着知识迁移与能力统一的挑战。传统视觉语言模型(VLMs)往往局限于单一场景——要么专注于室内机器人操作,要么聚焦于户外驾驶任务,这种割裂状态严重制约了智能体在动态物理世界中的综合交互能力。近日,小米汽车陈龙团队开源了全球首个打通自动驾驶与具身操作场景的跨具身(X-Embodied)基座…

    2025年11月25日
    21500
  • 寒武纪-S:重新定义空间智能,开启AI超感知时代

    在人工智能技术快速迭代的当下,一个名为“寒武纪-S”(Cambrian-S)的项目正悄然引发行业深度思考。该项目由谢赛宁牵头,并获得了李飞飞和Yann LeCun等顶尖学者的支持,其核心目标并非追逐传统的芯片硬件竞赛,而是直指AI发展的一个根本性挑战:如何让人工智能真正学会感知和理解三维空间世界。 寒武纪-S本质上是一个专注于**空间感知**的多模态视频大模…

    2025年11月24日
    15700