视觉语言模型

  • 突破GUI像素瓶颈!面向端侧Agent语义世界建模 MobileWorldBench!1.4M 数据样本驱动 7.4%性能跃升!

    关键词: 语义世界建模 、移动智能体 、MobileWorldBench、MobileWorld、 视觉语言模型 、GUI 世界建模 在手机 APP 操作中,我们早已习惯了“点击-反馈”的即时互动——但对 AI 智能体来说,要预判“点击按钮后界面会怎么变”,曾是个棘手难题。 传统 AI 依赖像素级世界建模,试图精准预测未来界面的每一个像素点,却因 GUI(图…

    2025年12月28日
    43800
  • VisPlay:突破视觉语言模型的数据困境,开启自进化强化学习新纪元

    在Vision-Language Model(VLM)领域,提升复杂推理能力长期面临严峻挑战。传统方法主要依赖大规模人工标注数据或启发式奖励机制,这不仅带来高昂的经济成本和时间成本,更关键的是难以实现规模化扩展。随着模型参数量的指数级增长,人工标注的速度已远远跟不上模型演化的需求,形成了制约VLM发展的“数据困境”。 最新研究成果VisPlay首次提出了一种…

    2025年12月1日
    35500
  • DAVSP:清华大学提出深度对齐视觉安全提示,重塑多模态大模型安全防线

    随着多模态人工智能技术的快速发展,大型视觉语言模型(LVLMs)已在图像描述、视觉问答、跨模态检索等多个下游任务中展现出卓越性能。然而,这种强大的多模态理解能力背后,却潜藏着日益严峻的安全风险。最新研究表明,即便是当前最先进的LVLMs,在面对经过精心设计的恶意图像-文本组合输入时,仍可能产生违规甚至有害的响应。这一安全漏洞的暴露,不仅对模型的实际部署构成了…

    2025年11月24日
    35500