视觉语言模型

突破GUI像素瓶颈！面向端侧Agent语义世界建模 MobileWorldBench！1.4M 数据样本驱动 7.4%性能跃升！

关键词：语义世界建模、移动智能体、MobileWorldBench、MobileWorld、视觉语言模型、GUI 世界建模在手机 APP 操作中，我们早已习惯了“点击-反馈”的即时互动——但对 AI 智能体来说，要预判“点击按钮后界面会怎么变”，曾是个棘手难题。传统 AI 依赖像素级世界建模，试图精准预测未来界面的每一个像素点，却因 GUI（图…

2025年12月28日

438001

AI产业动态

VisPlay：突破视觉语言模型的数据困境，开启自进化强化学习新纪元

在Vision-Language Model（VLM）领域，提升复杂推理能力长期面临严峻挑战。传统方法主要依赖大规模人工标注数据或启发式奖励机制，这不仅带来高昂的经济成本和时间成本，更关键的是难以实现规模化扩展。随着模型参数量的指数级增长，人工标注的速度已远远跟不上模型演化的需求，形成了制约VLM发展的“数据困境”。最新研究成果VisPlay首次提出了一种…

2025年12月1日

355000

大模型安全

DAVSP：清华大学提出深度对齐视觉安全提示，重塑多模态大模型安全防线

随着多模态人工智能技术的快速发展，大型视觉语言模型（LVLMs）已在图像描述、视觉问答、跨模态检索等多个下游任务中展现出卓越性能。然而，这种强大的多模态理解能力背后，却潜藏着日益严峻的安全风险。最新研究表明，即便是当前最先进的LVLMs，在面对经过精心设计的恶意图像-文本组合输入时，仍可能产生违规甚至有害的响应。这一安全漏洞的暴露，不仅对模型的实际部署构成了…

2025年11月24日

355000