多模态大模型

UI-Genie：移动GUI智能体的自我进化革命——从数据瓶颈到自主能力跃迁

在人工智能技术快速演进的当下，多模态大模型正经历着从被动响应到主动执行的深刻转型。香港中文大学MMLab与vivo AI Lab联合团队的最新研究成果UI-Genie，为这一转型提供了极具启发性的技术路径。该研究由肖涵（第一作者，研究方向为多模态大模型和智能体学习）、王国志（研究方向为多模态大模型和Agent强化学习）共同完成，项目负责人任帅（研究方向为多模…

2025年11月7日

385000

AI产业动态

Open-o3 Video：首个显式时空证据嵌入的视频推理开源模型，实现有迹可循的AI视觉思考

在人工智能的多模态浪潮中，视频理解因其同时承载时间动态与空间交互的复杂性，始终被视为最具挑战性的任务之一。传统模型虽能回答“发生了什么”，却难以精准指出事件“何时何地”发生，其推理过程往往如同黑箱，缺乏可解释的视觉证据支撑。近日，来自北京大学与字节跳动的联合研究团队，正式推出了首个将显式时空证据嵌入视频推理全过程的开源模型——Open-o3 Video。这一…

2025年11月5日

354000

AI产业动态

PixelCraft：以高保真视觉处理与讨论式推理重塑结构化图像理解新范式

多模态大模型（MLLM）在自然图像理解领域已取得令人瞩目的成就，然而当任务场景转向图表、几何草图、科研绘图等高度结构化的图像时，传统方法的局限性便暴露无遗。细微的感知误差会沿着推理链条迅速放大，导致最终结论出现系统性偏差。线性、刚性的“链式思考”流程难以支撑复杂任务中必要的回溯、分支探索与假设修正，这已成为制约结构化图像理解迈向实用化的关键瓶颈。针对这一挑…

2025年11月3日

379000

AI产业动态

美团LongCat-Flash-Omni：全模态实时交互开源模型的架构突破与产业影响

在AI模型竞争日趋白热化的当下，美团最新开源的LongCat-Flash-Omni模型以“全模态实时交互”为核心卖点，不仅刷新了开源多模态模型的性能基准，更在架构设计层面展现了独特的技术路径。这款总参数560B、激活参数仅27B的MoE架构模型，成功实现了多模态能力与推理效率的平衡，标志着开源大模型在实用化道路上迈出了关键一步。从性能表现来看，LongCa…

2025年11月3日

317000

AI产业动态

悟界・Emu3.5：原生多模态世界大模型开启AI第三条Scaling范式

在人工智能技术快速演进的今天，多模态大模型正成为推动AI向通用人工智能迈进的关键力量。当业界仍在围绕自回归与扩散模型的技术路线展开激烈讨论时，北京智源人工智能研究院（BAAI）最新发布的悟界・Emu3.5模型，以其创新的“多模态世界大模型”定位，为这场技术辩论提供了全新的视角和答案。 Emu3.5不仅仅是一次常规的模型迭代，它被定义为“多模态世界大模型”（M…

2025年10月30日

390000