多模态AI

字节豆包AI全面升级：多模态Agent、图像视频生成大版本革新，引爆春节AI大战

「2026 年或将成为人类历史上最忙碌、也最具决定性的一年。」xAI 联创 Jimmy Ba 在离职宣言中如是说。这话并非夸张。1 月初，Anthropic 推出 Agent 工具 Claude Cowork，并发布 11 个配套插件；一周前，Anthropic 与 OpenAI 又几乎同时推出新版本基础大模型 Claude Opus 4.6 与 GPT-…

2026年2月14日

74000

AI产业动态

多模态深度研究评测新标准：MMDR-Bench实现过程可核验、证据可追溯

Deep Research Agent 已变得流行，但其评估标准仍停留在“看起来很强”的层面。生成内容像论文，并不等同于真正进行了研究。尤其当证据来自图表、截图、论文插图或示意图时，一个关键问题浮现：模型究竟是“看懂了”，还是仅仅“编造得像懂了一样”？为了将多模态深度研究的评估从“读起来不错”拉回到更严格的标准，俄亥俄州立大学与 Amazon Scien…

2026年2月14日

127000

AI产业动态

MiniCPM-o 4.5：9B参数开源全模态模型，端侧设备上的GPT-4o平替

MiniCPM-o 4.5：9B参数开源全模态模型，端侧设备上的GPT-4o平替 MiniCPM-o 4.5 是由面壁智能 OpenBMB 开源的新一代全模态旗舰模型，其参数量仅为 9B。该模型在多项任务上对标甚至超越了部分闭源大模型，被广泛视为端侧设备上的 GPT‑4o 平替。目前，MiniCPM-o 4.5 已登上 Hugging Face 热榜第二位。…

2026年2月13日

216000

AI产业动态

深度解析月之暗面Kimi-K2.5-Thinking：旗舰推理模型在Agent、代码、图像任务上的突破与局限

Kimi-K2.5-Thinking是月之暗面最新发布的旗舰推理模型，被官方称为“Kimi迄今最智能的模型”。该模型在Agent、代码、图像、视频及一系列通用智能任务上取得了开源领域的最佳表现，其核心在于采用了深度思考架构，具备强大的推理能力。核心结论：三大亮点：深度推理能力出色：在数学计算和逻辑推理任务中表现优秀，能够提供详细的推理过程。中文语义理…

2026年2月6日

329000

AI产业动态

自适应视觉推理新突破：MoVT范式让AI学会“看图说话”与“文字思考”的智能切换

本文介绍了复旦大学与阿里巴巴未来生活实验室的研究成果，该工作已被 ICLR 2026 接收。当前，视觉推理方法主要衍生出两种思考模式：一种是与大型语言模型一致的纯文本思考模式；另一种是更贴近图像本身的视觉化思考模式。这两种模式在不同任务领域各有优势，但现有工作通常只专注于单一模式，未能充分利用二者之间的互补性。为此，本文提出了 Mixture-of-Vi…

2026年2月5日

91000

AI产业动态

英伟达专家预言：世界建模将取代词预测，开启AI预训练新纪元

henry 发自凹非寺量子位 | 公众号 QbitAI 继“下一个词预测”之后，世界建模将成为新的预训练范式。这是英伟达机器人主管Jim Fan 给出的最新判断。他认为，2026年将成为大世界模型（Large World Models）真正为机器人领域以及更广义的多模态AI奠定基础的第一年。谢赛宁随即转发表示赞同：“事后看来显而易见”。在这篇长文…

2026年2月5日

79000

AI产业动态

MiniCPM-o4.5：全模态AI实现边看边听边说的实时交互革命

空气炸锅“叮”了一声。我还没反应过来，AI先开口了：“好了，它已经叮了。” 这不是语音助手升级，而是面壁智能刚开源的全模态模型MiniCPM-o4.5。手机往厨房一放，它能一边跟你说话，一边盯着灶台、听动静。不再是“你问一句、它答一句”，而是边看、边听、主动说的AI。 AI开始竖起耳朵，瞪大眼睛既然这AI这么能盯，还能提醒，那是不是干脆给它挂在教室、…

2026年2月4日

122000

AI产业动态

面壁开源全双工全模态大模型MiniCPM-o 4.5：9B参数实现“活人感”交互，开启人机对话新时代

你有没有想过一个问题：为什么和 AI 对话，总觉得少了点「人味儿」？不是它回答得不够准确，也不是它理解不了你的意思，而是每次交互都很机械。你问一句，等它答完，然后突然画面一转，它对现实世界的观察仿佛瞬间「掉线」。那几秒里，AI 仿佛顺手关掉了眼睛和耳朵，陷入一种「间歇性失明失聪」的状态，根本不能根据眼前瞬息万变的画面实时调整自己的反应。这种感觉，就像两个…

2026年2月4日

215000

AI产业动态

AI范式革命：从预测下一个词到预测下一个物理状态

又一位大佬准备对现有 AI 技术范式开刀了。今天凌晨，英伟达高级研究科学家、机器人团队负责人 Jim Fan（范麟熙）发布文章《第二代预训练范式》，引发了机器学习社区的讨论。 Jim Fan 指出，目前以大语言模型（LLM）为代表的 AI 模型主要基于「对下一词的预测」，这第一代范式虽然取得了巨大成功，但在将其应用于物理世界时，出现了明显的「水土不服」。 …

2026年2月4日

94000

AI产业动态

Vidu Q3：中国AI视频新王者，全球首个16秒音视频直出模型震撼发布

金磊发自凹非寺量子位 | 公众号 QbitAI 开年第一个月，国产AI视频生成领域竞争激烈。 AI视频生成圈迎来重磅发布——全球首个能够一次性直接生成16秒音视频的模型。例如，用它来制作一段真人版《火影忍者》第四次忍界大战的名场面：从画面、台词到音效，都颇具原版日漫的风格。制作这段真人剧的模型，正是生数科技最新推出的Vidu Q3。深度体验后，…

2026年1月30日

224000