多模态AI
-
字节豆包AI全面升级:多模态Agent、图像视频生成大版本革新,引爆春节AI大战
「2026 年或将成为人类历史上最忙碌、也最具决定性的一年。」xAI 联创 Jimmy Ba 在离职宣言中如是说。 这话并非夸张。1 月初,Anthropic 推出 Agent 工具 Claude Cowork,并发布 11 个配套插件;一周前,Anthropic 与 OpenAI 又几乎同时推出新版本基础大模型 Claude Opus 4.6 与 GPT-…
-
多模态深度研究评测新标准:MMDR-Bench实现过程可核验、证据可追溯
Deep Research Agent 已变得流行,但其评估标准仍停留在“看起来很强”的层面。 生成内容像论文,并不等同于真正进行了研究。尤其当证据来自图表、截图、论文插图或示意图时,一个关键问题浮现:模型究竟是“看懂了”,还是仅仅“编造得像懂了一样”? 为了将多模态深度研究的评估从“读起来不错”拉回到更严格的标准,俄亥俄州立大学与 Amazon Scien…
-
MiniCPM-o 4.5:9B参数开源全模态模型,端侧设备上的GPT-4o平替
MiniCPM-o 4.5:9B参数开源全模态模型,端侧设备上的GPT-4o平替 MiniCPM-o 4.5 是由面壁智能 OpenBMB 开源的新一代全模态旗舰模型,其参数量仅为 9B。该模型在多项任务上对标甚至超越了部分闭源大模型,被广泛视为端侧设备上的 GPT‑4o 平替。目前,MiniCPM-o 4.5 已登上 Hugging Face 热榜第二位。…
-
深度解析月之暗面Kimi-K2.5-Thinking:旗舰推理模型在Agent、代码、图像任务上的突破与局限
Kimi-K2.5-Thinking是月之暗面最新发布的旗舰推理模型,被官方称为“Kimi迄今最智能的模型”。该模型在Agent、代码、图像、视频及一系列通用智能任务上取得了开源领域的最佳表现,其核心在于采用了深度思考架构,具备强大的推理能力。 核心结论: 三大亮点: 深度推理能力出色:在数学计算和逻辑推理任务中表现优秀,能够提供详细的推理过程。 中文语义理…
-
自适应视觉推理新突破:MoVT范式让AI学会“看图说话”与“文字思考”的智能切换
本文介绍了复旦大学与阿里巴巴未来生活实验室的研究成果,该工作已被 ICLR 2026 接收。 当前,视觉推理方法主要衍生出两种思考模式:一种是与大型语言模型一致的纯文本思考模式;另一种是更贴近图像本身的视觉化思考模式。这两种模式在不同任务领域各有优势,但现有工作通常只专注于单一模式,未能充分利用二者之间的互补性。 为此,本文提出了 Mixture-of-Vi…
-
英伟达专家预言:世界建模将取代词预测,开启AI预训练新纪元
henry 发自 凹非寺 量子位 | 公众号 QbitAI 继“下一个词预测”之后,世界建模将成为新的预训练范式。 这是英伟达机器人主管Jim Fan 给出的最新判断。 他认为,2026年将成为大世界模型(Large World Models)真正为机器人领域以及更广义的多模态AI奠定基础的第一年。 谢赛宁随即转发表示赞同:“事后看来显而易见”。 在这篇长文…
-
MiniCPM-o4.5:全模态AI实现边看边听边说的实时交互革命
空气炸锅“叮”了一声。 我还没反应过来,AI先开口了:“好了,它已经叮了。” 这不是语音助手升级,而是面壁智能刚开源的全模态模型MiniCPM-o4.5。 手机往厨房一放,它能一边跟你说话,一边盯着灶台、听动静。 不再是“你问一句、它答一句”,而是边看、边听、主动说的AI。 AI开始竖起耳朵,瞪大眼睛 既然这AI这么能盯,还能提醒,那是不是干脆给它挂在教室、…
-
面壁开源全双工全模态大模型MiniCPM-o 4.5:9B参数实现“活人感”交互,开启人机对话新时代
你有没有想过一个问题:为什么和 AI 对话,总觉得少了点「人味儿」? 不是它回答得不够准确,也不是它理解不了你的意思,而是每次交互都很机械。你问一句,等它答完,然后突然画面一转,它对现实世界的观察仿佛瞬间「掉线」。那几秒里,AI 仿佛顺手关掉了眼睛和耳朵,陷入一种「间歇性失明失聪」的状态,根本不能根据眼前瞬息万变的画面实时调整自己的反应。 这种感觉,就像两个…
-
AI范式革命:从预测下一个词到预测下一个物理状态
又一位大佬准备对现有 AI 技术范式开刀了。 今天凌晨,英伟达高级研究科学家、机器人团队负责人 Jim Fan(范麟熙)发布文章《第二代预训练范式》,引发了机器学习社区的讨论。 Jim Fan 指出,目前以大语言模型(LLM)为代表的 AI 模型主要基于「对下一词的预测」,这第一代范式虽然取得了巨大成功,但在将其应用于物理世界时,出现了明显的「水土不服」。 …
-
Vidu Q3:中国AI视频新王者,全球首个16秒音视频直出模型震撼发布
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 开年第一个月,国产AI视频生成领域竞争激烈。 AI视频生成圈迎来重磅发布——全球首个能够一次性直接生成16秒音视频的模型。 例如,用它来制作一段真人版《火影忍者》第四次忍界大战的名场面: 从画面、台词到音效,都颇具原版日漫的风格。 制作这段真人剧的模型,正是生数科技最新推出的Vidu Q3。 深度体验后,…
