多模态AI
-
MiniCPM-o 4.5:9B参数开源全模态模型,端侧设备上的GPT-4o平替
MiniCPM-o 4.5:9B参数开源全模态模型,端侧设备上的GPT-4o平替 MiniCPM-o 4.5 是由面壁智能 OpenBMB 开源的新一代全模态旗舰模型,其参数量仅为 9B。该模型在多项任务上对标甚至超越了部分闭源大模型,被广泛视为端侧设备上的 GPT‑4o 平替。目前,MiniCPM-o 4.5 已登上 Hugging Face 热榜第二位。…
-
深度解析月之暗面Kimi-K2.5-Thinking:旗舰推理模型在Agent、代码、图像任务上的突破与局限
Kimi-K2.5-Thinking是月之暗面最新发布的旗舰推理模型,被官方称为“Kimi迄今最智能的模型”。该模型在Agent、代码、图像、视频及一系列通用智能任务上取得了开源领域的最佳表现,其核心在于采用了深度思考架构,具备强大的推理能力。 核心结论: 三大亮点: 深度推理能力出色:在数学计算和逻辑推理任务中表现优秀,能够提供详细的推理过程。 中文语义理…
-
自适应视觉推理新突破:MoVT范式让AI学会“看图说话”与“文字思考”的智能切换
本文介绍了复旦大学与阿里巴巴未来生活实验室的研究成果,该工作已被 ICLR 2026 接收。 当前,视觉推理方法主要衍生出两种思考模式:一种是与大型语言模型一致的纯文本思考模式;另一种是更贴近图像本身的视觉化思考模式。这两种模式在不同任务领域各有优势,但现有工作通常只专注于单一模式,未能充分利用二者之间的互补性。 为此,本文提出了 Mixture-of-Vi…
-
英伟达专家预言:世界建模将取代词预测,开启AI预训练新纪元
henry 发自 凹非寺 量子位 | 公众号 QbitAI 继“下一个词预测”之后,世界建模将成为新的预训练范式。 这是英伟达机器人主管Jim Fan 给出的最新判断。 他认为,2026年将成为大世界模型(Large World Models)真正为机器人领域以及更广义的多模态AI奠定基础的第一年。 谢赛宁随即转发表示赞同:“事后看来显而易见”。 在这篇长文…
-
MiniCPM-o4.5:全模态AI实现边看边听边说的实时交互革命
空气炸锅“叮”了一声。 我还没反应过来,AI先开口了:“好了,它已经叮了。” 这不是语音助手升级,而是面壁智能刚开源的全模态模型MiniCPM-o4.5。 手机往厨房一放,它能一边跟你说话,一边盯着灶台、听动静。 不再是“你问一句、它答一句”,而是边看、边听、主动说的AI。 AI开始竖起耳朵,瞪大眼睛 既然这AI这么能盯,还能提醒,那是不是干脆给它挂在教室、…
-
面壁开源全双工全模态大模型MiniCPM-o 4.5:9B参数实现“活人感”交互,开启人机对话新时代
你有没有想过一个问题:为什么和 AI 对话,总觉得少了点「人味儿」? 不是它回答得不够准确,也不是它理解不了你的意思,而是每次交互都很机械。你问一句,等它答完,然后突然画面一转,它对现实世界的观察仿佛瞬间「掉线」。那几秒里,AI 仿佛顺手关掉了眼睛和耳朵,陷入一种「间歇性失明失聪」的状态,根本不能根据眼前瞬息万变的画面实时调整自己的反应。 这种感觉,就像两个…
-
AI范式革命:从预测下一个词到预测下一个物理状态
又一位大佬准备对现有 AI 技术范式开刀了。 今天凌晨,英伟达高级研究科学家、机器人团队负责人 Jim Fan(范麟熙)发布文章《第二代预训练范式》,引发了机器学习社区的讨论。 Jim Fan 指出,目前以大语言模型(LLM)为代表的 AI 模型主要基于「对下一词的预测」,这第一代范式虽然取得了巨大成功,但在将其应用于物理世界时,出现了明显的「水土不服」。 …
-
Vidu Q3:中国AI视频新王者,全球首个16秒音视频直出模型震撼发布
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 开年第一个月,国产AI视频生成领域竞争激烈。 AI视频生成圈迎来重磅发布——全球首个能够一次性直接生成16秒音视频的模型。 例如,用它来制作一段真人版《火影忍者》第四次忍界大战的名场面: 从画面、台词到音效,都颇具原版日漫的风格。 制作这段真人剧的模型,正是生数科技最新推出的Vidu Q3。 深度体验后,…
-
从BERT到Genie:掩码范式如何铺就通往AGI的世界模型之路
从BERT到Genie:掩码范式如何铺就通往AGI的世界模型之路 从OpenAI的Sora到Google DeepMind的Genie,2025年无疑是世界模型 (World Model) 的爆发之年。 然而,繁荣的背后是概念的混战:世界模型究竟是什么?是强化学习里用来训练Agent的环境模拟器?是看过所有YouTube视频的预测模型?还是一个能生成无限3D…
-
AI模型周报:通义千问、MiniMax、智谱AI等巨头齐发新版,图像编辑与编程能力全面升级
12月23日 【闭源】通义千问发布图像编辑模型快照通义千问团队发布了 qwen-image-edit-plus-2025-12-15 图像编辑模型的最新快照。该版本在角色一致性、工业设计能力和几何推理能力上相较前代实现显著提升,优化了编辑后图片与原图在空间布局、纹理和风格上的匹配度,编辑效果更为精准细腻,旨在为专业图像处理提供更强大的工具支持。 【开源】Mi…
