多模态AI

MiniCPM-o 4.5：9B参数开源全模态模型，端侧设备上的GPT-4o平替

MiniCPM-o 4.5：9B参数开源全模态模型，端侧设备上的GPT-4o平替 MiniCPM-o 4.5 是由面壁智能 OpenBMB 开源的新一代全模态旗舰模型，其参数量仅为 9B。该模型在多项任务上对标甚至超越了部分闭源大模型，被广泛视为端侧设备上的 GPT‑4o 平替。目前，MiniCPM-o 4.5 已登上 Hugging Face 热榜第二位。…

2026年2月13日

574000

AI产业动态

深度解析月之暗面Kimi-K2.5-Thinking：旗舰推理模型在Agent、代码、图像任务上的突破与局限

Kimi-K2.5-Thinking是月之暗面最新发布的旗舰推理模型，被官方称为“Kimi迄今最智能的模型”。该模型在Agent、代码、图像、视频及一系列通用智能任务上取得了开源领域的最佳表现，其核心在于采用了深度思考架构，具备强大的推理能力。核心结论：三大亮点：深度推理能力出色：在数学计算和逻辑推理任务中表现优秀，能够提供详细的推理过程。中文语义理…

2026年2月6日

2.6K000

AI产业动态

自适应视觉推理新突破：MoVT范式让AI学会“看图说话”与“文字思考”的智能切换

本文介绍了复旦大学与阿里巴巴未来生活实验室的研究成果，该工作已被 ICLR 2026 接收。当前，视觉推理方法主要衍生出两种思考模式：一种是与大型语言模型一致的纯文本思考模式；另一种是更贴近图像本身的视觉化思考模式。这两种模式在不同任务领域各有优势，但现有工作通常只专注于单一模式，未能充分利用二者之间的互补性。为此，本文提出了 Mixture-of-Vi…

2026年2月5日

293000

AI产业动态

英伟达专家预言：世界建模将取代词预测，开启AI预训练新纪元

henry 发自凹非寺量子位 | 公众号 QbitAI 继“下一个词预测”之后，世界建模将成为新的预训练范式。这是英伟达机器人主管Jim Fan 给出的最新判断。他认为，2026年将成为大世界模型（Large World Models）真正为机器人领域以及更广义的多模态AI奠定基础的第一年。谢赛宁随即转发表示赞同：“事后看来显而易见”。在这篇长文…

2026年2月5日

301000

AI产业动态

MiniCPM-o4.5：全模态AI实现边看边听边说的实时交互革命

空气炸锅“叮”了一声。我还没反应过来，AI先开口了：“好了，它已经叮了。” 这不是语音助手升级，而是面壁智能刚开源的全模态模型MiniCPM-o4.5。手机往厨房一放，它能一边跟你说话，一边盯着灶台、听动静。不再是“你问一句、它答一句”，而是边看、边听、主动说的AI。 AI开始竖起耳朵，瞪大眼睛既然这AI这么能盯，还能提醒，那是不是干脆给它挂在教室、…

2026年2月4日

366000

AI产业动态

面壁开源全双工全模态大模型MiniCPM-o 4.5：9B参数实现“活人感”交互，开启人机对话新时代

你有没有想过一个问题：为什么和 AI 对话，总觉得少了点「人味儿」？不是它回答得不够准确，也不是它理解不了你的意思，而是每次交互都很机械。你问一句，等它答完，然后突然画面一转，它对现实世界的观察仿佛瞬间「掉线」。那几秒里，AI 仿佛顺手关掉了眼睛和耳朵，陷入一种「间歇性失明失聪」的状态，根本不能根据眼前瞬息万变的画面实时调整自己的反应。这种感觉，就像两个…

2026年2月4日

908000

AI产业动态

AI范式革命：从预测下一个词到预测下一个物理状态

又一位大佬准备对现有 AI 技术范式开刀了。今天凌晨，英伟达高级研究科学家、机器人团队负责人 Jim Fan（范麟熙）发布文章《第二代预训练范式》，引发了机器学习社区的讨论。 Jim Fan 指出，目前以大语言模型（LLM）为代表的 AI 模型主要基于「对下一词的预测」，这第一代范式虽然取得了巨大成功，但在将其应用于物理世界时，出现了明显的「水土不服」。 …

2026年2月4日

377000

AI产业动态

Vidu Q3：中国AI视频新王者，全球首个16秒音视频直出模型震撼发布

金磊发自凹非寺量子位 | 公众号 QbitAI 开年第一个月，国产AI视频生成领域竞争激烈。 AI视频生成圈迎来重磅发布——全球首个能够一次性直接生成16秒音视频的模型。例如，用它来制作一段真人版《火影忍者》第四次忍界大战的名场面：从画面、台词到音效，都颇具原版日漫的风格。制作这段真人剧的模型，正是生数科技最新推出的Vidu Q3。深度体验后，…

2026年1月30日

683000

大模型工程

从BERT到Genie：掩码范式如何铺就通往AGI的世界模型之路

从BERT到Genie：掩码范式如何铺就通往AGI的世界模型之路从OpenAI的Sora到Google DeepMind的Genie，2025年无疑是世界模型（World Model）的爆发之年。然而，繁荣的背后是概念的混战：世界模型究竟是什么？是强化学习里用来训练Agent的环境模拟器？是看过所有YouTube视频的预测模型？还是一个能生成无限3D…

2026年1月1日

443000

AI产业动态

AI模型周报：通义千问、MiniMax、智谱AI等巨头齐发新版，图像编辑与编程能力全面升级

12月23日【闭源】通义千问发布图像编辑模型快照通义千问团队发布了 qwen-image-edit-plus-2025-12-15 图像编辑模型的最新快照。该版本在角色一致性、工业设计能力和几何推理能力上相较前代实现显著提升，优化了编辑后图片与原图在空间布局、纹理和风格上的匹配度，编辑效果更为精准细腻，旨在为专业图像处理提供更强大的工具支持。【开源】Mi…

2025年12月29日

465000