2025年11月AI大模型爆发月报：从美团LongCat到Meta SAM 3，开源与闭源模型全面升级

11月3日

【开源】 美团发布 LongCat-Flash-Omni-FP8，这是一个拥有560亿参数（激活27B）的开源全模态模型，擅长实时音视频交互。该模型采用高性能捷径连接的混合专家（MoE）架构，结合高效的多模态感知与语音重建模块，并运用课程启发式渐进训练策略，在保持强大单模态能力的同时，实现了全面的多模态能力。

11月7日

【开源】 Moonshot 发布 Kimi-K2-Thinking，这是其最新、最强大的开源思考模型版本。该模型被构建为能够在动态调用工具的同时进行逐步推理的思考代理，在人类最后的考试（HLE）、BrowseComp等基准测试中树立了新的技术水平。

11月11日

【闭源】 字节跳动发布 doubao-seed-code，这是一款专为实际开发场景打造的AI编程模型，强化了Bug修复能力和前端开发能力。该模型支持输入透明缓存能力，有助于有效降低使用成本。

【开源】 百度发布 ERNIE-4.5-VL-28B-A3B-Thinking，这是在ERNIE-4.5-VL-28B-A3B基础上训练的深度思考模型。作为激活参数量仅3B的轻量级模型，它在多项测试中表现紧咬业界顶级旗舰模型，以轻量级规模实现了接近SOTA的视觉表现。

11月12日

【闭源】 OpenAI 将 GPT-5 升级至 GPT-5.1，推出了 Instant 和 Thinking 双版本，使答案更智能、更具对话性。GPT-5.1 Instant 采用轻量自适应推理，面对难题时保持快速响应；GPT-5.1 Thinking 则针对复杂任务更精准地调整思考时间，使响应更清晰、更少专业术语。

11月13日

【闭源】 百度发布 ERNIE-5.0-Preview（文心5.0预览版），该模型采用原生的全模态统一建模技术，将文本、图像、音频、视频进行联合建模，具备综合的全模态能力。其基础能力全面升级，在多模态理解、指令遵循、创意写作、事实性、智能体规划与工具应用等方面表现尤其出色。

11月17日

【闭源｜语音识别】 阿里发布 qwen3-asr-flash-filetrans 及其快照版 qwen3-asr-flash-filetrans-2025-11-17，这是通义千问录音文件识别新模型，专为音频文件的异步转写设计，支持最长12小时的录音文件。

11月18日

【闭源】 谷歌推出首款 Gemini 3 系列模型 gemini-3-pro-preview，这是目前最先进的推理和多模态理解模型之一，具有强大的代理和编码能力。除了在智能性和性能方面有所改进之外，Gemini 3 Pro 预览版还引入了媒体分辨率、思路签名、思考等级等新行为。

11月19日

【闭源】 XAI 发布 Grok 4.1 Fast，该模型现已在其 Enterprise API 中可用。Grok 4.1 Fast 现已支持代理工具，且代理工具调用价格大幅降低，最高降幅达50%，降至每1000次成功调用不超过5美元。

【闭源】 OpenAI 发布 GPT-5.1-Codex-Max，这是一款专为长期运行的项目级工作构建的前沿代理编码模型。它比 GPT-5.1-Codex 更快、更强大、更节省token，并能使用压缩技术在多个上下文窗口中连贯工作。该模型现已在 Codex 全系列产品中可用，价格与 GPT-5.1-Codex 相同。

【开源】 Meta AI 发布 Segment Anything Model 3（SAM 3），这是最新的统一计算机视觉模型，旨在通过文本、示例图像和视觉提示，实现对图像和视频中对象的精准检测、分割和跟踪。在前代 SAM 模型基础上，增强了对概念性提示（如名词短语）和视觉提示（如掩码、边界框、点）的理解与处理能力。

【开源】 Meta AI 发布 SAM 3D，这是一个先进的3D重建模型套件，旨在将2D图像转化为精确的3D重建。包含两个主要子模型：SAM 3D Objects 用于物体和场景的3D重建，SAM 3D Body 专注于人体姿态和形状的估算。该模型扩展了“可提示（promptable）”视觉的概念，能够从单一图像中捕捉并还原丰富的3D信息，包括几何形状、纹理和布局，以及人体网格模型。

11月20日

【闭源】 谷歌发布 Gemini 3 Pro Image 预览版（gemini-3-pro-image-preview），这是 Nano Banana 模型的下一代版本 Nano Banana Pro。

11月21日

【开源】 腾讯混元发布 HunyuanVideo 1.5，这是一个轻量级、功能强大的开源视频生成模型。以仅8.3B的参数量，在视频生成领域实现了领先的视觉质量和运动连贯性，有效降低了视频创作的门槛。该模型旨在提供媲美甚至超越顶尖闭源模型的视频生成能力，并支持在消费级GPU上运行。

11月22日

【开源】 小米发布 MiMo-Embodied-7B，这是首个整合实体AI和自动驾驶的开源跨实体视觉-语言模型，显著增强了对动态物理环境的理解和推理能力。在实体AI（任务规划、可操作性预测、空间理解）、自动驾驶（环境感知、状态预测、驾驶规划）和通用视觉理解三大领域共37项基准测试中表现卓越，全面超越现有开源模型，媲美甚至优于闭源及专有模型，展现了专业化训练对通用能力的增强效果。

11月26日

开源模型进展

阿里通义实验室推出了一个6B参数的图像生成模型系列，包含三个变体。其中，Turbo版本已开源，主打极速推理（仅需8步，亚秒级延迟），可在消费级16G显存上运行，擅长生成写实图像、处理中英双语渲染并遵循复杂指令。该系列的Base版本和Edit版本（支持图生图编辑）也即将开源，旨在为社区开发者提供二次开发的基础。

模型详情与获取：
https://www.modelscope.cn/models/Tongyi-MAI/Z-Image-Turbo

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/14591

2025年11月AI大模型爆发月报：从美团LongCat到Meta SAM 3，开源与闭源模型全面升级

相关推荐

ICLR 2026揭示VLA八大技术趋势：从架构革新到评测演进，全面解析视觉-语言-动作融合前沿

AI对齐危机：从奖励黑客到系统性失调的深度剖析

谷歌“TorchTPU”战略：软件生态破局与AI算力格局重构

百度文心首创Group-MAS架构：多Agent群聊如何重构AI协作场景

多模态深度研究评测新标准：MMDR-Bench实现过程可核验、证据可追溯