2025年11月AI大模型爆发月报:从美团LongCat到Meta SAM 3,开源与闭源模型全面升级

2025年11月AI大模型爆发月报:从美团LongCat到Meta SAM 3,开源与闭源模型全面升级

11月3日

【开源】 美团发布 LongCat-Flash-Omni-FP8,这是一个拥有560亿参数(激活27B)的开源全模态模型,擅长实时音视频交互。该模型采用高性能捷径连接的混合专家(MoE)架构,结合高效的多模态感知与语音重建模块,并运用课程启发式渐进训练策略,在保持强大单模态能力的同时,实现了全面的多模态能力。

11月7日

【开源】 Moonshot 发布 Kimi-K2-Thinking,这是其最新、最强大的开源思考模型版本。该模型被构建为能够在动态调用工具的同时进行逐步推理的思考代理,在人类最后的考试(HLE)、BrowseComp等基准测试中树立了新的技术水平。

11月11日

【闭源】 字节跳动发布 doubao-seed-code,这是一款专为实际开发场景打造的AI编程模型,强化了Bug修复能力和前端开发能力。该模型支持输入透明缓存能力,有助于有效降低使用成本。

【开源】 百度发布 ERNIE-4.5-VL-28B-A3B-Thinking,这是在ERNIE-4.5-VL-28B-A3B基础上训练的深度思考模型。作为激活参数量仅3B的轻量级模型,它在多项测试中表现紧咬业界顶级旗舰模型,以轻量级规模实现了接近SOTA的视觉表现。

11月12日

【闭源】 OpenAI 将 GPT-5 升级至 GPT-5.1,推出了 Instant 和 Thinking 双版本,使答案更智能、更具对话性。GPT-5.1 Instant 采用轻量自适应推理,面对难题时保持快速响应;GPT-5.1 Thinking 则针对复杂任务更精准地调整思考时间,使响应更清晰、更少专业术语。

11月13日

【闭源】 百度发布 ERNIE-5.0-Preview(文心5.0预览版),该模型采用原生的全模态统一建模技术,将文本、图像、音频、视频进行联合建模,具备综合的全模态能力。其基础能力全面升级,在多模态理解、指令遵循、创意写作、事实性、智能体规划与工具应用等方面表现尤其出色。

11月17日

【闭源|语音识别】 阿里发布 qwen3-asr-flash-filetrans 及其快照版 qwen3-asr-flash-filetrans-2025-11-17,这是通义千问录音文件识别新模型,专为音频文件的异步转写设计,支持最长12小时的录音文件。

11月18日

【闭源】 谷歌推出首款 Gemini 3 系列模型 gemini-3-pro-preview,这是目前最先进的推理和多模态理解模型之一,具有强大的代理和编码能力。除了在智能性和性能方面有所改进之外,Gemini 3 Pro 预览版还引入了媒体分辨率、思路签名、思考等级等新行为。

11月19日

【闭源】 XAI 发布 Grok 4.1 Fast,该模型现已在其 Enterprise API 中可用。Grok 4.1 Fast 现已支持代理工具,且代理工具调用价格大幅降低,最高降幅达50%,降至每1000次成功调用不超过5美元。

【闭源】 OpenAI 发布 GPT-5.1-Codex-Max,这是一款专为长期运行的项目级工作构建的前沿代理编码模型。它比 GPT-5.1-Codex 更快、更强大、更节省token,并能使用压缩技术在多个上下文窗口中连贯工作。该模型现已在 Codex 全系列产品中可用,价格与 GPT-5.1-Codex 相同。

【开源】 Meta AI 发布 Segment Anything Model 3(SAM 3),这是最新的统一计算机视觉模型,旨在通过文本、示例图像和视觉提示,实现对图像和视频中对象的精准检测、分割和跟踪。在前代 SAM 模型基础上,增强了对概念性提示(如名词短语)和视觉提示(如掩码、边界框、点)的理解与处理能力。

【开源】 Meta AI 发布 SAM 3D,这是一个先进的3D重建模型套件,旨在将2D图像转化为精确的3D重建。包含两个主要子模型:SAM 3D Objects 用于物体和场景的3D重建,SAM 3D Body 专注于人体姿态和形状的估算。该模型扩展了“可提示(promptable)”视觉的概念,能够从单一图像中捕捉并还原丰富的3D信息,包括几何形状、纹理和布局,以及人体网格模型。

11月20日

【闭源】 谷歌发布 Gemini 3 Pro Image 预览版(gemini-3-pro-image-preview),这是 Nano Banana 模型的下一代版本 Nano Banana Pro。

11月21日

【开源】 腾讯混元发布 HunyuanVideo 1.5,这是一个轻量级、功能强大的开源视频生成模型。以仅8.3B的参数量,在视频生成领域实现了领先的视觉质量和运动连贯性,有效降低了视频创作的门槛。该模型旨在提供媲美甚至超越顶尖闭源模型的视频生成能力,并支持在消费级GPU上运行。

11月22日

【开源】 小米发布 MiMo-Embodied-7B,这是首个整合实体AI和自动驾驶的开源跨实体视觉-语言模型,显著增强了对动态物理环境的理解和推理能力。在实体AI(任务规划、可操作性预测、空间理解)、自动驾驶(环境感知、状态预测、驾驶规划)和通用视觉理解三大领域共37项基准测试中表现卓越,全面超越现有开源模型,媲美甚至优于闭源及专有模型,展现了专业化训练对通用能力的增强效果。

11月26日

开源模型进展

阿里通义实验室推出了一个6B参数的图像生成模型系列,包含三个变体。其中,Turbo版本已开源,主打极速推理(仅需8步,亚秒级延迟),可在消费级16G显存上运行,擅长生成写实图像、处理中英双语渲染并遵循复杂指令。该系列的Base版本和Edit版本(支持图生图编辑)也即将开源,旨在为社区开发者提供二次开发的基础。

模型详情与获取:
https://www.modelscope.cn/models/Tongyi-MAI/Z-Image-Turbo


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14591

(0)
上一篇 2025年12月1日 下午12:27
下一篇 2025年12月1日 下午12:39

相关推荐

  • ICLR 2026揭示VLA八大技术趋势:从架构革新到评测演进,全面解析视觉-语言-动作融合前沿

    在人工智能领域,视觉-语言-动作模型正以前所未有的速度重塑机器人研究的格局。ICLR 2026会议数据显示,VLA相关投稿量从去年的个位数飙升至164篇,实现了18倍的惊人增长。这股热潮背后,是让机器人“听懂人话、看懂世界、动手干活”这一愿景的逐步实现。然而,在这片繁荣景象之下,我们需要深入探讨:当我们谈论VLA的进步时,我们究竟在谈论什么? 首先必须明确V…

    2025年10月31日
    16700
  • AI对齐危机:从奖励黑客到系统性失调的深度剖析

    近期,Anthropic发布的一项对齐研究在AI领域引发广泛关注,该研究首次系统性地揭示了在现实训练流程中,AI模型可能无意间发展出不受控行为的潜在风险。这一发现不仅对当前的大模型安全研究提出了严峻挑战,更促使整个行业重新审视现有训练范式的根本缺陷。 研究团队通过文学隐喻——莎士比亚《李尔王》中的反派角色Edmund——生动地阐释了核心问题:当个体被贴上特定…

    2025年12月1日
    21800
  • 谷歌“TorchTPU”战略:软件生态破局与AI算力格局重构

    谷歌近期推进的“TorchTPU”战略行动,标志着AI算力市场竞争进入深水区。这项计划的核心目标是通过优化PyTorch框架在谷歌自研TPU芯片上的运行效率,打破英伟达CUDA生态长期形成的技术壁垒。从表面看,这是谷歌在硬件兼容性上的技术补课;深入分析则揭示了一场围绕软件生态主导权的商业围剿。作为PyTorch的主要维护者,Meta的深度参与更让这场博弈呈现…

    2025年12月18日
    17800
  • 百度文心首创Group-MAS架构:多Agent群聊如何重构AI协作场景

    文心APP的群里,最近有点“AI多势众”。 此群非一般的群,正是文心APP最近正在内测的行业首个“多人、多Agent”群聊功能。 该怎么形容它最贴切?一进这个群,就相当于进入了一个微型“办事处”,有几位随时待命、各司其职的Agent专员,能真正替你办事、帮你支招,沟通效率还很高。 它的用处很实在。 比如年初体检季,家人对着报告单上几个箭头忧心忡忡,亲戚群里七…

    2026年2月2日
    7500
  • 多模态深度研究评测新标准:MMDR-Bench实现过程可核验、证据可追溯

    Deep Research Agent 已变得流行,但其评估标准仍停留在“看起来很强”的层面。 生成内容像论文,并不等同于真正进行了研究。尤其当证据来自图表、截图、论文插图或示意图时,一个关键问题浮现:模型究竟是“看懂了”,还是仅仅“编造得像懂了一样”? 为了将多模态深度研究的评估从“读起来不错”拉回到更严格的标准,俄亥俄州立大学与 Amazon Scien…

    2026年2月14日
    11800