2025年11月AI大模型爆发月报:从美团LongCat到Meta SAM 3,开源与闭源模型全面升级

2025年11月AI大模型爆发月报:从美团LongCat到Meta SAM 3,开源与闭源模型全面升级

11月3日

【开源】 美团发布 LongCat-Flash-Omni-FP8,这是一个拥有560亿参数(激活27B)的开源全模态模型,擅长实时音视频交互。该模型采用高性能捷径连接的混合专家(MoE)架构,结合高效的多模态感知与语音重建模块,并运用课程启发式渐进训练策略,在保持强大单模态能力的同时,实现了全面的多模态能力。

11月7日

【开源】 Moonshot 发布 Kimi-K2-Thinking,这是其最新、最强大的开源思考模型版本。该模型被构建为能够在动态调用工具的同时进行逐步推理的思考代理,在人类最后的考试(HLE)、BrowseComp等基准测试中树立了新的技术水平。

11月11日

【闭源】 字节跳动发布 doubao-seed-code,这是一款专为实际开发场景打造的AI编程模型,强化了Bug修复能力和前端开发能力。该模型支持输入透明缓存能力,有助于有效降低使用成本。

【开源】 百度发布 ERNIE-4.5-VL-28B-A3B-Thinking,这是在ERNIE-4.5-VL-28B-A3B基础上训练的深度思考模型。作为激活参数量仅3B的轻量级模型,它在多项测试中表现紧咬业界顶级旗舰模型,以轻量级规模实现了接近SOTA的视觉表现。

11月12日

【闭源】 OpenAI 将 GPT-5 升级至 GPT-5.1,推出了 Instant 和 Thinking 双版本,使答案更智能、更具对话性。GPT-5.1 Instant 采用轻量自适应推理,面对难题时保持快速响应;GPT-5.1 Thinking 则针对复杂任务更精准地调整思考时间,使响应更清晰、更少专业术语。

11月13日

【闭源】 百度发布 ERNIE-5.0-Preview(文心5.0预览版),该模型采用原生的全模态统一建模技术,将文本、图像、音频、视频进行联合建模,具备综合的全模态能力。其基础能力全面升级,在多模态理解、指令遵循、创意写作、事实性、智能体规划与工具应用等方面表现尤其出色。

11月17日

【闭源|语音识别】 阿里发布 qwen3-asr-flash-filetrans 及其快照版 qwen3-asr-flash-filetrans-2025-11-17,这是通义千问录音文件识别新模型,专为音频文件的异步转写设计,支持最长12小时的录音文件。

11月18日

【闭源】 谷歌推出首款 Gemini 3 系列模型 gemini-3-pro-preview,这是目前最先进的推理和多模态理解模型之一,具有强大的代理和编码能力。除了在智能性和性能方面有所改进之外,Gemini 3 Pro 预览版还引入了媒体分辨率、思路签名、思考等级等新行为。

11月19日

【闭源】 XAI 发布 Grok 4.1 Fast,该模型现已在其 Enterprise API 中可用。Grok 4.1 Fast 现已支持代理工具,且代理工具调用价格大幅降低,最高降幅达50%,降至每1000次成功调用不超过5美元。

【闭源】 OpenAI 发布 GPT-5.1-Codex-Max,这是一款专为长期运行的项目级工作构建的前沿代理编码模型。它比 GPT-5.1-Codex 更快、更强大、更节省token,并能使用压缩技术在多个上下文窗口中连贯工作。该模型现已在 Codex 全系列产品中可用,价格与 GPT-5.1-Codex 相同。

【开源】 Meta AI 发布 Segment Anything Model 3(SAM 3),这是最新的统一计算机视觉模型,旨在通过文本、示例图像和视觉提示,实现对图像和视频中对象的精准检测、分割和跟踪。在前代 SAM 模型基础上,增强了对概念性提示(如名词短语)和视觉提示(如掩码、边界框、点)的理解与处理能力。

【开源】 Meta AI 发布 SAM 3D,这是一个先进的3D重建模型套件,旨在将2D图像转化为精确的3D重建。包含两个主要子模型:SAM 3D Objects 用于物体和场景的3D重建,SAM 3D Body 专注于人体姿态和形状的估算。该模型扩展了“可提示(promptable)”视觉的概念,能够从单一图像中捕捉并还原丰富的3D信息,包括几何形状、纹理和布局,以及人体网格模型。

11月20日

【闭源】 谷歌发布 Gemini 3 Pro Image 预览版(gemini-3-pro-image-preview),这是 Nano Banana 模型的下一代版本 Nano Banana Pro。

11月21日

【开源】 腾讯混元发布 HunyuanVideo 1.5,这是一个轻量级、功能强大的开源视频生成模型。以仅8.3B的参数量,在视频生成领域实现了领先的视觉质量和运动连贯性,有效降低了视频创作的门槛。该模型旨在提供媲美甚至超越顶尖闭源模型的视频生成能力,并支持在消费级GPU上运行。

11月22日

【开源】 小米发布 MiMo-Embodied-7B,这是首个整合实体AI和自动驾驶的开源跨实体视觉-语言模型,显著增强了对动态物理环境的理解和推理能力。在实体AI(任务规划、可操作性预测、空间理解)、自动驾驶(环境感知、状态预测、驾驶规划)和通用视觉理解三大领域共37项基准测试中表现卓越,全面超越现有开源模型,媲美甚至优于闭源及专有模型,展现了专业化训练对通用能力的增强效果。

11月26日

开源模型进展

阿里通义实验室推出了一个6B参数的图像生成模型系列,包含三个变体。其中,Turbo版本已开源,主打极速推理(仅需8步,亚秒级延迟),可在消费级16G显存上运行,擅长生成写实图像、处理中英双语渲染并遵循复杂指令。该系列的Base版本和Edit版本(支持图生图编辑)也即将开源,旨在为社区开发者提供二次开发的基础。

模型详情与获取:
https://www.modelscope.cn/models/Tongyi-MAI/Z-Image-Turbo


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14591

(0)
上一篇 2025年12月1日 下午12:27
下一篇 2025年12月1日 下午12:39

相关推荐

  • Scaling Law的AGI之路:从DeepMind历史到谷歌Gemini的工程化实践

    在近期Axios AI+峰会上,DeepMind联合创始人兼CEO Demis Hassabis发表了对Scaling Law(缩放定律)的坚定立场,认为其不仅是当前AI发展的核心驱动力,更是实现通用人工智能(AGI)的必经之路。这一观点与OpenAI首席科学家Ilya Sutskever此前提出的“Scaling遇到瓶颈”论形成鲜明对比,引发了业界对AI技…

    2025年12月8日
    9000
  • AI外教革命:斑马口语如何用“千人千面”技术重塑儿童英语教育

    在人工智能技术快速发展的今天,教育领域正迎来一场深刻的变革。其中,儿童英语口语学习作为长期存在痛点的细分市场,率先成为AI技术落地的试验田。斑马口语作为一款专为儿童设计的AI外教产品,不仅展现了技术应用的成熟度,更揭示了AI在教育个性化领域的巨大潜力。 从技术架构层面分析,斑马口语的核心突破在于其基于猿力大模型的智能基座。与ChatGPT等通用大模型不同,猿…

    2025年11月18日
    7500
  • 从语言到空间:世界模型如何重塑AI进化的底层逻辑

    近期AI领域两位重量级人物的发声,揭示了人工智能发展路径的重要转向。图灵奖得主杨立昆(Yann LeCun)被曝计划离开Meta,专注于以“世界模型”为核心的新事业;而斯坦福大学教授李飞飞则在社交媒体发表长文,直言大语言模型(LLM)的局限性,并提出“空间智能”才是通往通用人工智能(AGI)的关键。两人不约而同地强调“世界模型”的重要性,这标志着AI研究正从…

    2025年11月17日
    8500
  • 谷歌联合创始人谢尔盖·布林斯坦福对谈:AI浪潮下的学术基因、Transformer遗憾与未来大学形态

    在斯坦福大学工程学院百年庆典的收官活动中,谷歌联合创始人谢尔盖·布林重返母校,与校长Jonathan Levin及工程学院院长Jennifer Widom展开了一场深度对话。这场对话不仅回顾了谷歌二十余年的创新历程,更触及了人工智能时代下学术界与产业界的核心命题——从Transformer论文的错失良机,到未来大学的形态演变,布林以亲历者视角提供了珍贵的一瞥…

    AI产业动态 2025年12月14日
    8700
  • GLM-4.7震撼发布:编程与推理能力全面突破,多项基准测试超越GPT-5.2与Claude 4.5

    经过多日预热,12月22日,智谱AI正式发布新一代旗舰模型GLM-4.7。该模型在编程和复杂推理能力上实现重大突破,旨在对标当前顶尖闭源模型。 基准测试表现亮眼 根据官方信息,GLM-4.7在编程、复杂推理和工具使用方面均有显著提升,同时在聊天、创意写作和角色扮演等场景下的能力也有所增强。 官方公布的测试结果显示,GLM-4.7在多项关键基准测试中表现优异:…

    2025年12月23日
    53200