AI大模型周报：阿里语音识别升级、谷歌Gemini 3系列亮相、Meta开源SAM 3与3D重建套件

2025年11月24日下午12:33 • AI产业动态 • 阅读 197

11月17日

【闭源｜语音识别】阿里发布录音文件识别新模型
阿里发布 qwen3-asr-flash-filetrans 及其快照版 qwen3-asr-flash-filetrans-2025-11-17。该模型专为音频文件的异步转写设计，支持最长12小时的录音文件。

11月18日

【闭源】谷歌推出 Gemini 3 Pro 预览版
谷歌发布首款 Gemini 3 系列模型 gemini-3-pro-preview。该模型在推理和多模态理解方面进行了升级，增强了代理和编码能力，并引入了媒体分辨率、思路签名、思考等级等新特性。

11月19日

【闭源】XAI 发布 Grok 4.1 Fast
XAI 发布 Grok 4.1 Fast 模型，现已在其 Enterprise API 中可用。新模型支持代理工具，且代理工具调用价格大幅下调，最高降幅达50%。

【闭源】OpenAI 发布 GPT-5.1-Codex-Max
OpenAI 发布 GPT-5.1-Codex-Max，这是一个专为长期项目级工作构建的代理编码模型。它在速度、性能和 token 效率上优于前代，并采用压缩技术以在多个上下文窗口中连贯工作。价格与 GPT-5.1-Codex 保持一致。

【开源】Meta 发布 Segment Anything Model 3 (SAM 3)
Meta AI 发布 Segment Anything Model 3 (SAM 3)，这是一个旨在通过文本、示例图像和视觉提示，对图像和视频中的对象进行精准检测、分割和跟踪的统一计算机视觉模型。相比前代，其概念性提示和视觉提示的理解能力得到增强。

【开源】Meta 发布 SAM 3D 重建套件
Meta AI 发布 SAM 3D，这是一个先进的 3D 重建模型套件，可将 2D 图像转化为精确的 3D 重建。它包含 SAM 3D Objects（用于物体和场景重建）和 SAM 3D Body（用于人体姿态和形状估算）两个子模型，能够从单张图像中还原丰富的 3D 信息。

11月20日

【闭源】谷歌发布 Gemini 3 Pro Image 预览版
谷歌发布图像生成模型 gemini-3-pro-image-preview，该模型是 Nano Banana 模型的下一代版本 Nano Banana Pro。

11月21日

【开源】腾讯混元发布 HunyuanVideo 1.5
腾讯混元发布开源视频生成模型 HunyuanVideo 1.5。该模型参数量为 8.3B，在视觉质量和运动连贯性上表现优异，旨在提供媲美顶尖闭源模型的能力，并支持在消费级 GPU 上运行。

11月22日

【开源】小米发布 MiMo-Embodied-7B
小米发布 MiMo-Embodied-7B，这是一个整合实体 AI 和自动驾驶能力的开源跨实体视觉-语言模型。该模型在实体 AI、自动驾驶和通用视觉理解三大领域的 37 项基准测试中表现卓越，全面超越现有开源模型。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/14613

AI大模型周报：阿里语音识别升级、谷歌Gemini 3系列亮相、Meta开源SAM 3与3D重建套件

相关推荐

从编程奇点到行动奇点：OpenClaw引爆AI革命，如何重塑所有人的工作方式？

Superpowers：为Claude Code注入资深工程师思维，终结AI编程的“瞎写”时代

Gemini负责人揭秘：Pro模型竟是Flash的“蒸馏器”，后训练与持续学习成AI进化新战场

昆仑万维开源SkyReels-V3：多模态视频生成新标杆，虚拟网红时代的技术引擎

昇腾硬件赋能：openPangu-Ultra-MoE-718B-V1.1推理体系的技术突破与产业影响