AI大模型周报:阿里语音识别升级、谷歌Gemini 3系列亮相、Meta开源SAM 3与3D重建套件

AI大模型周报:阿里语音识别升级、谷歌Gemini 3系列亮相、Meta开源SAM 3与3D重建套件

11月17日

【闭源|语音识别】阿里发布录音文件识别新模型
阿里发布 qwen3-asr-flash-filetrans 及其快照版 qwen3-asr-flash-filetrans-2025-11-17。该模型专为音频文件的异步转写设计,支持最长12小时的录音文件。

11月18日

【闭源】谷歌推出 Gemini 3 Pro 预览版
谷歌发布首款 Gemini 3 系列模型 gemini-3-pro-preview。该模型在推理和多模态理解方面进行了升级,增强了代理和编码能力,并引入了媒体分辨率、思路签名、思考等级等新特性。

11月19日

【闭源】XAI 发布 Grok 4.1 Fast
XAI 发布 Grok 4.1 Fast 模型,现已在其 Enterprise API 中可用。新模型支持代理工具,且代理工具调用价格大幅下调,最高降幅达50%。

【闭源】OpenAI 发布 GPT-5.1-Codex-Max
OpenAI 发布 GPT-5.1-Codex-Max,这是一个专为长期项目级工作构建的代理编码模型。它在速度、性能和 token 效率上优于前代,并采用压缩技术以在多个上下文窗口中连贯工作。价格与 GPT-5.1-Codex 保持一致。

【开源】Meta 发布 Segment Anything Model 3 (SAM 3)
Meta AI 发布 Segment Anything Model 3 (SAM 3),这是一个旨在通过文本、示例图像和视觉提示,对图像和视频中的对象进行精准检测、分割和跟踪的统一计算机视觉模型。相比前代,其概念性提示和视觉提示的理解能力得到增强。

【开源】Meta 发布 SAM 3D 重建套件
Meta AI 发布 SAM 3D,这是一个先进的 3D 重建模型套件,可将 2D 图像转化为精确的 3D 重建。它包含 SAM 3D Objects(用于物体和场景重建)和 SAM 3D Body(用于人体姿态和形状估算)两个子模型,能够从单张图像中还原丰富的 3D 信息。

11月20日

【闭源】谷歌发布 Gemini 3 Pro Image 预览版
谷歌发布图像生成模型 gemini-3-pro-image-preview,该模型是 Nano Banana 模型的下一代版本 Nano Banana Pro

11月21日

【开源】腾讯混元发布 HunyuanVideo 1.5
腾讯混元发布开源视频生成模型 HunyuanVideo 1.5。该模型参数量为 8.3B,在视觉质量和运动连贯性上表现优异,旨在提供媲美顶尖闭源模型的能力,并支持在消费级 GPU 上运行。

11月22日

【开源】小米发布 MiMo-Embodied-7B
小米发布 MiMo-Embodied-7B,这是一个整合实体 AI 和自动驾驶能力的开源跨实体视觉-语言模型。该模型在实体 AI、自动驾驶和通用视觉理解三大领域的 37 项基准测试中表现卓越,全面超越现有开源模型


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14613

(0)
上一篇 2025年11月24日 上午11:12
下一篇 2025年11月24日 下午12:53

相关推荐