AI大模型周报:阿里语音识别升级、谷歌Gemini 3系列亮相、Meta开源SAM 3与3D重建套件

AI大模型周报:阿里语音识别升级、谷歌Gemini 3系列亮相、Meta开源SAM 3与3D重建套件

11月17日

【闭源|语音识别】阿里发布录音文件识别新模型
阿里发布 qwen3-asr-flash-filetrans 及其快照版 qwen3-asr-flash-filetrans-2025-11-17。该模型专为音频文件的异步转写设计,支持最长12小时的录音文件。

11月18日

【闭源】谷歌推出 Gemini 3 Pro 预览版
谷歌发布首款 Gemini 3 系列模型 gemini-3-pro-preview。该模型在推理和多模态理解方面进行了升级,增强了代理和编码能力,并引入了媒体分辨率、思路签名、思考等级等新特性。

11月19日

【闭源】XAI 发布 Grok 4.1 Fast
XAI 发布 Grok 4.1 Fast 模型,现已在其 Enterprise API 中可用。新模型支持代理工具,且代理工具调用价格大幅下调,最高降幅达50%。

【闭源】OpenAI 发布 GPT-5.1-Codex-Max
OpenAI 发布 GPT-5.1-Codex-Max,这是一个专为长期项目级工作构建的代理编码模型。它在速度、性能和 token 效率上优于前代,并采用压缩技术以在多个上下文窗口中连贯工作。价格与 GPT-5.1-Codex 保持一致。

【开源】Meta 发布 Segment Anything Model 3 (SAM 3)
Meta AI 发布 Segment Anything Model 3 (SAM 3),这是一个旨在通过文本、示例图像和视觉提示,对图像和视频中的对象进行精准检测、分割和跟踪的统一计算机视觉模型。相比前代,其概念性提示和视觉提示的理解能力得到增强。

【开源】Meta 发布 SAM 3D 重建套件
Meta AI 发布 SAM 3D,这是一个先进的 3D 重建模型套件,可将 2D 图像转化为精确的 3D 重建。它包含 SAM 3D Objects(用于物体和场景重建)和 SAM 3D Body(用于人体姿态和形状估算)两个子模型,能够从单张图像中还原丰富的 3D 信息。

11月20日

【闭源】谷歌发布 Gemini 3 Pro Image 预览版
谷歌发布图像生成模型 gemini-3-pro-image-preview,该模型是 Nano Banana 模型的下一代版本 Nano Banana Pro

11月21日

【开源】腾讯混元发布 HunyuanVideo 1.5
腾讯混元发布开源视频生成模型 HunyuanVideo 1.5。该模型参数量为 8.3B,在视觉质量和运动连贯性上表现优异,旨在提供媲美顶尖闭源模型的能力,并支持在消费级 GPU 上运行。

11月22日

【开源】小米发布 MiMo-Embodied-7B
小米发布 MiMo-Embodied-7B,这是一个整合实体 AI 和自动驾驶能力的开源跨实体视觉-语言模型。该模型在实体 AI、自动驾驶和通用视觉理解三大领域的 37 项基准测试中表现卓越,全面超越现有开源模型


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14613

(0)
上一篇 2025年11月24日 上午11:12
下一篇 2025年11月24日 下午12:53

相关推荐

  • 从编程奇点到行动奇点:OpenClaw引爆AI革命,如何重塑所有人的工作方式?

    2026年3月,一个名为OpenClaw的开源项目以史无前例的速度登顶GitHub星标榜榜首。 React项目积累超过24万颗星用了十三年,而OpenClaw达到同样的高度,仅用了100天。它的爆火并非偶然,其背后是全球AI智能体(Agent)使用量的千倍级增长。这标志着一个比“编程奇点”更具颠覆性的转折点正在到来——我们称之为 “行动奇点”。 Claude…

    2026年3月8日
    14300
  • Superpowers:为Claude Code注入资深工程师思维,终结AI编程的“瞎写”时代

    你是否曾在用AI写代码时,经历过这样的崩溃时刻? 满怀期待地向AI提出需求,它确实反应迅速,顷刻间生成大段代码。然而,一旦运行,却是满屏报错,业务逻辑也常常残缺不全。更令人无奈的是,它今天写的代码,可能明天自己都无法理解。 究其根源,当前多数AI编程工具的症结在于“过于顺从”。它们缺乏停顿与思考,只是机械地堆砌代码片段。 有趣的是,今天GitHub Tren…

    2026年1月15日
    18500
  • Gemini负责人揭秘:Pro模型竟是Flash的“蒸馏器”,后训练与持续学习成AI进化新战场

    2025年底,AI领域最引人注目的事件之一是Gemini 3 Flash的发布。这款模型主打轻量级与高速度,其智能表现不仅全面超越了前代Gemini 2.5 Pro,甚至在编程能力和多模态推理等部分性能上反超了Gemini 3 Pro与GPT-5.2,表现令人惊艳。 就在近日,Gemini的三位联合技术负责人——Oriol Vinyals、Jeff Dean…

    2025年12月21日
    26100
  • 昆仑万维开源SkyReels-V3:多模态视频生成新标杆,虚拟网红时代的技术引擎

    AI 网红们在社交平台上混得风生水起。他们手握品牌合作,坐拥百万粉丝,但很多人至今不知这些都是 AI 生成的,依然像追真人明星一样互动、点赞、被种草。 这也难怪有博主直呼:虚拟网红时代已经到来。 现在,昆仑万维也来添了把火,直接把背后的技术开源了。 1 月 29 日,Skywork AI 团队宣布开源 SkyReels-V3 多模态视频生成模型系列。该系列涵…

    2026年1月29日
    23600
  • 昇腾硬件赋能:openPangu-Ultra-MoE-718B-V1.1推理体系的技术突破与产业影响

    随着2025年接近尾声,大模型技术正经历从单点提效工具向业务系统底层基础设施的深刻转型。在这一关键进程中,推理效率已成为决定大模型能否真正实现商业落地的核心变量。特别是对于超大规模混合专家(MoE)模型而言,推理环节面临的挑战已从单纯的计算能力扩展,演变为涉及计算、通信、访存、并行策略等多维度的系统性优化问题。华为近期发布的openPangu-Ultra-M…

    2025年11月28日
    20400