AI大模型周报：阿里、腾讯、Anthropic等巨头密集发布，多模态与推理能力成焦点

2025年10月20日下午12:58 • AI产业动态 • 阅读 182

10月13日

【开源】 阿里开源 Qwen3-VL-8B-Thinking 与 Qwen3-VL-8B-Instruct 模型。作为 Qwen3-VL 系列的 8B Dense 模型，它们显存占用更低，具备多模态理解与推理能力，支持长视频、长文档等超长上下文输入，并集成了视觉 2D/3D 定位、全面空间感知与万物识别功能。

10月14日

【闭源】 腾讯混元发布 Hunyuan-Translation 翻译模型。该模型支持 33 种语言互译及 5 种民族语言互译，在同尺寸模型中效果领先，在 WMT25 比赛的 30 种语言评测中获得第一，并在开源测试集 Flores200 上表现优异。

10月15日

【闭源】 Anthropic 发布 Claude Haiku 4.5。这是目前最快且最智能的 Haiku 模型，具备接近前沿模型的性能，适用于实时应用、高容量处理和成本敏感型部署。

【闭源】 谷歌发布 Veo 3.1 及 3.1 Fast 公开预览版。新版本支持延长视频生成，可参考最多三张图片，并提供首尾帧控制功能，新增了 4 秒、6 秒、8 秒的时长选项。

【闭源】 字节豆包发布 Doubao-Seed-1-6-Lite-251015 模型。该模型支持可手动关闭及调节长度的深度思考功能，具备文本生成、图片理解、视频理解及工具调用能力。

【闭源】 阿里发布 Qwen3-VL-Flash-2025-10-15 模型。作为 Qwen3 系列的小尺寸视觉理解模型，它有效融合了思考与非思考模式，在效果和响应速度上均有提升。

10月16日

【开源】 百度发布 PaddleOCR-VL-0.9B 多模态文档解析模型。该模型仅 0.9B 参数，在多个权威评测中刷新记录，支持 109 种语言，能够精准识别图片中的文本、手写汉字、表格、公式和图表等复杂元素，推理速度达每秒 1881 个 Token，较 MinerU 提升 14.2%。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/14702

AI大模型周报：阿里、腾讯、Anthropic等巨头密集发布，多模态与推理能力成焦点

10月13日

10月14日

10月15日

10月16日

相关推荐

英伟达GTC 2026：黄仁勋揭示万亿美元蓝图，Vera Rubin系统重塑AI算力格局

奥特曼自曝：不想当上市公司CEO，豪赌1.4万亿算力押注AGI未来

AI霸主之争：OpenAI面临谷歌与Anthropic双重夹击，万亿豪赌能否守住王座？

AMD Iris：Triton原生多GPU通信库，以Tile级抽象实现1.79倍性能飞跃，重塑计算-通信融合范式

思维链太长拖慢推理？把它「画」进隐空间！新框架RoT探索大模型隐空间推理新范式