
10月13日
【开源】 阿里开源 Qwen3-VL-8B-Thinking 与 Qwen3-VL-8B-Instruct 模型。作为 Qwen3-VL 系列的 8B Dense 模型,它们显存占用更低,具备多模态理解与推理能力,支持长视频、长文档等超长上下文输入,并集成了视觉 2D/3D 定位、全面空间感知与万物识别功能。
10月14日
【闭源】 腾讯混元发布 Hunyuan-Translation 翻译模型。该模型支持 33 种语言互译及 5 种民族语言互译,在同尺寸模型中效果领先,在 WMT25 比赛的 30 种语言评测中获得第一,并在开源测试集 Flores200 上表现优异。
10月15日
【闭源】 Anthropic 发布 Claude Haiku 4.5。这是目前最快且最智能的 Haiku 模型,具备接近前沿模型的性能,适用于实时应用、高容量处理和成本敏感型部署。
【闭源】 谷歌发布 Veo 3.1 及 3.1 Fast 公开预览版。新版本支持延长视频生成,可参考最多三张图片,并提供首尾帧控制功能,新增了 4 秒、6 秒、8 秒的时长选项。
【闭源】 字节豆包发布 Doubao-Seed-1-6-Lite-251015 模型。该模型支持可手动关闭及调节长度的深度思考功能,具备文本生成、图片理解、视频理解及工具调用能力。
【闭源】 阿里发布 Qwen3-VL-Flash-2025-10-15 模型。作为 Qwen3 系列的小尺寸视觉理解模型,它有效融合了思考与非思考模式,在效果和响应速度上均有提升。
10月16日
【开源】 百度发布 PaddleOCR-VL-0.9B 多模态文档解析模型。该模型仅 0.9B 参数,在多个权威评测中刷新记录,支持 109 种语言,能够精准识别图片中的文本、手写汉字、表格、公式和图表等复杂元素,推理速度达每秒 1881 个 Token,较 MinerU 提升 14.2%。
- Qwen3-Max-Preview实测:非思考模型新王者诞生
- LLM文本摘要评测实战指南
- 姚顺雨成名作“智能体评测集τ-bench”上手指南
- DeepSeek-V3.2-Exp非思考模式实测
- DeepSeek-V3.2-Exp思考模式实测:开源模型王者
- 深度拆解:为什么通用 Agent 的下一站是 Agentic Browser?
- 每月AI大模型更新速递(25年9月)
- 每周AI大模型更新速递10.1~10.12
- 大模型智能体评测综述【Benchmarks解读】
- 智谱GLM-4.6硬刚豆包、DeepSeek:速度快40%,为何还是输了?
- 腾讯混元turbos实测:Agent能力暴跌25.7%,2元成本却让全行业沉默了
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14702
