AI周报：智谱GLM-4.6V革新视觉Agent，谷歌Gemini 2.5与OpenAI GPT-5.2齐发，多模态与智能体技术迎来爆发期

2025年12月15日下午12:30 • AI产业动态 • 阅读 247

12月8日

【开源】 智谱AI发布GLM-4.6V系列多模态大模型，包含GLM-4.6V（106B）云端版和GLM-4.6V-Flash（9B）轻量版。该系列模型支持128k超长上下文，在同参数规模下实现了视觉理解SOTA性能。其最大亮点在于首次将Function Call能力原生融入视觉模型架构，打通了从“视觉感知”到“可执行行动”的完整链路，为多模态Agent应用提供了统一的技术底座。

12月9日

【开源】 Mistral发布Devstral 2和Devstral Small 2，这是专为软件工程任务设计的智能体模型。该模型在SWE-bench基准测试中表现卓越，擅长使用工具探索代码库、编辑多文件并驱动软件工程智能体。它支持256k超长上下文窗口，并采用FP8精度指令微调，在智能体编码、性能提升和泛化能力方面全面超越前代产品。

【开源】 智谱AI发布Open-AutoGLM手机智能助手框架，该框架由Phone Agent框架和AutoGLM-Phone-9B模型组成。系统通过ADB控制设备，以视觉语言模型感知屏幕，结合智能规划自动执行操作流程。用户仅需用自然语言描述需求，系统即可自动解析意图、理解界面、规划动作并完成任务。该框架提供中英文双版本模型，其中AutoGLM-Phone-9B针对中文应用进行了优化，Multilingual版则支持多语言场景。

12月10日

【闭源】 谷歌推出Gemini 2.5文字转语音增强模型，包括Gemini 2.5 Flash TTS预览版（低延迟优化）和Gemini 2.5 Pro TTS预览版（质量优化）。新版本在表现力、语速精准度和对话流畅度方面实现了显著提升，旨在为实时语音交互应用提供更自然的体验。

12月11日

【闭源】 OpenAI发布GPT-5.2系列三款升级模型，包含GPT-5.2 Instant、GPT-5.2 Thinking和GPT-5.2 Pro。全系列知识截止日期更新至2025年8月。Instant版在信息检索、技术写作和翻译方面有显著提升，并保留了温暖的对话风格；Thinking版在电子表格建模、代码编程、长文档总结等复杂任务中表现更优；Pro版则在编程等复杂领域减少了重大错误，旨在提供最可靠的答案。

【闭源】 谷歌发布Interactions API Beta版，该API提供了与Gemini模型和智能体交互的统一界面，旨在简化开发者的集成流程，支持更灵活的应用构建。

【闭源】 谷歌推出Gemini Deep Research智能体预览版，该智能体能够自主规划、执行和整合多步研究任务的结果，为需要深度信息收集和分析的场景提供强大支持。

12月12日

【闭源】 谷歌为Live API推出新的原生音频模型gemini-2.5-flash-native-audio-preview-12-2025，该模型显著提升了处理复杂音频工作流程的能力，为实时语音交互应用带来了更强的性能。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/14512

AI周报：智谱GLM-4.6V革新视觉Agent，谷歌Gemini 2.5与OpenAI GPT-5.2齐发，多模态与智能体技术迎来爆发期

相关推荐

红杉资本权力更迭深度解析：AI投资错失、治理风波与战略转型

DeepSeek GitHub仓库突现密集更新，华尔街警惕“DeepSeek第二时刻”来临

Valve三款硬件齐发：Steam生态闭环成型，VR市场迎来新变量

突破智能体工作流瓶颈：ToolOrchestra框架如何通过强化学习实现动态资源调度

深夜突发！通义千问负责人林俊旸宣布离职，阿里最年轻P10技术高管去向成谜