AI周报：智谱GLM-4.6V革新视觉Agent，谷歌Gemini 2.5与OpenAI GPT-5.2齐发，多模态与智能体技术迎来爆发期

2025年12月15日下午12:30 • AI产业动态 • 阅读 476

12月8日

【开源】 智谱AI发布GLM-4.6V系列多模态大模型，包含GLM-4.6V（106B）云端版和GLM-4.6V-Flash（9B）轻量版。该系列模型支持128k超长上下文，在同参数规模下实现了视觉理解SOTA性能。其最大亮点在于首次将Function Call能力原生融入视觉模型架构，打通了从“视觉感知”到“可执行行动”的完整链路，为多模态Agent应用提供了统一的技术底座。

12月9日

【开源】 Mistral发布Devstral 2和Devstral Small 2，这是专为软件工程任务设计的智能体模型。该模型在SWE-bench基准测试中表现卓越，擅长使用工具探索代码库、编辑多文件并驱动软件工程智能体。它支持256k超长上下文窗口，并采用FP8精度指令微调，在智能体编码、性能提升和泛化能力方面全面超越前代产品。

【开源】 智谱AI发布Open-AutoGLM手机智能助手框架，该框架由Phone Agent框架和AutoGLM-Phone-9B模型组成。系统通过ADB控制设备，以视觉语言模型感知屏幕，结合智能规划自动执行操作流程。用户仅需用自然语言描述需求，系统即可自动解析意图、理解界面、规划动作并完成任务。该框架提供中英文双版本模型，其中AutoGLM-Phone-9B针对中文应用进行了优化，Multilingual版则支持多语言场景。

12月10日

【闭源】 谷歌推出Gemini 2.5文字转语音增强模型，包括Gemini 2.5 Flash TTS预览版（低延迟优化）和Gemini 2.5 Pro TTS预览版（质量优化）。新版本在表现力、语速精准度和对话流畅度方面实现了显著提升，旨在为实时语音交互应用提供更自然的体验。

12月11日

【闭源】 OpenAI发布GPT-5.2系列三款升级模型，包含GPT-5.2 Instant、GPT-5.2 Thinking和GPT-5.2 Pro。全系列知识截止日期更新至2025年8月。Instant版在信息检索、技术写作和翻译方面有显著提升，并保留了温暖的对话风格；Thinking版在电子表格建模、代码编程、长文档总结等复杂任务中表现更优；Pro版则在编程等复杂领域减少了重大错误，旨在提供最可靠的答案。

【闭源】 谷歌发布Interactions API Beta版，该API提供了与Gemini模型和智能体交互的统一界面，旨在简化开发者的集成流程，支持更灵活的应用构建。

【闭源】 谷歌推出Gemini Deep Research智能体预览版，该智能体能够自主规划、执行和整合多步研究任务的结果，为需要深度信息收集和分析的场景提供强大支持。

12月12日

【闭源】 谷歌为Live API推出新的原生音频模型gemini-2.5-flash-native-audio-preview-12-2025，该模型显著提升了处理复杂音频工作流程的能力，为实时语音交互应用带来了更强的性能。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/14512

AI周报：智谱GLM-4.6V革新视觉Agent，谷歌Gemini 2.5与OpenAI GPT-5.2齐发，多模态与智能体技术迎来爆发期

相关推荐

华为云双引擎战略：Versatile智能体平台与CloudDevice云终端协同，破解AI落地三大难题

AI泡沫破裂后的科技人才迁徙：从行业震荡到创新扩散的深度剖析

哈佛Science发文：AI急诊诊断碾压人类医生，准确率67%对50%，治疗方案89%对34%

宇树科技发布390万载人机甲GD01，现实版高达量产在即

OpenAI发布Prism：GPT-5.2驱动的免费科研写作平台，开启Vibe Coding式论文创作新时代