
12月8日
【开源】 智谱AI发布GLM-4.6V系列多模态大模型,包含GLM-4.6V(106B)云端版和GLM-4.6V-Flash(9B)轻量版。该系列模型支持128k超长上下文,在同参数规模下实现了视觉理解SOTA性能。其最大亮点在于首次将Function Call能力原生融入视觉模型架构,打通了从“视觉感知”到“可执行行动”的完整链路,为多模态Agent应用提供了统一的技术底座。
12月9日
【开源】 Mistral发布Devstral 2和Devstral Small 2,这是专为软件工程任务设计的智能体模型。该模型在SWE-bench基准测试中表现卓越,擅长使用工具探索代码库、编辑多文件并驱动软件工程智能体。它支持256k超长上下文窗口,并采用FP8精度指令微调,在智能体编码、性能提升和泛化能力方面全面超越前代产品。
【开源】 智谱AI发布Open-AutoGLM手机智能助手框架,该框架由Phone Agent框架和AutoGLM-Phone-9B模型组成。系统通过ADB控制设备,以视觉语言模型感知屏幕,结合智能规划自动执行操作流程。用户仅需用自然语言描述需求,系统即可自动解析意图、理解界面、规划动作并完成任务。该框架提供中英文双版本模型,其中AutoGLM-Phone-9B针对中文应用进行了优化,Multilingual版则支持多语言场景。
12月10日
【闭源】 谷歌推出Gemini 2.5文字转语音增强模型,包括Gemini 2.5 Flash TTS预览版(低延迟优化)和Gemini 2.5 Pro TTS预览版(质量优化)。新版本在表现力、语速精准度和对话流畅度方面实现了显著提升,旨在为实时语音交互应用提供更自然的体验。
12月11日
【闭源】 OpenAI发布GPT-5.2系列三款升级模型,包含GPT-5.2 Instant、GPT-5.2 Thinking和GPT-5.2 Pro。全系列知识截止日期更新至2025年8月。Instant版在信息检索、技术写作和翻译方面有显著提升,并保留了温暖的对话风格;Thinking版在电子表格建模、代码编程、长文档总结等复杂任务中表现更优;Pro版则在编程等复杂领域减少了重大错误,旨在提供最可靠的答案。
【闭源】 谷歌发布Interactions API Beta版,该API提供了与Gemini模型和智能体交互的统一界面,旨在简化开发者的集成流程,支持更灵活的应用构建。
【闭源】 谷歌推出Gemini Deep Research智能体预览版,该智能体能够自主规划、执行和整合多步研究任务的结果,为需要深度信息收集和分析的场景提供强大支持。
12月12日
【闭源】 谷歌为Live API推出新的原生音频模型gemini-2.5-flash-native-audio-preview-12-2025,该模型显著提升了处理复杂音频工作流程的能力,为实时语音交互应用带来了更强的性能。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14512
