AI周报:智谱GLM-4.6V革新视觉Agent,谷歌Gemini 2.5与OpenAI GPT-5.2齐发,多模态与智能体技术迎来爆发期

AI周报:智谱GLM-4.6V革新视觉Agent,谷歌Gemini 2.5与OpenAI GPT-5.2齐发,多模态与智能体技术迎来爆发期

12月8日

【开源】 智谱AI发布GLM-4.6V系列多模态大模型,包含GLM-4.6V(106B)云端版和GLM-4.6V-Flash(9B)轻量版。该系列模型支持128k超长上下文,在同参数规模下实现了视觉理解SOTA性能。其最大亮点在于首次将Function Call能力原生融入视觉模型架构,打通了从“视觉感知”到“可执行行动”的完整链路,为多模态Agent应用提供了统一的技术底座。

12月9日

【开源】 Mistral发布Devstral 2和Devstral Small 2,这是专为软件工程任务设计的智能体模型。该模型在SWE-bench基准测试中表现卓越,擅长使用工具探索代码库、编辑多文件并驱动软件工程智能体。它支持256k超长上下文窗口,并采用FP8精度指令微调,在智能体编码、性能提升和泛化能力方面全面超越前代产品。

【开源】 智谱AI发布Open-AutoGLM手机智能助手框架,该框架由Phone Agent框架和AutoGLM-Phone-9B模型组成。系统通过ADB控制设备,以视觉语言模型感知屏幕,结合智能规划自动执行操作流程。用户仅需用自然语言描述需求,系统即可自动解析意图、理解界面、规划动作并完成任务。该框架提供中英文双版本模型,其中AutoGLM-Phone-9B针对中文应用进行了优化,Multilingual版则支持多语言场景。

12月10日

【闭源】 谷歌推出Gemini 2.5文字转语音增强模型,包括Gemini 2.5 Flash TTS预览版(低延迟优化)和Gemini 2.5 Pro TTS预览版(质量优化)。新版本在表现力、语速精准度和对话流畅度方面实现了显著提升,旨在为实时语音交互应用提供更自然的体验。

12月11日

【闭源】 OpenAI发布GPT-5.2系列三款升级模型,包含GPT-5.2 Instant、GPT-5.2 Thinking和GPT-5.2 Pro。全系列知识截止日期更新至2025年8月。Instant版在信息检索、技术写作和翻译方面有显著提升,并保留了温暖的对话风格;Thinking版在电子表格建模、代码编程、长文档总结等复杂任务中表现更优;Pro版则在编程等复杂领域减少了重大错误,旨在提供最可靠的答案。

【闭源】 谷歌发布Interactions API Beta版,该API提供了与Gemini模型和智能体交互的统一界面,旨在简化开发者的集成流程,支持更灵活的应用构建。

【闭源】 谷歌推出Gemini Deep Research智能体预览版,该智能体能够自主规划、执行和整合多步研究任务的结果,为需要深度信息收集和分析的场景提供强大支持。

12月12日

【闭源】 谷歌为Live API推出新的原生音频模型gemini-2.5-flash-native-audio-preview-12-2025,该模型显著提升了处理复杂音频工作流程的能力,为实时语音交互应用带来了更强的性能。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14512

(0)
上一篇 2025年12月15日 上午8:39
下一篇 2025年12月15日 下午12:40

相关推荐

  • 红杉资本权力更迭深度解析:AI投资错失、治理风波与战略转型

    红杉资本(Sequoia Capital)近期的高层变动,表面上是CEO罗洛夫·博塔(Roelof Botha)的“主动让贤”,实则是一场由内部合伙人发起的权力重构。这一事件不仅反映了硅谷顶级风投机构在AI浪潮中的战略焦虑,更揭示了其治理机制、投资决策与领导风格之间的深层矛盾。本文将深入分析博塔下台的导火索、红杉在AI领域的布局失误,以及新任领导层面临的挑战…

    2025年12月11日
    21100
  • DeepSeek GitHub仓库突现密集更新,华尔街警惕“DeepSeek第二时刻”来临

    DeepSeek员工节后开工,美国AI圈神经再绷紧 DeepSeek员工节后一上班,美国AI圈又要抖三抖了。 就从十几个小时前开始,DeepSeek的GitHub仓库突然一阵猛更新,Merge了一堆PR: 维护者主要是 mowentian ——DeepSeekMoE等论文的署名作者之一Huang Panpan。他这一干活不要紧,大洋彼岸“V4来了???”的紧…

    2026年2月25日
    18800
  • Valve三款硬件齐发:Steam生态闭环成型,VR市场迎来新变量

    在科技巨头纷纷转向AI眼镜的当下,Valve(俗称V社)于今日宣布推出三款全新硬件设备:VR头显Steam Frame、游戏主机Steam Machine和手柄Steam Controller,预计2026年初正式上市。这一动作不仅标志着Valve时隔六年重返VR硬件市场,更意味着其正在构建一个从软件平台到硬件终端的完整生态闭环。 作为本次发布的核心产品,S…

    2025年11月13日
    17700
  • 突破智能体工作流瓶颈:ToolOrchestra框架如何通过强化学习实现动态资源调度

    在人工智能领域,智能体工作流的构建一直是提升任务执行效率的关键。然而,传统基于提示词工程的工作流设计存在明显的性能天花板,而静态路由策略则常导致计算资源的严重浪费。香港大学与NVIDIA团队的最新研究《ToolOrchestra: Learning to Orchestrate Tools with Multi-Objective Reinforcement…

    2025年11月28日
    16300
  • 深夜突发!通义千问负责人林俊旸宣布离职,阿里最年轻P10技术高管去向成谜

    深夜突发!通义千问负责人林俊旸宣布离职,阿里最年轻P10技术高管去向成谜 太突然了! 深夜,通义千问(Qwen)负责人林俊旸突然发布推文,宣布自己将离开Qwen团队。 截至目前,林俊旸尚未透露自己的去向和接任者,外界尚不清楚他是否也会离开阿里巴巴。 据内部知情人士透露,目前尚无直接接替林俊旸的人选,原因是「事发比较突然」。该知情人士表示:「主要感觉就是他的一…

    2026年3月4日
    15600