AI周报:智谱GLM-4.6V革新视觉Agent,谷歌Gemini 2.5与OpenAI GPT-5.2齐发,多模态与智能体技术迎来爆发期

AI周报:智谱GLM-4.6V革新视觉Agent,谷歌Gemini 2.5与OpenAI GPT-5.2齐发,多模态与智能体技术迎来爆发期

12月8日

【开源】 智谱AI发布GLM-4.6V系列多模态大模型,包含GLM-4.6V(106B)云端版和GLM-4.6V-Flash(9B)轻量版。该系列模型支持128k超长上下文,在同参数规模下实现了视觉理解SOTA性能。其最大亮点在于首次将Function Call能力原生融入视觉模型架构,打通了从“视觉感知”到“可执行行动”的完整链路,为多模态Agent应用提供了统一的技术底座。

12月9日

【开源】 Mistral发布Devstral 2和Devstral Small 2,这是专为软件工程任务设计的智能体模型。该模型在SWE-bench基准测试中表现卓越,擅长使用工具探索代码库、编辑多文件并驱动软件工程智能体。它支持256k超长上下文窗口,并采用FP8精度指令微调,在智能体编码、性能提升和泛化能力方面全面超越前代产品。

【开源】 智谱AI发布Open-AutoGLM手机智能助手框架,该框架由Phone Agent框架和AutoGLM-Phone-9B模型组成。系统通过ADB控制设备,以视觉语言模型感知屏幕,结合智能规划自动执行操作流程。用户仅需用自然语言描述需求,系统即可自动解析意图、理解界面、规划动作并完成任务。该框架提供中英文双版本模型,其中AutoGLM-Phone-9B针对中文应用进行了优化,Multilingual版则支持多语言场景。

12月10日

【闭源】 谷歌推出Gemini 2.5文字转语音增强模型,包括Gemini 2.5 Flash TTS预览版(低延迟优化)和Gemini 2.5 Pro TTS预览版(质量优化)。新版本在表现力、语速精准度和对话流畅度方面实现了显著提升,旨在为实时语音交互应用提供更自然的体验。

12月11日

【闭源】 OpenAI发布GPT-5.2系列三款升级模型,包含GPT-5.2 Instant、GPT-5.2 Thinking和GPT-5.2 Pro。全系列知识截止日期更新至2025年8月。Instant版在信息检索、技术写作和翻译方面有显著提升,并保留了温暖的对话风格;Thinking版在电子表格建模、代码编程、长文档总结等复杂任务中表现更优;Pro版则在编程等复杂领域减少了重大错误,旨在提供最可靠的答案。

【闭源】 谷歌发布Interactions API Beta版,该API提供了与Gemini模型和智能体交互的统一界面,旨在简化开发者的集成流程,支持更灵活的应用构建。

【闭源】 谷歌推出Gemini Deep Research智能体预览版,该智能体能够自主规划、执行和整合多步研究任务的结果,为需要深度信息收集和分析的场景提供强大支持。

12月12日

【闭源】 谷歌为Live API推出新的原生音频模型gemini-2.5-flash-native-audio-preview-12-2025,该模型显著提升了处理复杂音频工作流程的能力,为实时语音交互应用带来了更强的性能。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14512

(0)
上一篇 2025年12月15日 上午8:39
下一篇 2025年12月15日 下午12:40

相关推荐

  • 从数据中心到工作站:KTransformers与LLaMA-Factory联手重塑千亿参数模型微调格局

    在人工智能技术快速迭代的浪潮中,大模型微调一直被视为连接通用智能与垂直应用的关键桥梁。然而,传统微调方法对计算资源的巨额需求,将千亿乃至万亿参数模型的定制化能力牢牢锁在数据中心内部,普通研究者和中小企业只能望而却步。如今,这一局面正被彻底改写——仅需2-4张消费级RTX 4090显卡,即可在本地工作站上对DeepSeek 671B、Kimi K2 1TB等超…

    2025年11月5日
    9300
  • 从通用炫技到垂直深耕:斑马口语如何以AI Agent技术重塑英语教育新范式

    2025年,AI产业的焦点正从实验室的惊艳演示转向商业价值的深度挖掘。当OpenAI、Google等巨头仍在探索多模态大模型的通用可能性时,一场决定AI真正落地效能的战役已在教育、医疗、客服等垂直领域悄然打响。在这场产业化竞赛中,斑马推出的业内首个实现AI外教一对一教学的「斑马口语」产品,不仅标志着AI Agent在垂直行业的实质性突破,更以系统性的技术攻坚…

    2025年11月18日
    7100
  • 谷歌AI战略全面开花:千亿美元营收背后的全栈式布局与能源挑战

    谷歌2025年第三季度财报的发布,标志着这家科技巨头在人工智能时代迈入了全新的发展阶段。季度营收首次突破千亿美元大关,达到1023亿美元,同比增长16%,净利润349.8亿美元,同比增长33%。这一成绩不仅超越了市场预期,更在市值层面实现了超过3000亿美元的增长,达到3.55万亿美元。 深入分析这份财报,可以发现谷歌的AI战略已经从概念验证阶段全面进入商业…

    2025年10月30日
    7600
  • Orchestrator-8B:以强化学习驱动的智能体编排新范式,实现成本、效率与准确性的三重突破

    在人工智能领域,面对日益复杂的任务需求,单纯依赖规模更大的模型往往陷入成本高昂、响应迟缓的困境。最近,英伟达与香港大学的研究团队提出了一种创新的解决方案——Orchestrator-8B,它通过一个仅80亿参数的小型模型作为“指挥家”,动态协调代码解释器、网络搜索、数学模型乃至更强大的大模型等多样化工具,形成高效的多智能体协作系统。这一范式不仅显著提升了任务…

    2025年12月7日
    9000
  • 人机协作新突破:仅凭本体感知实现无缝搬运,COLA方法引领具身智能新范式

    在机器人技术快速发展的今天,人机协作搬运一直是学术界和工业界关注的重点领域。传统方法通常依赖外部传感器(如摄像头、激光雷达)或遥控设备来实现机器人与人类的交互,但这些方案存在成本高、易受环境干扰、交互不自然等局限。近期,一项由中国研究团队提出的创新方法COLA(Collaborative Lifting with Adaptive roles)引起了广泛关注…

    2025年11月8日
    7900