AI周报:智谱GLM-4.6V革新视觉Agent,谷歌Gemini 2.5与OpenAI GPT-5.2齐发,多模态与智能体技术迎来爆发期

AI周报:智谱GLM-4.6V革新视觉Agent,谷歌Gemini 2.5与OpenAI GPT-5.2齐发,多模态与智能体技术迎来爆发期

12月8日

【开源】 智谱AI发布GLM-4.6V系列多模态大模型,包含GLM-4.6V(106B)云端版和GLM-4.6V-Flash(9B)轻量版。该系列模型支持128k超长上下文,在同参数规模下实现了视觉理解SOTA性能。其最大亮点在于首次将Function Call能力原生融入视觉模型架构,打通了从“视觉感知”到“可执行行动”的完整链路,为多模态Agent应用提供了统一的技术底座。

12月9日

【开源】 Mistral发布Devstral 2和Devstral Small 2,这是专为软件工程任务设计的智能体模型。该模型在SWE-bench基准测试中表现卓越,擅长使用工具探索代码库、编辑多文件并驱动软件工程智能体。它支持256k超长上下文窗口,并采用FP8精度指令微调,在智能体编码、性能提升和泛化能力方面全面超越前代产品。

【开源】 智谱AI发布Open-AutoGLM手机智能助手框架,该框架由Phone Agent框架和AutoGLM-Phone-9B模型组成。系统通过ADB控制设备,以视觉语言模型感知屏幕,结合智能规划自动执行操作流程。用户仅需用自然语言描述需求,系统即可自动解析意图、理解界面、规划动作并完成任务。该框架提供中英文双版本模型,其中AutoGLM-Phone-9B针对中文应用进行了优化,Multilingual版则支持多语言场景。

12月10日

【闭源】 谷歌推出Gemini 2.5文字转语音增强模型,包括Gemini 2.5 Flash TTS预览版(低延迟优化)和Gemini 2.5 Pro TTS预览版(质量优化)。新版本在表现力、语速精准度和对话流畅度方面实现了显著提升,旨在为实时语音交互应用提供更自然的体验。

12月11日

【闭源】 OpenAI发布GPT-5.2系列三款升级模型,包含GPT-5.2 Instant、GPT-5.2 Thinking和GPT-5.2 Pro。全系列知识截止日期更新至2025年8月。Instant版在信息检索、技术写作和翻译方面有显著提升,并保留了温暖的对话风格;Thinking版在电子表格建模、代码编程、长文档总结等复杂任务中表现更优;Pro版则在编程等复杂领域减少了重大错误,旨在提供最可靠的答案。

【闭源】 谷歌发布Interactions API Beta版,该API提供了与Gemini模型和智能体交互的统一界面,旨在简化开发者的集成流程,支持更灵活的应用构建。

【闭源】 谷歌推出Gemini Deep Research智能体预览版,该智能体能够自主规划、执行和整合多步研究任务的结果,为需要深度信息收集和分析的场景提供强大支持。

12月12日

【闭源】 谷歌为Live API推出新的原生音频模型gemini-2.5-flash-native-audio-preview-12-2025,该模型显著提升了处理复杂音频工作流程的能力,为实时语音交互应用带来了更强的性能。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/14512

(0)
上一篇 2025年12月15日 上午8:39
下一篇 2025年12月15日 下午12:40

相关推荐

  • 华为云双引擎战略:Versatile智能体平台与CloudDevice云终端协同,破解AI落地三大难题

    在2025全球计算大会(CGC 2025)上,华为云正式发布了Versatile智能体平台与CloudDevice云终端协同解决方案,这标志着AI技术从实验室走向产业应用的关键转折。当前,尽管大模型技术飞速发展,但行业落地仍面临三大核心挑战:开发门槛过高导致中小企业难以参与、场景碎片化造成定制化成本激增、端侧算力限制阻碍实时智能应用。华为云此次推出的双引擎架…

    2025年11月7日
    40400
  • AI泡沫破裂后的科技人才迁徙:从行业震荡到创新扩散的深度剖析

    近期,《Nature》杂志发表的一篇深度文章引发了科技界的广泛关注,文章聚焦于一个核心问题:若当前的人工智能(AI)泡沫破裂,OpenAI、谷歌等头部AI公司的顶尖科学家将流向何方?这一议题不仅关乎科技人才的职业路径,更触及AI技术发展的底层逻辑与未来走向。本文将从经济规模、行业影响、人才流动趋势及创新扩散效应四个维度,对这一现象进行系统性分析。 首先,从经…

    2025年11月23日
    46700
  • 哈佛Science发文:AI急诊诊断碾压人类医生,准确率67%对50%,治疗方案89%对34%

    哈佛大学一项发表在《Science》上的研究引发热议:在涉及76名真实急诊患者的双盲对比实验中,OpenAI o1模型的诊断准确率达到67%,远超人类医生的50%;治疗方案得分上,o1以89%对34%形成断崖式领先。然而,AI目前仍无法感知患者的面色与痛苦,真正的变革并非“AI获胜”,而是急诊室正迈向“医生×患者×AI”三方共治的新格局。 近日,全球医疗领域…

    2026年5月4日
    21600
  • 宇树科技发布390万载人机甲GD01,现实版高达量产在即

    《铁甲钢拳》和《机动战士高达》中的那些机械巨兽,终于从二次元世界闯入了现实。 就在最近,宇树科技推出了一款极具科幻色彩的载人机器人:GD01 载人变形机甲,起售价高达390万元。 官方将其定义为“民用交通工具”,但说实话,连交警看到它估计都得连夜翻查交通法规。值得一提的是,这也是全球首款实现量产的载人机甲。 在重量方面,官方数据显示,包括驾驶员在内,整机总重…

    1天前
    30100
  • OpenAI发布Prism:GPT-5.2驱动的免费科研写作平台,开启Vibe Coding式论文创作新时代

    OpenAI发布Prism:GPT-5.2驱动的免费科研写作平台,开启Vibe Coding式论文创作新时代 就在今天,OpenAI为科研工作者带来了一份重磅礼物——免费的科研写作平台Prism。该平台将GPT-5.2模型深度集成于在线LaTeX编辑器中,能够直接理解论文的完整结构、公式推导与参考文献,标志着论文创作进入了“Vibe Coding”式的新时代…

    2026年1月28日
    41900