AI周报:智谱GLM-4.6V革新视觉Agent,谷歌Gemini 2.5与OpenAI GPT-5.2齐发,多模态与智能体技术迎来爆发期

AI周报:智谱GLM-4.6V革新视觉Agent,谷歌Gemini 2.5与OpenAI GPT-5.2齐发,多模态与智能体技术迎来爆发期

12月8日

【开源】 智谱AI发布GLM-4.6V系列多模态大模型,包含GLM-4.6V(106B)云端版和GLM-4.6V-Flash(9B)轻量版。该系列模型支持128k超长上下文,在同参数规模下实现了视觉理解SOTA性能。其最大亮点在于首次将Function Call能力原生融入视觉模型架构,打通了从“视觉感知”到“可执行行动”的完整链路,为多模态Agent应用提供了统一的技术底座。

12月9日

【开源】 Mistral发布Devstral 2和Devstral Small 2,这是专为软件工程任务设计的智能体模型。该模型在SWE-bench基准测试中表现卓越,擅长使用工具探索代码库、编辑多文件并驱动软件工程智能体。它支持256k超长上下文窗口,并采用FP8精度指令微调,在智能体编码、性能提升和泛化能力方面全面超越前代产品。

【开源】 智谱AI发布Open-AutoGLM手机智能助手框架,该框架由Phone Agent框架和AutoGLM-Phone-9B模型组成。系统通过ADB控制设备,以视觉语言模型感知屏幕,结合智能规划自动执行操作流程。用户仅需用自然语言描述需求,系统即可自动解析意图、理解界面、规划动作并完成任务。该框架提供中英文双版本模型,其中AutoGLM-Phone-9B针对中文应用进行了优化,Multilingual版则支持多语言场景。

12月10日

【闭源】 谷歌推出Gemini 2.5文字转语音增强模型,包括Gemini 2.5 Flash TTS预览版(低延迟优化)和Gemini 2.5 Pro TTS预览版(质量优化)。新版本在表现力、语速精准度和对话流畅度方面实现了显著提升,旨在为实时语音交互应用提供更自然的体验。

12月11日

【闭源】 OpenAI发布GPT-5.2系列三款升级模型,包含GPT-5.2 Instant、GPT-5.2 Thinking和GPT-5.2 Pro。全系列知识截止日期更新至2025年8月。Instant版在信息检索、技术写作和翻译方面有显著提升,并保留了温暖的对话风格;Thinking版在电子表格建模、代码编程、长文档总结等复杂任务中表现更优;Pro版则在编程等复杂领域减少了重大错误,旨在提供最可靠的答案。

【闭源】 谷歌发布Interactions API Beta版,该API提供了与Gemini模型和智能体交互的统一界面,旨在简化开发者的集成流程,支持更灵活的应用构建。

【闭源】 谷歌推出Gemini Deep Research智能体预览版,该智能体能够自主规划、执行和整合多步研究任务的结果,为需要深度信息收集和分析的场景提供强大支持。

12月12日

【闭源】 谷歌为Live API推出新的原生音频模型gemini-2.5-flash-native-audio-preview-12-2025,该模型显著提升了处理复杂音频工作流程的能力,为实时语音交互应用带来了更强的性能。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14512

(0)
上一篇 2025年12月15日 上午8:39
下一篇 2025年12月15日 下午12:40

相关推荐

  • 视频仿真革命:Google DeepMind用Veo模型重塑机器人策略评估范式

    在通用型机器人技术快速发展的当下,如何高效、安全地评估机器人策略已成为制约行业进步的关键瓶颈。传统基于真实硬件的评估方法不仅成本高昂、耗时漫长,更在安全性测试方面存在难以逾越的障碍。Google DeepMind Gemini Robotics团队最新提出的基于Veo视频模型的机器人策略评估系统,为这一难题提供了突破性的解决方案。 传统评估体系面临的根本性挑…

    2025年12月15日
    18900
  • 思维链太长拖慢推理?把它「画」进隐空间!新框架RoT探索大模型隐空间推理新范式

    在 LLM 时代,思维链(CoT)已成为解锁模型复杂推理能力的关键技术。然而,CoT 的冗长问题一直困扰着研究者——生成大量的中间推理文本步骤,带来了巨大的计算开销和显存占用,严重制约了推理效率。 为了解决这个问题,研究界近期尝试了「隐式 CoT」(Implicit CoT),即让模型在内部隐状态中完成推理,而不输出具体文本。这种方法虽然速度快,却是一个「黑…

    2026年1月23日
    14500
  • Cursor崛起之路:揭秘AI编程独角兽的非典型组织哲学与产品战略

    在AI编程工具竞争白热化的当下,Cursor以独特的姿态脱颖而出,其背后不仅是技术创新的胜利,更是一场关于组织文化、人才战略与产品哲学的深刻实验。这家成立不到两年即估值超百亿美元的公司,正通过一系列反常规的实践,重新定义着软件开发的生产力范式。 Cursor的人才招募机制彻底颠覆了传统硅谷公司的招聘逻辑。公司没有固定的职位描述(JD),而是将每位员工转化为“…

    2025年11月11日
    15100
  • DemoHLM:单次演示生成海量数据,破解人形机器人移动操作三大难题

    近日,北京大学与BeingBeyond的研究团队联合提出了DemoHLM框架,为人形机器人移动操作领域带来了突破性进展。该框架仅需在仿真环境中采集一次人类演示,即可自动生成海量训练数据,实现真实人形机器人在多任务场景下的泛化操作,有效解决了传统方法依赖硬编码、真实数据成本高昂、跨场景泛化能力差的核心痛点。 移动操作作为人形机器人融入人类环境的核心能力,长期面…

    2025年11月13日
    13800
  • 马斯克xAI创始团队半数出走:AI人才流失危机下的IPO挑战与Grok发展隐忧

    马斯克于2023年与另外11位联合创始人共同创办的xAI,如今已有6人离开。 最新消息,xAI联合创始人Jimmy Ba于周二宣布,他已经离开了这家AI初创公司。 Jimmy在社交媒体上写道:“这是我在xAI的最后一天。xAI的使命是推动人类提升卡尔达舍夫等级。我非常荣幸能在公司创立之初共同参与这一历程。由衷感谢@elonmusk将我们聚集在一起,开启了这段…

    2026年2月11日
    4500