AI周报:字节豆包Agent突破、通义语音全家桶、谷歌Gemini 3 Flash亮相

AI周报:字节豆包Agent突破、通义语音全家桶、谷歌Gemini 3 Flash亮相

12月15日

  • 【闭源】 字节跳动发布豆包 doubao-seed-1-8-251215,在Agent能力、多模态理解和上下文管理三大方面实现突破。其工具调用、复杂指令遵循和操作系统代理能力大幅增强;视觉理解基础能力显著提升,支持低帧率理解超长视频,在视频运动理解、复杂空间理解和文档结构化解析能力上全面升级;原生支持智能上下文管理,可配置上下文压缩策略,在任务轮次过长时自动清除低价值历史信息,确保多步骤任务稳定完成。

  • 【开源】 通义实验室发布Fun-CosyVoice 3.0高级文本转语音系统。该系统基于大语言模型构建,在内容一致性、说话人相似度和韵律自然性方面超越前代。同步开源的 Fun-CosyVoice3-0.5B 模型支持零样本多语种语音合成,覆盖9种常用语言和18种以上中文方言/口音,支持中文拼音和英文音素发音修复,实现双向流处理,延迟低至150毫秒,并支持语言、方言、情感、速度、音量等多种指令控制。

12月16日

  • 【开源】 通义实验室推出Fun-ASR端到端语音识别大模型。该模型在数千万小时真实语音数据上训练,具备强大的上下文理解能力和行业适应性,支持低延迟实时转录,覆盖31种语言。其在教育、金融等垂直领域表现出色,能够准确识别专业术语和行业表达,有效解决“幻觉”生成和语言混淆等问题。同步开源的轻量化版本 Fun-ASR-Nano 模型,总参数量压缩至0.8B,显著降低推理成本。

  • 【闭源】 通义千问发布 qwen3-tts-vd-realtime-2025-12-16 实时语音合成快照版模型。该模型可使用声音设计生成的音色进行低延迟、高稳定性的实时合成,支持多语言输出,能根据文本自动调节语气,并优化复杂文本的合成表现。

  • 【闭源】 通义千问发布 qwen-voice-design 声音设计模型。该模型可通过文本描述生成定制化音色,结合上述实时语音合成模型使用以生成语音,覆盖10种语言,为用户提供个性化语音合成解决方案。

12月17日

  • 【闭源】 谷歌推出Gemini 3 Flash预览版 gemini-3-flash-preview。该模型旨在以远低于大型模型的成本提供可媲美大型模型的快速前沿级性能,大幅升级了视觉和空间推理能力以及代理式编码能力,为开发者提供高性价比的AI解决方案。

  • 【闭源】 OpenAI发布GPT-Image-1.5最新图像生成模型。该模型专为生产级视觉效果和高度可控的创意工作流设计,在真实感、准确性和可编辑性方面实现重大改进,支持灵活的质量-延迟权衡。其核心能力包括:高保真照片级真实感、稳健的面部和身份保持、可靠的文本渲染、复杂结构化视觉效果生成、精准风格控制和风格迁移,以及强大的真实世界知识与推理能力。

  • 【开源】 小米发布 MiMo-V2-Flash 混合专家(MoE)语言模型。该模型总参数309B,激活参数15B,专为高速推理和代理工作流设计。它采用新颖的混合注意力架构和多令牌预测技术,在实现先进性能的同时显著降低推理成本,为大规模模型部署提供高效解决方案。

12月18日

  • 【闭源】 Mistral发布Mistral OCR 3文档解析模型。该模型专为从各类文档中提取文本和嵌入图像而设计,支持Markdown输出和基于HTML的表格重建,使下游系统不仅能理解文档内容,还能理解其结构。作为一个比多数竞品更小的模型,它以行业领先的每1000页2美元定价提供服务,为企业文档处理提供极具性价比的解决方案。

12月20日

  • 【开源】 Qwen团队发布最新研究 Qwen-Image-Layered。该模型能够将图像分解为多个RGBA分层,这种分层表征释放了图像内在的可编辑性:每个图层均可独立操控且不影响其他内容。同时,分层表征天然支持高保真的基础操作,例如调整尺寸、重新定位与色彩重绘。通过将语义或结构组件物理隔离至独立图层,该方法实现了高保真且协调一致的编辑效果,为图像编辑领域带来新的突破。

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14350

(0)
上一篇 2025年12月22日 下午12:13
下一篇 2025年12月22日 下午2:56

相关推荐

  • VinciCoder:视觉强化学习突破多模态代码生成瓶颈,开启统一框架新纪元

    长期以来,多模态代码生成领域的发展始终受限于传统监督微调(SFT)范式的固有缺陷。尽管SFT在Chart-to-code等特定任务上取得了显著成果,但其“狭隘的训练范围”从根本上制约了模型的泛化能力,阻碍了通用视觉代码智能的演进。更为关键的是,纯SFT范式在确保代码可执行性和高视觉保真度方面存在结构性瓶颈——模型在训练过程中完全无法感知代码的渲染效果,导致“…

    2025年11月17日
    7500
  • 谷歌AI逆袭:从官僚困局到Gemini崛起,创始人回归如何重塑竞争格局

    2022年底ChatGPT的横空出世,无疑在科技行业投下了一颗震撼弹。这场由OpenAI引领的对话式AI革命,不仅重新定义了人机交互的边界,更对长期深耕AI领域的巨头谷歌构成了前所未有的挑战。彼时的谷歌,尽管拥有十余年的技术积累与DeepMind等顶尖团队,却在产品化响应上显得迟缓,甚至被外界贴上了“反应慢”“优势不再”的标签。匆忙推出的Bard未能扭转局势…

    2025年11月25日
    8200
  • 图智能体革命:用图结构突破LLM Agent的四大瓶颈

    在人工智能领域,大型语言模型智能体(LLM Agent)正以前所未有的速度重塑技术格局。从自动化网页浏览、智能软件开发到复杂的具身控制系统,这些智能体展现出的自主能力令人瞩目。然而,在表面的繁荣之下,整个领域正面临深刻的系统性挑战。当前多数智能体系统在可靠规划、长期记忆维护、海量工具管理和多智能体协调等关键能力上仍显稚嫩,呈现出明显的“碎片化”发展态势和明显…

    2025年11月9日
    8000
  • 强化学习重塑记忆系统:Mem-α如何让大模型学会“主动记忆”

    在人工智能领域,大语言模型的快速发展正将“记忆”问题推向技术前沿。当前,即使是最先进的GPT-4.1等模型,在处理持续增长的交互时,仍面临成本与延迟的指数级上升挑战。传统的外部记忆系统大多依赖人工规则与预设指令,导致模型缺乏对“何时记忆、记忆什么、如何更新”等核心问题的真正理解。Mem-α的出现,标志着记忆管理从规则驱动向学习驱动的范式转变——这项由加州大学…

    2025年11月7日
    7900
  • 美国启动“创世纪计划”:AI与国家级科研体系的深度融合与战略意义

    近日,美国能源部联合OpenAI、谷歌、微软、英伟达等24家顶尖科技企业,正式启动了名为“创世纪计划”的国家级人工智能战略合作项目。这一计划被外界广泛称为“AI曼哈顿计划”,标志着美国政府与科技巨头在人工智能领域的合作进入全新阶段,旨在将最前沿的AI技术系统性地应用于国家实验室的科研体系,加速可控核聚变、量子计算、材料科学、气候模拟等关键领域的科学突破。 从…

    2025年12月19日
    22000