AI周报:字节豆包Agent突破、通义语音全家桶、谷歌Gemini 3 Flash亮相

AI周报:字节豆包Agent突破、通义语音全家桶、谷歌Gemini 3 Flash亮相

12月15日

  • 【闭源】 字节跳动发布豆包 doubao-seed-1-8-251215,在Agent能力、多模态理解和上下文管理三大方面实现突破。其工具调用、复杂指令遵循和操作系统代理能力大幅增强;视觉理解基础能力显著提升,支持低帧率理解超长视频,在视频运动理解、复杂空间理解和文档结构化解析能力上全面升级;原生支持智能上下文管理,可配置上下文压缩策略,在任务轮次过长时自动清除低价值历史信息,确保多步骤任务稳定完成。

  • 【开源】 通义实验室发布Fun-CosyVoice 3.0高级文本转语音系统。该系统基于大语言模型构建,在内容一致性、说话人相似度和韵律自然性方面超越前代。同步开源的 Fun-CosyVoice3-0.5B 模型支持零样本多语种语音合成,覆盖9种常用语言和18种以上中文方言/口音,支持中文拼音和英文音素发音修复,实现双向流处理,延迟低至150毫秒,并支持语言、方言、情感、速度、音量等多种指令控制。

12月16日

  • 【开源】 通义实验室推出Fun-ASR端到端语音识别大模型。该模型在数千万小时真实语音数据上训练,具备强大的上下文理解能力和行业适应性,支持低延迟实时转录,覆盖31种语言。其在教育、金融等垂直领域表现出色,能够准确识别专业术语和行业表达,有效解决“幻觉”生成和语言混淆等问题。同步开源的轻量化版本 Fun-ASR-Nano 模型,总参数量压缩至0.8B,显著降低推理成本。

  • 【闭源】 通义千问发布 qwen3-tts-vd-realtime-2025-12-16 实时语音合成快照版模型。该模型可使用声音设计生成的音色进行低延迟、高稳定性的实时合成,支持多语言输出,能根据文本自动调节语气,并优化复杂文本的合成表现。

  • 【闭源】 通义千问发布 qwen-voice-design 声音设计模型。该模型可通过文本描述生成定制化音色,结合上述实时语音合成模型使用以生成语音,覆盖10种语言,为用户提供个性化语音合成解决方案。

12月17日

  • 【闭源】 谷歌推出Gemini 3 Flash预览版 gemini-3-flash-preview。该模型旨在以远低于大型模型的成本提供可媲美大型模型的快速前沿级性能,大幅升级了视觉和空间推理能力以及代理式编码能力,为开发者提供高性价比的AI解决方案。

  • 【闭源】 OpenAI发布GPT-Image-1.5最新图像生成模型。该模型专为生产级视觉效果和高度可控的创意工作流设计,在真实感、准确性和可编辑性方面实现重大改进,支持灵活的质量-延迟权衡。其核心能力包括:高保真照片级真实感、稳健的面部和身份保持、可靠的文本渲染、复杂结构化视觉效果生成、精准风格控制和风格迁移,以及强大的真实世界知识与推理能力。

  • 【开源】 小米发布 MiMo-V2-Flash 混合专家(MoE)语言模型。该模型总参数309B,激活参数15B,专为高速推理和代理工作流设计。它采用新颖的混合注意力架构和多令牌预测技术,在实现先进性能的同时显著降低推理成本,为大规模模型部署提供高效解决方案。

12月18日

  • 【闭源】 Mistral发布Mistral OCR 3文档解析模型。该模型专为从各类文档中提取文本和嵌入图像而设计,支持Markdown输出和基于HTML的表格重建,使下游系统不仅能理解文档内容,还能理解其结构。作为一个比多数竞品更小的模型,它以行业领先的每1000页2美元定价提供服务,为企业文档处理提供极具性价比的解决方案。

12月20日

  • 【开源】 Qwen团队发布最新研究 Qwen-Image-Layered。该模型能够将图像分解为多个RGBA分层,这种分层表征释放了图像内在的可编辑性:每个图层均可独立操控且不影响其他内容。同时,分层表征天然支持高保真的基础操作,例如调整尺寸、重新定位与色彩重绘。通过将语义或结构组件物理隔离至独立图层,该方法实现了高保真且协调一致的编辑效果,为图像编辑领域带来新的突破。

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14350

(0)
上一篇 2025年12月22日 下午12:13
下一篇 2025年12月22日 下午2:56

相关推荐

  • MiniMax M2开源大模型深度解析:从注意力机制回归到数据工程创新

    近期,MiniMax发布的M2开源大模型在AI社区引发了广泛讨论。该模型不仅在多项基准测试中表现优异,更在香港大学AI-Trader模拟A股大赛中以20天10万本金盈利近三千元的成绩夺得第一。M2的成功并非偶然,其背后是一系列深思熟虑的技术选择与工程实践。本文将从注意力机制、数据处理流程和模型泛化能力三个维度,深入剖析M2的技术路径与创新突破。 **注意力机…

    2025年11月4日
    28600
  • 蚂蚁灵波开源四款具身智能模型:从物理交互出发,探索世界模型新路径

    大模型的革命行将结束,即将开启的会是物理 AI 时代? 上周,图灵奖得主、深度学习先驱 Yann LeCun 对通用人工智能(AGI)发表了自己的最新观点。他认为语言并不等同于智能,预测文本并不意味着理解现实。真实世界纷繁复杂、充满物理性和因果关系,而如今的大语言模型(LLM)几乎无法触及这些。 LeCun 认为,真正的智能必须能像人类一样,在脑海中进行推演…

    2026年2月5日
    12200
  • 突破数据孤岛:Being-H0.5全栈开源具身模型以3.5万小时训练实现跨机器人零样本技能迁移

    BeingBeyond团队 投稿 量子位 | 公众号 QbitAI 近年来爆火的具身智能领域长期面对着数据孤立导致的训练困境,一线厂商凭借高投入建立独属于自研型号机器的“数据护城河”,而小厂的资产规模直接反映在数据体量上,限制了其产品专用模型的训练。 BeingBeyond团队 近日发布的Being-H0.5有望改变这一局面。 Being-H0.5是目前训练…

    2026年1月23日
    16200
  • ChatGPT Pro广告风波:OpenAI商业化迷途与AI产品伦理边界

    12月1日,ChatGPT Pro用户群体爆发集体不满,标志着OpenAI商业化策略与用户体验之间首次公开化的激烈冲突。这一事件不仅揭示了AI产品在盈利压力下的伦理困境,更折射出整个生成式AI行业从技术探索向商业变现转型的阵痛。 事件的核心矛盾在于:月费200美元的顶级订阅服务ChatGPT Pro,在用户毫无预警的情况下,界面突然弹出“Find a fit…

    2025年12月3日
    19600
  • Axe异构布局编译器:跨GPU/TPU/Trainium的统一编程模型,开启机器学习编译新纪元

    Axe Layout 的提出,是机器学习系统领域向统一抽象迈进的重要一步。这种统一抽象的威力,在于让开发者能够以接近手工调优代码的性能,轻松编写出高效利用最新 GPU 特性、实现通信计算重叠、并能跨 GPU 和 AI 加速器移植的复杂内核。Axe 不仅仅是一个编译器或 DSL,它更是一种思维范式。它试图弥合高层分布式编程与底层硬件微架构之间的语义鸿沟,为下一…

    2026年2月1日
    17900