AI周报:字节豆包Agent突破、通义语音全家桶、谷歌Gemini 3 Flash亮相

AI周报:字节豆包Agent突破、通义语音全家桶、谷歌Gemini 3 Flash亮相

12月15日

  • 【闭源】 字节跳动发布豆包 doubao-seed-1-8-251215,在Agent能力、多模态理解和上下文管理三大方面实现突破。其工具调用、复杂指令遵循和操作系统代理能力大幅增强;视觉理解基础能力显著提升,支持低帧率理解超长视频,在视频运动理解、复杂空间理解和文档结构化解析能力上全面升级;原生支持智能上下文管理,可配置上下文压缩策略,在任务轮次过长时自动清除低价值历史信息,确保多步骤任务稳定完成。

  • 【开源】 通义实验室发布Fun-CosyVoice 3.0高级文本转语音系统。该系统基于大语言模型构建,在内容一致性、说话人相似度和韵律自然性方面超越前代。同步开源的 Fun-CosyVoice3-0.5B 模型支持零样本多语种语音合成,覆盖9种常用语言和18种以上中文方言/口音,支持中文拼音和英文音素发音修复,实现双向流处理,延迟低至150毫秒,并支持语言、方言、情感、速度、音量等多种指令控制。

12月16日

  • 【开源】 通义实验室推出Fun-ASR端到端语音识别大模型。该模型在数千万小时真实语音数据上训练,具备强大的上下文理解能力和行业适应性,支持低延迟实时转录,覆盖31种语言。其在教育、金融等垂直领域表现出色,能够准确识别专业术语和行业表达,有效解决“幻觉”生成和语言混淆等问题。同步开源的轻量化版本 Fun-ASR-Nano 模型,总参数量压缩至0.8B,显著降低推理成本。

  • 【闭源】 通义千问发布 qwen3-tts-vd-realtime-2025-12-16 实时语音合成快照版模型。该模型可使用声音设计生成的音色进行低延迟、高稳定性的实时合成,支持多语言输出,能根据文本自动调节语气,并优化复杂文本的合成表现。

  • 【闭源】 通义千问发布 qwen-voice-design 声音设计模型。该模型可通过文本描述生成定制化音色,结合上述实时语音合成模型使用以生成语音,覆盖10种语言,为用户提供个性化语音合成解决方案。

12月17日

  • 【闭源】 谷歌推出Gemini 3 Flash预览版 gemini-3-flash-preview。该模型旨在以远低于大型模型的成本提供可媲美大型模型的快速前沿级性能,大幅升级了视觉和空间推理能力以及代理式编码能力,为开发者提供高性价比的AI解决方案。

  • 【闭源】 OpenAI发布GPT-Image-1.5最新图像生成模型。该模型专为生产级视觉效果和高度可控的创意工作流设计,在真实感、准确性和可编辑性方面实现重大改进,支持灵活的质量-延迟权衡。其核心能力包括:高保真照片级真实感、稳健的面部和身份保持、可靠的文本渲染、复杂结构化视觉效果生成、精准风格控制和风格迁移,以及强大的真实世界知识与推理能力。

  • 【开源】 小米发布 MiMo-V2-Flash 混合专家(MoE)语言模型。该模型总参数309B,激活参数15B,专为高速推理和代理工作流设计。它采用新颖的混合注意力架构和多令牌预测技术,在实现先进性能的同时显著降低推理成本,为大规模模型部署提供高效解决方案。

12月18日

  • 【闭源】 Mistral发布Mistral OCR 3文档解析模型。该模型专为从各类文档中提取文本和嵌入图像而设计,支持Markdown输出和基于HTML的表格重建,使下游系统不仅能理解文档内容,还能理解其结构。作为一个比多数竞品更小的模型,它以行业领先的每1000页2美元定价提供服务,为企业文档处理提供极具性价比的解决方案。

12月20日

  • 【开源】 Qwen团队发布最新研究 Qwen-Image-Layered。该模型能够将图像分解为多个RGBA分层,这种分层表征释放了图像内在的可编辑性:每个图层均可独立操控且不影响其他内容。同时,分层表征天然支持高保真的基础操作,例如调整尺寸、重新定位与色彩重绘。通过将语义或结构组件物理隔离至独立图层,该方法实现了高保真且协调一致的编辑效果,为图像编辑领域带来新的突破。

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14350

(0)
上一篇 2025年12月22日 下午12:13
下一篇 2025年12月22日 下午2:56

相关推荐

  • 揭秘冠军级Claude Code配置神器:从ChatBot到资深工程师的实战进化

    开源项目简介 everything-claude-code 是一个为 Claude Code 设计的完整配置工具箱,其核心价值在于提供了一套经过实战检验的完整开发工作流与配置套件。它并非简单的提示词合集,而是旨在将 Claude Code 从一个对话式助手转变为一名高效的“资深工程师”。 该项目由资深 AI 开发者 Affaan Mustafa 创建,凝聚了…

    2026年1月31日
    67700
  • 移动端高保真实时3D数字人革命:HRM²Avatar如何用单部手机突破SIGGRAPH Asia

    在计算机图形学、三维视觉、虚拟人与XR技术领域,SIGGRAPH Asia作为SIGGRAPH系列两大主会之一,始终代表着全球学术与工业界的最高研究水平与最前沿技术趋势。今年,淘宝技术-Meta技术团队凭借其自主研发的移动端高保真实时3D数字人重建与渲染系统HRM²Avatar,首次登陆这一国际顶级会议,标志着中国在轻量化数字人技术领域实现了重大突破。 当前…

    2025年12月18日
    48200
  • MOSS-TTS Family:模思智能发布全场景语音生成模型家族,实现高保真音色克隆与实时交互

    当一段语音不仅需要“像某个人”、“准确地读出每个字”,还需要在不同内容中自然切换说话方式,在几十分钟的叙述中持续稳定,在对话、角色、实时交互等不同形态下都能直接使用——单一的TTS模型,往往已经不够用了。 模思智能及OpenMOSS团队发布了MOSS-TTS Family,一套面向高保真、高表现力与复杂场景生成的开源语音生成模型家族。 MOSS-TTS Fa…

    2026年2月11日
    59100
  • 2025人工智能年度榜单深度解析:评选标准、产业趋势与未来展望

    随着人工智能技术从实验室走向规模化应用,行业正经历着前所未有的变革。量子位主办的「2025人工智能年度榜单」评选已进入第八个年头,这不仅是一个简单的评选活动,更是中国AI产业发展的重要风向标。本文将从评选维度、产业趋势和技术演进三个层面,深入分析这一年度盛事背后的深层意义。 从评选维度来看,本次榜单设置了企业、产品、人物三大类别,每个类别下又细分为多个奖项,…

    2025年11月16日
    28700
  • Superpowers:为Claude Code注入资深工程师思维,终结AI编程的“瞎写”时代

    你是否曾在用AI写代码时,经历过这样的崩溃时刻? 满怀期待地向AI提出需求,它确实反应迅速,顷刻间生成大段代码。然而,一旦运行,却是满屏报错,业务逻辑也常常残缺不全。更令人无奈的是,它今天写的代码,可能明天自己都无法理解。 究其根源,当前多数AI编程工具的症结在于“过于顺从”。它们缺乏停顿与思考,只是机械地堆砌代码片段。 有趣的是,今天GitHub Tren…

    2026年1月15日
    35200