AI周报:字节豆包Agent突破、通义语音全家桶、谷歌Gemini 3 Flash亮相

AI周报:字节豆包Agent突破、通义语音全家桶、谷歌Gemini 3 Flash亮相

12月15日

  • 【闭源】 字节跳动发布豆包 doubao-seed-1-8-251215,在Agent能力、多模态理解和上下文管理三大方面实现突破。其工具调用、复杂指令遵循和操作系统代理能力大幅增强;视觉理解基础能力显著提升,支持低帧率理解超长视频,在视频运动理解、复杂空间理解和文档结构化解析能力上全面升级;原生支持智能上下文管理,可配置上下文压缩策略,在任务轮次过长时自动清除低价值历史信息,确保多步骤任务稳定完成。

  • 【开源】 通义实验室发布Fun-CosyVoice 3.0高级文本转语音系统。该系统基于大语言模型构建,在内容一致性、说话人相似度和韵律自然性方面超越前代。同步开源的 Fun-CosyVoice3-0.5B 模型支持零样本多语种语音合成,覆盖9种常用语言和18种以上中文方言/口音,支持中文拼音和英文音素发音修复,实现双向流处理,延迟低至150毫秒,并支持语言、方言、情感、速度、音量等多种指令控制。

12月16日

  • 【开源】 通义实验室推出Fun-ASR端到端语音识别大模型。该模型在数千万小时真实语音数据上训练,具备强大的上下文理解能力和行业适应性,支持低延迟实时转录,覆盖31种语言。其在教育、金融等垂直领域表现出色,能够准确识别专业术语和行业表达,有效解决“幻觉”生成和语言混淆等问题。同步开源的轻量化版本 Fun-ASR-Nano 模型,总参数量压缩至0.8B,显著降低推理成本。

  • 【闭源】 通义千问发布 qwen3-tts-vd-realtime-2025-12-16 实时语音合成快照版模型。该模型可使用声音设计生成的音色进行低延迟、高稳定性的实时合成,支持多语言输出,能根据文本自动调节语气,并优化复杂文本的合成表现。

  • 【闭源】 通义千问发布 qwen-voice-design 声音设计模型。该模型可通过文本描述生成定制化音色,结合上述实时语音合成模型使用以生成语音,覆盖10种语言,为用户提供个性化语音合成解决方案。

12月17日

  • 【闭源】 谷歌推出Gemini 3 Flash预览版 gemini-3-flash-preview。该模型旨在以远低于大型模型的成本提供可媲美大型模型的快速前沿级性能,大幅升级了视觉和空间推理能力以及代理式编码能力,为开发者提供高性价比的AI解决方案。

  • 【闭源】 OpenAI发布GPT-Image-1.5最新图像生成模型。该模型专为生产级视觉效果和高度可控的创意工作流设计,在真实感、准确性和可编辑性方面实现重大改进,支持灵活的质量-延迟权衡。其核心能力包括:高保真照片级真实感、稳健的面部和身份保持、可靠的文本渲染、复杂结构化视觉效果生成、精准风格控制和风格迁移,以及强大的真实世界知识与推理能力。

  • 【开源】 小米发布 MiMo-V2-Flash 混合专家(MoE)语言模型。该模型总参数309B,激活参数15B,专为高速推理和代理工作流设计。它采用新颖的混合注意力架构和多令牌预测技术,在实现先进性能的同时显著降低推理成本,为大规模模型部署提供高效解决方案。

12月18日

  • 【闭源】 Mistral发布Mistral OCR 3文档解析模型。该模型专为从各类文档中提取文本和嵌入图像而设计,支持Markdown输出和基于HTML的表格重建,使下游系统不仅能理解文档内容,还能理解其结构。作为一个比多数竞品更小的模型,它以行业领先的每1000页2美元定价提供服务,为企业文档处理提供极具性价比的解决方案。

12月20日

  • 【开源】 Qwen团队发布最新研究 Qwen-Image-Layered。该模型能够将图像分解为多个RGBA分层,这种分层表征释放了图像内在的可编辑性:每个图层均可独立操控且不影响其他内容。同时,分层表征天然支持高保真的基础操作,例如调整尺寸、重新定位与色彩重绘。通过将语义或结构组件物理隔离至独立图层,该方法实现了高保真且协调一致的编辑效果,为图像编辑领域带来新的突破。

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14350

(0)
上一篇 2025年12月22日 下午12:13
下一篇 2025年12月22日 下午2:56

相关推荐

  • 太空算力革命:人类首次在轨训练AI大模型,开启星际智能新纪元

    近日,人类科技史迎来里程碑式突破——首次在太空轨道上成功训练并运行人工智能大模型。这一壮举由英伟达、SpaceX、谷歌等科技巨头与前OpenAI联合创始人安德烈·卡帕西(Andrej Karpathy)的NanoGPT项目共同实现,标志着AI技术正式迈入“太空时代”。 这场太空AI实验的核心载体是Starcloud公司通过SpaceX火箭发射的Starclo…

    2025年12月11日
    17700
  • 全球首份大模型公司年报出炉:MiniMax营收暴涨158.9%,亏损率大幅收窄

    全球首份大模型公司年报出炉:MiniMax营收暴涨158.9%,亏损率大幅收窄 全球大模型行业迎来了首个真正可量化的财务样本。 在港交所上市仅52天后,MiniMax发布了IPO后的首份年度业绩报告。数据显示,截至2026年2月,其年度经常性收入(ARR)已突破1.5亿美元。2025年全年,公司总营收同比增长158.9%,毛利同比飙升437%,净亏损率则显著…

    2天前
    6400
  • AI时代的认知危机:当思考外包成为常态,我们的大脑正在悄然退化

    在人工智能技术飞速发展的今天,一个不容忽视的现象正在悄然发生:越来越多的人开始将思考过程外包给AI系统。这种被称为“认知卸载”的行为,表面上提升了效率,实则可能对人类认知能力造成深远影响。本文将从认知科学、社会伦理和技术发展三个维度,深入剖析AI如何重塑人类思维模式,并探讨其潜在的长期后果。 认知卸载的概念最早源于认知心理学,指的是将认知任务转移到外部工具或…

    2025年11月1日
    16100
  • UniLIP:突破多模态模型语义理解与像素重建的权衡,实现统一表征新范式

    在人工智能多模态领域,一个长期存在的核心挑战是如何构建既能深度理解语义又能精确重建像素的统一表征模型。传统方法往往在这两个目标间面临艰难权衡:专注于语义理解的模型(如基于CLIP的编码器)在图像重建任务中表现欠佳,而专注于像素重建的模型(如VAE)则语义理解能力有限。本文深入分析北京大学与阿里通义万相实验室联合提出的UniLIP模型,探讨其如何通过创新的两阶…

    2025年11月2日
    15300
  • NVIDIA DreamZero登顶机器人基准测试:世界-动作模型如何实现性能突破?

    近日,NVIDIA 发布的世界-动作模型 DreamZero 在两项机器人基准测试 RoboArena 与 MolmoSpaces 中均取得了领先成绩。 DreamZero 的核心设计思想是:在单一模型内,同步预测未来视频帧与机器人动作。这意味着,机器人在执行动作前,能够在模型内部进行“想象”,预演其行为可能引发的世界状态变化。 然而,这一设计也引出了更深层…

    1天前
    4700