语音合成

  • AI周报:阿里通义语音模型升级、腾讯开源2B小模型、Qwen3-VL多模态检索新突破

    1月5日 【闭源】 阿里通义发布语音合成模型 CosyVoice-v3-flash,新增24个音色以覆盖多元场景需求。新增音色包括:* 方言类:龙嘉怡、龙老铁* 出海营销类* 诗词朗诵类:龙飞* 语音助手类:龙小淳、龙小夏、YUMI* 社交陪伴类:龙橙、龙泽、龙哲、龙颜、龙星、龙天、龙婉、龙嫣、龙菲菲、龙浩* 有声书类:龙三叔、龙媛、龙悦、龙修、龙楠* 新闻…

    2026年1月12日
    4700
  • AI周报:字节豆包Agent突破、通义语音全家桶、谷歌Gemini 3 Flash亮相

    12月15日 【闭源】 字节跳动发布豆包 doubao-seed-1-8-251215,在Agent能力、多模态理解和上下文管理三大方面实现突破。其工具调用、复杂指令遵循和操作系统代理能力大幅增强;视觉理解基础能力显著提升,支持低帧率理解超长视频,在视频运动理解、复杂空间理解和文档结构化解析能力上全面升级;原生支持智能上下文管理,可配置上下文压缩策略,在任务…

    2025年12月22日
    9500
  • 五大前沿AI开源项目盘点:从多智能体协作到方言播客生成

    01 AI 大神的新开源项目:多智能体协作委员会 AI 领域知名开发者 Karpathy 近日开源了一个名为 llm-council 的多智能体协作演示项目。 其核心理念是:单个大语言模型(如 GPT-4)的答案可能存在局限或错误,那么集合多个模型的智慧是否能得出更优解?该项目构建了一个“委员会”机制,允许用户邀请不同的 AI 模型(例如 GPT-4、Cla…

    2025年12月6日
    6800
  • 阿里Qwen3-TTS深度解析:多语言方言语音合成的技术突破与产业影响

    近日,阿里巴巴继开源Z-Image模型后,正式发布了Qwen3-TTS语音合成模型(版本号2025-11-27),标志着其在多模态AI领域的技术布局进一步深化。该模型不仅解决了语音合成领域的多个核心痛点,更在多语言支持、方言适配、音色丰富度等方面实现了显著突破,为全球语音技术应用带来了新的可能性。 从技术架构层面分析,Qwen3-TTS的核心创新体现在三个维…

    2025年12月6日
    9600
  • Cartesia完成1亿美元B轮融资,SSM架构语音模型Sonic-3实现类人情感表达

    在人工智能语音合成领域,一场基于架构创新的技术竞赛正在悄然展开。近日,语音AI公司Cartesia宣布完成1亿美元B轮融资,英伟达作为投资方赫然在列。与此同时,该公司发布了新一代语音模型Sonic-3,凭借状态空间模型(SSM)架构实现了前所未有的类人情感表达能力。这一系列动作不仅标志着语音AI技术路线的多元化发展,更预示着实时交互语音应用即将迎来新的突破。…

    2025年11月3日
    8200