语音合成
-
MOSS-TTS Family:模思智能发布全场景语音生成模型家族,实现高保真音色克隆与实时交互
当一段语音不仅需要“像某个人”、“准确地读出每个字”,还需要在不同内容中自然切换说话方式,在几十分钟的叙述中持续稳定,在对话、角色、实时交互等不同形态下都能直接使用——单一的TTS模型,往往已经不够用了。 模思智能及OpenMOSS团队发布了MOSS-TTS Family,一套面向高保真、高表现力与复杂场景生成的开源语音生成模型家族。 MOSS-TTS Fa…
-
2026年1月AI大模型前沿速览:通义、腾讯、智谱等巨头密集发布语音、视觉与智能体新突破
1月5日 【闭源】阿里通义发布CosyVoice语音合成模型cosyvoice-v3-flash,新增24个音色以覆盖多元场景需求。新增音色包括:方言类(龙嘉怡、龙老铁)、出海营销类、诗词朗诵类(龙飞)、语音助手类(龙小淳、龙小夏、YUMI)、社交陪伴类(龙橙、龙泽、龙哲、龙颜、龙星、龙天、龙婉、龙嫣、龙菲菲、龙浩)、有声书类(龙三叔、龙媛、龙悦、龙修、龙楠…
-
AI周报:阿里通义语音模型升级、腾讯开源2B小模型、Qwen3-VL多模态检索新突破
1月5日 【闭源】 阿里通义发布语音合成模型 CosyVoice-v3-flash,新增24个音色以覆盖多元场景需求。新增音色包括:* 方言类:龙嘉怡、龙老铁* 出海营销类* 诗词朗诵类:龙飞* 语音助手类:龙小淳、龙小夏、YUMI* 社交陪伴类:龙橙、龙泽、龙哲、龙颜、龙星、龙天、龙婉、龙嫣、龙菲菲、龙浩* 有声书类:龙三叔、龙媛、龙悦、龙修、龙楠* 新闻…
-
AI周报:字节豆包Agent突破、通义语音全家桶、谷歌Gemini 3 Flash亮相
12月15日 【闭源】 字节跳动发布豆包 doubao-seed-1-8-251215,在Agent能力、多模态理解和上下文管理三大方面实现突破。其工具调用、复杂指令遵循和操作系统代理能力大幅增强;视觉理解基础能力显著提升,支持低帧率理解超长视频,在视频运动理解、复杂空间理解和文档结构化解析能力上全面升级;原生支持智能上下文管理,可配置上下文压缩策略,在任务…
-
五大前沿AI开源项目盘点:从多智能体协作到方言播客生成
01 AI 大神的新开源项目:多智能体协作委员会 AI 领域知名开发者 Karpathy 近日开源了一个名为 llm-council 的多智能体协作演示项目。 其核心理念是:单个大语言模型(如 GPT-4)的答案可能存在局限或错误,那么集合多个模型的智慧是否能得出更优解?该项目构建了一个“委员会”机制,允许用户邀请不同的 AI 模型(例如 GPT-4、Cla…
-
阿里Qwen3-TTS深度解析:多语言方言语音合成的技术突破与产业影响
近日,阿里巴巴继开源Z-Image模型后,正式发布了Qwen3-TTS语音合成模型(版本号2025-11-27),标志着其在多模态AI领域的技术布局进一步深化。该模型不仅解决了语音合成领域的多个核心痛点,更在多语言支持、方言适配、音色丰富度等方面实现了显著突破,为全球语音技术应用带来了新的可能性。 从技术架构层面分析,Qwen3-TTS的核心创新体现在三个维…
-
Cartesia完成1亿美元B轮融资,SSM架构语音模型Sonic-3实现类人情感表达
在人工智能语音合成领域,一场基于架构创新的技术竞赛正在悄然展开。近日,语音AI公司Cartesia宣布完成1亿美元B轮融资,英伟达作为投资方赫然在列。与此同时,该公司发布了新一代语音模型Sonic-3,凭借状态空间模型(SSM)架构实现了前所未有的类人情感表达能力。这一系列动作不仅标志着语音AI技术路线的多元化发展,更预示着实时交互语音应用即将迎来新的突破。…
