语音合成 - 鲸林向海

MOSS-TTS Family：模思智能发布全场景语音生成模型家族，实现高保真音色克隆与实时交互

当一段语音不仅需要“像某个人”、“准确地读出每个字”，还需要在不同内容中自然切换说话方式，在几十分钟的叙述中持续稳定，在对话、角色、实时交互等不同形态下都能直接使用——单一的TTS模型，往往已经不够用了。模思智能及OpenMOSS团队发布了MOSS-TTS Family，一套面向高保真、高表现力与复杂场景生成的开源语音生成模型家族。 MOSS-TTS Fa…

2026年2月11日

159000

2026年1月AI大模型前沿速览：通义、腾讯、智谱等巨头密集发布语音、视觉与智能体新突破

1月5日【闭源】阿里通义发布CosyVoice语音合成模型cosyvoice-v3-flash，新增24个音色以覆盖多元场景需求。新增音色包括：方言类（龙嘉怡、龙老铁）、出海营销类、诗词朗诵类（龙飞）、语音助手类（龙小淳、龙小夏、YUMI）、社交陪伴类（龙橙、龙泽、龙哲、龙颜、龙星、龙天、龙婉、龙嫣、龙菲菲、龙浩）、有声书类（龙三叔、龙媛、龙悦、龙修、龙楠…

AI产业动态 2026年2月2日

545000

AI产业动态

AI周报：阿里通义语音模型升级、腾讯开源2B小模型、Qwen3-VL多模态检索新突破

1月5日【闭源】阿里通义发布语音合成模型 CosyVoice-v3-flash，新增24个音色以覆盖多元场景需求。新增音色包括：* 方言类：龙嘉怡、龙老铁* 出海营销类* 诗词朗诵类：龙飞* 语音助手类：龙小淳、龙小夏、YUMI* 社交陪伴类：龙橙、龙泽、龙哲、龙颜、龙星、龙天、龙婉、龙嫣、龙菲菲、龙浩* 有声书类：龙三叔、龙媛、龙悦、龙修、龙楠* 新闻…

2026年1月12日

219000

AI产业动态

AI周报：字节豆包Agent突破、通义语音全家桶、谷歌Gemini 3 Flash亮相

12月15日【闭源】字节跳动发布豆包 doubao-seed-1-8-251215，在Agent能力、多模态理解和上下文管理三大方面实现突破。其工具调用、复杂指令遵循和操作系统代理能力大幅增强；视觉理解基础能力显著提升，支持低帧率理解超长视频，在视频运动理解、复杂空间理解和文档结构化解析能力上全面升级；原生支持智能上下文管理，可配置上下文压缩策略，在任务…

2025年12月22日

202000

开源项目

五大前沿AI开源项目盘点：从多智能体协作到方言播客生成

01 AI 大神的新开源项目：多智能体协作委员会 AI 领域知名开发者 Karpathy 近日开源了一个名为 llm-council 的多智能体协作演示项目。其核心理念是：单个大语言模型（如 GPT-4）的答案可能存在局限或错误，那么集合多个模型的智慧是否能得出更优解？该项目构建了一个“委员会”机制，允许用户邀请不同的 AI 模型（例如 GPT-4、Cla…

2025年12月6日

192000

AI产业动态

阿里Qwen3-TTS深度解析：多语言方言语音合成的技术突破与产业影响

近日，阿里巴巴继开源Z-Image模型后，正式发布了Qwen3-TTS语音合成模型（版本号2025-11-27），标志着其在多模态AI领域的技术布局进一步深化。该模型不仅解决了语音合成领域的多个核心痛点，更在多语言支持、方言适配、音色丰富度等方面实现了显著突破，为全球语音技术应用带来了新的可能性。从技术架构层面分析，Qwen3-TTS的核心创新体现在三个维…

2025年12月6日

194000

AI产业动态

Cartesia完成1亿美元B轮融资，SSM架构语音模型Sonic-3实现类人情感表达

在人工智能语音合成领域，一场基于架构创新的技术竞赛正在悄然展开。近日，语音AI公司Cartesia宣布完成1亿美元B轮融资，英伟达作为投资方赫然在列。与此同时，该公司发布了新一代语音模型Sonic-3，凭借状态空间模型（SSM）架构实现了前所未有的类人情感表达能力。这一系列动作不仅标志着语音AI技术路线的多元化发展，更预示着实时交互语音应用即将迎来新的突破。…

2025年11月3日

208000