
当一段语音不仅需要“像某个人”、“准确地读出每个字”,还需要在不同内容中自然切换说话方式,在几十分钟的叙述中持续稳定,在对话、角色、实时交互等不同形态下都能直接使用——单一的TTS模型,往往已经不够用了。
模思智能及OpenMOSS团队发布了MOSS-TTS Family,一套面向高保真、高表现力与复杂场景生成的开源语音生成模型家族。
MOSS-TTS Family能够完成以下任务:
- 零样本音色克隆与时长控制:克隆说话人的音色与表达风格,并精准控制语音时长,适用于纪录片、影视配音或新闻播报。
- 生成真实节奏的对话:生成具备真实节奏的双人或多人对话,用于播客、综艺或解说。
- 指令化角色声音设计:通过指令设计带有特定情绪与表演状态的角色声音。
- 环境音与音效补全:为内容补全环境音与音效。
- 实时流式语音输出:在实时Voice Agent系统中,以流式方式持续输出自然语音。
MOSS-TTS Family并非单一能力的堆叠,而是一整套可以直接接入创作流程、产品系统与交互场景的声音生产工具链。
语音生成模型家族:全维度能力覆盖
MOSS-TTS Family并非追求“一个更大的TTS模型”,而是将声音生产拆解为多个真实存在的创作与应用环节,并为每一个环节提供专门的模型支持。这些模型既可以独立使用,也可以组合成完整的工作流。
整个模型家族包含五个核心成员:
- MOSS-TTS:高保真、高表现力的语音生成基座,支持多语言、长音频、精确时长控制。
- MOSS-TTSD:全面更新至1.0版本,面向真实对话场景的多说话人语音合成,支持播客等复杂对话场景。
- MOSS-VoiceGenerator:复杂文本指令跟随,用于音色与角色设计。
- MOSS-SoundEffect:环境音与音效生成模型。
- MOSS-TTS-Realtime:面向实时交互的实时流式TTS模型。
它们共同构成了一个覆盖“稳定生成、灵活设计、复杂对话、情境补全、实时交互”的声音创作生态闭环。
MOSS-TTS:高表现力语音生成基座
MOSS-TTS是整个MOSS-TTS Family的基础模型,其核心目标是在真实内容与复杂场景中,稳定地复现说话者的声音特征、表达方式与语言习惯,并稳定地生成长语音片段。
零样本音色复刻:从“像声音”到“像这个人说话”
MOSS-TTS的音色克隆能力围绕语速、韵律、停顿方式、情绪走向与整体说话风格等“非显性特征”展开。在业界权威测试集Seed-TTS-eval上,其语音音色相似度超越了当前所有的开源模型和大多数闭源模型。
中文场景展示
* 央视纪录片解说高原雪豹
* 百家讲坛王立群老师论时间观念
英文场景展示
* 钢铁侠Tony Stark大型怼人现场
* Taylor Swift深情向粉丝吐露心声
在这些示例中,同一参考音色在不同内容语境下,说话节奏、重音位置与情绪密度都会自然变化。
超长语音生成:不再为分段拼接而苦恼
MOSS-TTS支持单次上下文内完成超长语音生成,无需对文本进行人为切分,也无需通过多轮调用来拼接音频结果。例如,在一次生成流程中可直接得到43分钟的超长音频,避免了因分段处理带来的接口复杂度与工程负担。
语音时长控制:在不牺牲自然度的前提下控制语速
MOSS-TTS支持在Token级别对生成时长进行控制,从而适应更多对语音时长有明确约束的创作场景。
多语言语音生成:跨语言的一致性表达
MOSS-TTS支持多种主流语言的语音生成,并致力于在不同语言中保持一致的发音质量与表达自然度。支持语言包括但不限于:中文、英语、法语、德语、西班牙语、日语、俄语、韩语、意大利语,并支持任意语言切换。
拼音与音素级细粒度发音控制:从准确发音到可控表达
MOSS-TTS提供拼音与音素级别的细粒度发音控制能力,使用户能够直接参与到发音层面的设计与调整中。通过这一能力,可以实现以下用法:
- 使用纯拼音输入驱动语音生成,而不依赖原始汉字文本。
- 示例输入:
ni2 hao3,wo3 shi4 lai2 zi4 mo2 si1 zhi4 neng2 de4 mo2 xing2
- 示例输入:
- 主动修改拼音内容或声调,用于纠正特定读音。
- 示例:“一骑红尘妃子笑,无人知是荔枝来”
- 输入:
一 ji4 红尘妃子笑,无人知是荔枝来 - 输入:
一 qi2 红尘妃子笑,无人知是荔枝来
- 输入:
- 示例:“一骑红尘妃子笑,无人知是荔枝来”
- 通过对拼音与音调的组合调整,探索更具个性化的发音方式。
- 示例输入:
nin2 hao3,qing4 wen3 nin2 lai2 zi4 na4 zuo3 cheng4 shi3?
- 示例输入:
MOSS-TTSD-V1.0:面向真实内容的多说话人对话生成
如果说单人TTS解决的是“讲述”,那么MOSS-TTSD解决的是“交流”。相比于0.7版本,1.0版本的核心能力如下:
- 自然对话节奏:以双说话人为核心,支持1–5人任意指定人数的语音生成。
- 支持更多对话场景:播客、说书、体育解说、电竞解说、影视、综艺、动漫、相声等。
- 支持最长60分钟的长对话生成。
- 多语言覆盖:支持中文、英语、日语、韩语、西班牙语、葡萄牙语、法语、德语、意大利语、俄语、阿拉伯语等多种语言。
示例场景
* 管泽元王多多解说IG大战T1
* 詹俊张路解说魔都高校德比
* 贾玲、刘德华和周杰伦闲聊
MOSS-TTSD-V1.0在客观指标与主观评测中均领先于当前主流的闭源及开源模型。
MOSS-VoiceGenerator:用指令“设计”声音与角色
在很多创作流程中,创作者并不只是需要“某个人的声音”,而是需要一个具备性格、情绪与表演状态的角色声音。
MOSS-VoiceGenerator 恰恰提供了这样的能力:
- 强烈且自然的情绪表达与转变
- 接近真实表演状态的音色与气息变化
- 清晰的角色感
MOSS-VoiceGenerator 可以作为:
* 角色原型的生成工具
* IP 声音设计的起点
* 与 TTS / TTSD 组合使用的“声音设计层”
示例:
* 年轻男性,阴阳怪气,拖长音,极尽嘲讽
* 撕心裂肺,声泪俱下的中年女性
MOSS-SoundEffect:从文字描述直接生成环境音与音效
完整的声音体验不仅来自“说话的人”,也来自空间、动作与环境。MOSS-SoundEffect 能够根据文字描述,在合适的情境下补充身临其境的音效,支持生成的音效类型包括:
- 自然环境音:例如,“踩在新雪上的嘎吱声”。
- 城市环境音:例如,“一辆跑车在高速公路上呼啸而过”。
- 动物音:例如,“清晨的公园里,鸟儿在静谧的氛围中鸣叫”。
- 人类活动音:例如,“清晰的脚步声在水泥地上回荡,节奏稳定”。
MOSS-TTS-Realtime:面向实时系统的流式语音生成
在语音助手、实时对话与交互式系统中,延迟与稳定性往往比“极致音质”更重要。
特点:
* 流式文本输入,流式语音输出
* 适合作为 LLM 的语音外挂能力
MOSS-TTS-Streaming 是整个模型家族中,最偏向“系统能力”的一环。
Case-by-case 对比:与其他闭源与开源模型的效果对比
在展示 MOSS-TTS Family 自身能力的同时,我们也将模型放入更广泛的行业背景中进行验证。为此,我们选取了多种具有代表性的闭源与开源语音生成模型,在尽量统一的输入条件下,对模型输出效果进行了 case-by-case 的对比测试,以更客观地观察不同系统在实际任务中的表现差异。
对比维度包括但不限于:
* 音色相似度与一致性
* 表达自然度与表现力
* 场景适配能力
所有对比示例均基于相同或等价的文本与参考条件生成,旨在呈现不同模型在具体使用场景中的实际输出效果,而非单一指标或主观印象。
技术方法
MOSS-TTS Family 的能力,建立在系统性的技术选择与工程实践之上。该模型的核心在于回归语音生成任务中三个最为重要的因素:高质量的 Audio Tokenizer、大规模、高质量且多样化的预训练数据,以及高效的离散 Token 建模方法。这些要素的结合,使我们能够以出人意料的简洁方法实现最先进的性能:一个简单的自回归范式——架构尽可能精简,结果却足够强大。
高性能音频 Tokenizer,夯实高保真生成的底座
-
MOSS Audio Tokenizer 是一个基于 Cat (Causal Audio Tokenizer with Transformer) 架构的 1.6B 参数量的音频 tokenizer。该模型旨在为自回归音频大模型提供统一的离散化音频接口,兼具无损重构能力与卓越的音频-文本语义对齐性能。
-
技术特性:
- 高压缩比与变比特率:支持将 24kHz 音频压缩至 12.5 fps。基于 32 层 RVQ 机制,模型可在 0.125-4kbps 范围内实现灵活的码率调节,满足不同场景下的高保真重建需求。
- 纯 Transformer 同构架构:采用无 CNN 的全因果 Transformer 设计。其 16 亿参数规模确保了强大的模型容量与可扩展性,并且可以支持帧级别的流式编码与解码。
- 通用音频表征能力:历经 300 万小时超大规模音频数据的预训练,覆盖语音、音效、音乐等全领域,具备极强的泛化能力。
- 语义-声学统一表征:MOSS Audio Tokenizer 编码得到的离散 Token 在保持 SOTA 级高保真还原音质的前提下,还蕴含了丰富的语义信息,能天然适配自回归生成模型的建模需求。
- 零预训练依赖:避开了对现有音频预训练模型(如 Whisper、HuBERT)的依赖或蒸馏,完全通过原始数据自主学习音频特征。
- 端到端联合训练:实现所有模块(编码器、量化器、解码器,判别器及用于语义对齐的 LLM)的全闭环联合优化,确保系统整体性能的协同提升。
-
总结:
MOSS Audio Tokenizer 凭借其极简且易扩展的架构设计与超大规模数据的深度融合,彻底打破了传统音频 tokenizer 的性能瓶颈。它为下一代原生音频基座模型(Native Audio Foundation Models)提供了一个稳定、高保真且深度对齐语义的标准接口。

下图是 MOSS Audio Tokenizer 和其他开源 Audio Tokenizer 在 LibriSpeech test clean 数据集上的重建客观指标对比,可以发现在相近 bps 下, MOSS Audio Tokenizer 在 0-4kbps 下的重建质量领先于其他的开源 audio tokenizer。

大规模高质量多样化预训练数据,驱动泛化与可控性跃迁
- MOSS Data Engine 是支撑 MOSS-TTS Family 的数据生产系统:它不只是“收集与清洗”,而是将真实世界的海量原始音频转化为可复用的训练资产——既能承载长时叙事的稳定性,也能覆盖对话交互、角色塑造与音效补全等多种生成形态。
- 在规模维度上,Data Engine 的语音主干语料包括数百万小时的 TTS 数据与数百万小时的 TTSD 数据;同时,系统还持续构建面向音色/角色设计与环境音/音效生成的专用数据资产,与主干语料在同一标准体系下协同演进。
- 在方法维度上,我们以“多阶段治理 + 交叉一致性验证 + 面向模型家族的多轨数据资产”组织整个流程:从音频质量与一致性、到内容对齐与可训练性,再到按任务形态拆分与组合,最终形成可直接喂给 MOSS-TTS / TTSD / VoiceGenerator / SoundEffect / Realtime 的多轨数据供给,让家族模型既共享同一底座,又各自获得对任务最关键的训练信号。

双架构并行开源,覆盖性能—时延全谱系
为兼顾真实业务落地与学术研究可复现性,MOSS-TTS 选择同时训练并开源两套互补架构。我们并非在单一路线上“押注”,而是以工程可用性为底线、以架构探索为上限,系统性地覆盖语音生成在长文本稳定性、推理效率、流式时延、客观指标等维度上的关键取舍,给社区与产业提供两条同等强势的技术路径与研究基线。

图例:左:Delay-Pattern(MossTTSDelay) 采用单一 Backbone +(n_vq+1)Heads,通过多码本 RVQ 的 delay scheduling 自回归生成音频 token;右:Global Latent + Local Transformer(MossTTSLocal) 由 Backbone 每步输出全局潜变量,再由轻量 Local Transformer 逐步发射 token block,更适合低时延流式合成。
架构 A:延迟调度模式(MossTTSDelay)—— 稳定、高效、生产就绪

- 单主干统一生成:采用单一 Transformer 主干网络,通过
(n_vq + 1)个输出头直接预测多码本(RVQ)的声学 Token,统一承载语义理解与声学生成。 - 延迟调度机制:通过精心设计的延迟调度策略,稳定地处理多码本 Token 间的时序与层级依赖关系。
- 核心优势:在生成长上下文语音时,能保持更强的内容一致性与模型鲁棒性,同时具备更高的推理效率和更优的生产环境行为。适合长篇内容生成、有声叙述及规模化部署场景。
架构 B:全局表征 + 局部建模(MossTTSLocal)—— 轻量、灵活、流式友好

- 全局表征凝聚:主干网络在每个时间步生成一个全局隐变量,凝聚当前时刻生成所需的所有上下文信息。
- 局部块生成:采用轻量的局部自回归 Transformer,基于全局表征,每一步生成一个音频 Token 块,显著提升吞吐量并降低端到端延迟。
- 流式友好设计:结构简化,无需复杂的延迟调度,对齐机制更直接。天然适配流式输入/输出与实时交互场景。
- 核心优势:模型体积更小、易于扩展,在多项客观评测基准上表现优异。特别适合作为流式、实时语音合成系统的强基线模型。
为何并行研发两套架构?
- 系统性验证生成范式:我们并非仅追求单一指标的领先,而是同时探索两种代表性生成范式的潜力,旨在构建“可跑通、可复现、可迭代”的完整技术体系。
- 明确且互补的权衡:延迟调度架构在长文本合成中通常更快、更稳定;局部建模架构则更轻量,且在客观指标上更具优势。两者共同覆盖了从离线高质量合成到在线低延迟交互的完整需求光谱。
- 最大化开源价值:同时提供两条经过充分验证的技术路径,它们既是可直接落地的工程方案,也是可用于消融实验、对比研究和下游创新的高质量基座。这有助于研究社区更精准地定位关键影响因素,也便于工程团队根据实际场景选择最优解。
一句话总结:MOSS-TTS 的“双架构”设计,源于我们对真实世界语音生成需求的深刻洞察——真正可用的 TTS 技术,不应只在单一维度取胜,而应能在不同应用场景下,以清晰的性能权衡提供最有效的解决方案。
国产 GPU 生态支持
MOSS-TTS 及其蒸馏版本 MOSS-TTSD 均已实现针对 壁仞科技壁砺™ 166M 芯片的 Day-0 高性能推理部署支持。在国产算力生态的持续赋能下,MOSS-TTS 系列模型将能更深入地服务于更广泛的领域与场景。
我们将在后续独立发布的技术报告中,完整披露模型详细设计、训练方法论及全面的评测结果。
结语
MOSS-TTS 模型家族的开源与发布,是团队在语音领域践行 “多模态 • 开放生态 • 超级智能” 使命的一次具体实践。我们既面向生产需求,致力于将稳定性、效率与可控性提升至可部署的工业级标准;也面向研究社区,力求将关键的技术选择与可复现的基线模型交到开发者手中。我们坚信,通往更强大人工智能的道路,必然依赖于多模态能力的持续进化、开放协作的长期积累,以及将前沿技术转化为现实生产力的每一次坚实交付。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21144
