MOSS-TTS Family：模思智能发布全场景语音生成模型家族，实现高保真音色克隆与实时交互

当一段语音不仅需要“像某个人”、“准确地读出每个字”，还需要在不同内容中自然切换说话方式，在几十分钟的叙述中持续稳定，在对话、角色、实时交互等不同形态下都能直接使用——单一的TTS模型，往往已经不够用了。

模思智能及OpenMOSS团队发布了MOSS-TTS Family，一套面向高保真、高表现力与复杂场景生成的开源语音生成模型家族。

MOSS-TTS Family能够完成以下任务：

零样本音色克隆与时长控制：克隆说话人的音色与表达风格，并精准控制语音时长，适用于纪录片、影视配音或新闻播报。
生成真实节奏的对话：生成具备真实节奏的双人或多人对话，用于播客、综艺或解说。
指令化角色声音设计：通过指令设计带有特定情绪与表演状态的角色声音。
环境音与音效补全：为内容补全环境音与音效。
实时流式语音输出：在实时Voice Agent系统中，以流式方式持续输出自然语音。

MOSS-TTS Family并非单一能力的堆叠，而是一整套可以直接接入创作流程、产品系统与交互场景的声音生产工具链。

语音生成模型家族：全维度能力覆盖

MOSS-TTS Family并非追求“一个更大的TTS模型”，而是将声音生产拆解为多个真实存在的创作与应用环节，并为每一个环节提供专门的模型支持。这些模型既可以独立使用，也可以组合成完整的工作流。

整个模型家族包含五个核心成员：

MOSS-TTS：高保真、高表现力的语音生成基座，支持多语言、长音频、精确时长控制。
MOSS-TTSD：全面更新至1.0版本，面向真实对话场景的多说话人语音合成，支持播客等复杂对话场景。
MOSS-VoiceGenerator：复杂文本指令跟随，用于音色与角色设计。
MOSS-SoundEffect：环境音与音效生成模型。
MOSS-TTS-Realtime：面向实时交互的实时流式TTS模型。

它们共同构成了一个覆盖“稳定生成、灵活设计、复杂对话、情境补全、实时交互”的声音创作生态闭环。

MOSS-TTS：高表现力语音生成基座

MOSS-TTS是整个MOSS-TTS Family的基础模型，其核心目标是在真实内容与复杂场景中，稳定地复现说话者的声音特征、表达方式与语言习惯，并稳定地生成长语音片段。

零样本音色复刻：从“像声音”到“像这个人说话”

MOSS-TTS的音色克隆能力围绕语速、韵律、停顿方式、情绪走向与整体说话风格等“非显性特征”展开。在业界权威测试集Seed-TTS-eval上，其语音音色相似度超越了当前所有的开源模型和大多数闭源模型。

中文场景展示
* 央视纪录片解说高原雪豹
* 百家讲坛王立群老师论时间观念

英文场景展示
* 钢铁侠Tony Stark大型怼人现场
* Taylor Swift深情向粉丝吐露心声

在这些示例中，同一参考音色在不同内容语境下，说话节奏、重音位置与情绪密度都会自然变化。

超长语音生成：不再为分段拼接而苦恼

MOSS-TTS支持单次上下文内完成超长语音生成，无需对文本进行人为切分，也无需通过多轮调用来拼接音频结果。例如，在一次生成流程中可直接得到43分钟的超长音频，避免了因分段处理带来的接口复杂度与工程负担。

语音时长控制：在不牺牲自然度的前提下控制语速

MOSS-TTS支持在Token级别对生成时长进行控制，从而适应更多对语音时长有明确约束的创作场景。

多语言语音生成：跨语言的一致性表达

MOSS-TTS支持多种主流语言的语音生成，并致力于在不同语言中保持一致的发音质量与表达自然度。支持语言包括但不限于：中文、英语、法语、德语、西班牙语、日语、俄语、韩语、意大利语，并支持任意语言切换。

拼音与音素级细粒度发音控制：从准确发音到可控表达

MOSS-TTS提供拼音与音素级别的细粒度发音控制能力，使用户能够直接参与到发音层面的设计与调整中。通过这一能力，可以实现以下用法：

使用纯拼音输入驱动语音生成，而不依赖原始汉字文本。
- 示例输入：ni2 hao3，wo3 shi4 lai2 zi4 mo2 si1 zhi4 neng2 de4 mo2 xing2
主动修改拼音内容或声调，用于纠正特定读音。
- 示例：“一骑红尘妃子笑，无人知是荔枝来”
  - 输入：一 ji4 红尘妃子笑，无人知是荔枝来
  - 输入：一 qi2 红尘妃子笑，无人知是荔枝来
通过对拼音与音调的组合调整，探索更具个性化的发音方式。
- 示例输入：nin2 hao3，qing4 wen3 nin2 lai2 zi4 na4 zuo3 cheng4 shi3？

MOSS-TTSD-V1.0：面向真实内容的多说话人对话生成

如果说单人TTS解决的是“讲述”，那么MOSS-TTSD解决的是“交流”。相比于0.7版本，1.0版本的核心能力如下：

自然对话节奏：以双说话人为核心，支持1–5人任意指定人数的语音生成。
支持更多对话场景：播客、说书、体育解说、电竞解说、影视、综艺、动漫、相声等。
支持最长60分钟的长对话生成。
多语言覆盖：支持中文、英语、日语、韩语、西班牙语、葡萄牙语、法语、德语、意大利语、俄语、阿拉伯语等多种语言。

示例场景
* 管泽元王多多解说IG大战T1
* 詹俊张路解说魔都高校德比
* 贾玲、刘德华和周杰伦闲聊

MOSS-TTSD-V1.0在客观指标与主观评测中均领先于当前主流的闭源及开源模型。

MOSS-VoiceGenerator：用指令“设计”声音与角色

在很多创作流程中，创作者并不只是需要“某个人的声音”，而是需要一个具备性格、情绪与表演状态的角色声音。

MOSS-VoiceGenerator 恰恰提供了这样的能力：

强烈且自然的情绪表达与转变
接近真实表演状态的音色与气息变化
清晰的角色感

MOSS-VoiceGenerator 可以作为：
* 角色原型的生成工具
* IP 声音设计的起点
* 与 TTS / TTSD 组合使用的“声音设计层”

示例：
* 年轻男性，阴阳怪气，拖长音，极尽嘲讽
* 撕心裂肺，声泪俱下的中年女性

MOSS-SoundEffect：从文字描述直接生成环境音与音效

完整的声音体验不仅来自“说话的人”，也来自空间、动作与环境。MOSS-SoundEffect 能够根据文字描述，在合适的情境下补充身临其境的音效，支持生成的音效类型包括：

自然环境音：例如，“踩在新雪上的嘎吱声”。
城市环境音：例如，“一辆跑车在高速公路上呼啸而过”。
动物音：例如，“清晨的公园里，鸟儿在静谧的氛围中鸣叫”。
人类活动音：例如，“清晰的脚步声在水泥地上回荡，节奏稳定”。

MOSS-TTS-Realtime：面向实时系统的流式语音生成

在语音助手、实时对话与交互式系统中，延迟与稳定性往往比“极致音质”更重要。

特点：
* 流式文本输入，流式语音输出
* 适合作为 LLM 的语音外挂能力

MOSS-TTS-Streaming 是整个模型家族中，最偏向“系统能力”的一环。

Case-by-case 对比：与其他闭源与开源模型的效果对比

在展示 MOSS-TTS Family 自身能力的同时，我们也将模型放入更广泛的行业背景中进行验证。为此，我们选取了多种具有代表性的闭源与开源语音生成模型，在尽量统一的输入条件下，对模型输出效果进行了 case-by-case 的对比测试，以更客观地观察不同系统在实际任务中的表现差异。

对比维度包括但不限于：
* 音色相似度与一致性
* 表达自然度与表现力
* 场景适配能力

所有对比示例均基于相同或等价的文本与参考条件生成，旨在呈现不同模型在具体使用场景中的实际输出效果，而非单一指标或主观印象。

技术方法

MOSS-TTS Family 的能力，建立在系统性的技术选择与工程实践之上。该模型的核心在于回归语音生成任务中三个最为重要的因素：高质量的 Audio Tokenizer、大规模、高质量且多样化的预训练数据，以及高效的离散 Token 建模方法。这些要素的结合，使我们能够以出人意料的简洁方法实现最先进的性能：一个简单的自回归范式——架构尽可能精简，结果却足够强大。