MOSS-TTS Family: โมส อินเทลลิเจนซ์ เปิดตัวตระกูลโมเดลสร้างเสียงพูดแบบครอบคลุมทุกสถานการณ์ บรรลุการโคลนเสียงคุณภาพสูงและการโต้ตอบแบบเรียลไทม์

2026年2月11日 pm4:10 • ข่าวสารอุตสาหกรรม AI • 187 views

เมื่อเสียงพูดไม่เพียงแต่ต้อง “เหมือนใครบางคน” และ “อ่านออกเสียงแต่ละคำอย่างถูกต้อง” แต่ยังต้องสามารถสลับวิธีการพูดได้อย่างเป็นธรรมชาติในเนื้อหาที่แตกต่างกัน รักษาความเสถียรอย่างต่อเนื่องตลอดการบรรยายหลายสิบนาที และใช้งานได้ทันทีในรูปแบบต่างๆ เช่น การสนทนา บทบาท และการโต้ตอบแบบเรียลไทม์ — โมเดล TTS เดียว มักจะไม่เพียงพออีกต่อไป

ทีม Modusi Intelligent และ OpenMOSS ได้เปิดตัว MOSS-TTS Family ซึ่งเป็นตระกูลโมเดลการสร้างเสียงพูดโอเพ่นซอร์สที่มุ่งเน้นการสร้างเสียงคุณภาพสูง ความสามารถในการแสดงออกสูง และการใช้งานในสถานการณ์ที่ซับซ้อน

MOSS-TTS Family สามารถทำงานต่อไปนี้ได้:

การโคลนเสียงแบบ Zero-shot และการควบคุมระยะเวลา: โคลนสีเสียงและสไตล์การแสดงออกของผู้พูด และควบคุมระยะเวลาเสียงได้อย่างแม่นยำ เหมาะสำหรับสารคดี การพากย์ภาพยนตร์/รายการ หรือการอ่านข่าว
การสร้างบทสนทนาที่มีจังหวะสมจริง: สร้างบทสนทนาระหว่างสองคนหรือหลายคนที่มีจังหวะสมจริง สำหรับพอดแคสต์ รายการวาไรตี้ หรือการบรรยาย
การออกแบบเสียงตัวละครด้วยคำสั่ง: ออกแบบเสียงตัวละครที่มีอารมณ์และสถานะการแสดงเฉพาะผ่านคำสั่ง
การเติมเต็มเสียงแวดล้อมและเอฟเฟกต์เสียง: เติมเต็มเสียงแวดล้อมและเอฟเฟกต์เสียงให้กับเนื้อหา
การส่งออกเสียงพูดแบบสตรีมมิ่งเรียลไทม์: ในระบบ Voice Agent แบบเรียลไทม์ ส่งออกเสียงพูดที่เป็นธรรมชาติอย่างต่อเนื่องในรูปแบบสตรีมมิ่ง

MOSS-TTS Family ไม่ใช่เพียงการซ้อนทับความสามารถเดี่ยวๆ แต่เป็นชุดเครื่องมือการผลิตเสียงที่สามารถเชื่อมต่อโดยตรงกับกระบวนการสร้างสรรค์ ระบบผลิตภัณฑ์ และสถานการณ์การโต้ตอบ

ตระกูลโมเดลสร้างเสียงพูด: ความสามารถครอบคลุมทุกมิติ

MOSS-TTS Family ไม่ได้มุ่งแสวงหา “โมเดล TTS ที่ใหญ่ขึ้น” เพียงอย่างเดียว แต่เป็นการแยกย่อยกระบวนการผลิตเสียงออกเป็นหลายขั้นตอนที่เกิดขึ้นจริงในการสร้างสรรค์และการใช้งาน และให้การสนับสนุนโมเดลเฉพาะทางสำหรับแต่ละขั้นตอน โมเดลเหล่านี้สามารถใช้งานได้อย่างอิสระ หรือรวมกันเป็นเวิร์กโฟลว์ที่สมบูรณ์

ตระกูลโมเดลทั้งหมดประกอบด้วยสมาชิกหลักห้าตัว:

MOSS-TTS: ฐานรากการสร้างเสียงพูดคุณภาพสูงและมีความสามารถในการแสดงออกสูง รองรับหลายภาษา เสียงยาว และการควบคุมระยะเวลาอย่างแม่นยำ
MOSS-TTSD: อัปเดตอย่างสมบูรณ์เป็นเวอร์ชัน 1.0 การสังเคราะห์เสียงพูดหลายผู้พูดสำหรับสถานการณ์สนทนาสมจริง รองรับสถานการณ์สนทนาที่ซับซ้อน เช่น พอดแคสต์
MOSS-VoiceGenerator: การปฏิบัติตามคำสั่งข้อความที่ซับซ้อน สำหรับการออกแบบสีเสียงและตัวละคร
MOSS-SoundEffect: โมเดลสร้างเสียงแวดล้อมและเอฟเฟกต์เสียง
MOSS-TTS-Realtime: โมเดล TTS แบบสตรีมมิ่งเรียลไทม์สำหรับการโต้ตอบแบบเรียลไทม์

พวกเขาร่วมกันสร้างระบบนิเวศการสร้างสรรค์เสียงแบบวงจรปิดที่ครอบคลุม “การสร้างที่เสถียร การออกแบบที่ยืดหยุ่น การสนทนาที่ซับซ้อน การเติมเต็มสถานการณ์ และการโต้ตอบแบบเรียลไทม์”

MOSS-TTS: ฐานรากการสร้างเสียงพูดที่มีความสามารถในการแสดงออกสูง

MOSS-TTS เป็นโมเดลพื้นฐานของ MOSS-TTS Family เป้าหมายหลักคือการสร้างเสียงส่วนยาวที่เสถียร โดยสร้างซ้ำลักษณะเสียงของผู้พูด วิธีการแสดงออก และนิสัยการใช้ภาษาได้อย่างเสถียรในเนื้อหาจริงและสถานการณ์ที่ซับซ้อน

การสร้างซ้ำสีเสียงแบบ Zero-shot: จาก “เหมือนเสียง” สู่ “เหมือนคนนี้กำลังพูด”

ความสามารถในการโคลนสีเสียงของ MOSS-TTS เน้นไปที่ “ลักษณะที่ไม่ชัดเจน” เช่น ความเร็วในการพูด จังหวะ วิธีการหยุดพัก แนวโน้มอารมณ์ และสไตล์การพูดโดยรวม บนชุดทดสอบมาตรฐานอุตสาหกรรม Seed-TTS-eval ความคล้ายคลึงของสีเสียงพูดของมันแซงหน้าทุกโมเดลโอเพ่นซอร์สและโมเดลปิดส่วนใหญ่ในปัจจุบัน

การแสดงตัวอย่างสถานการณ์ภาษาจีน
* การบรรยายสารคดี CCTV เกี่ยวกับเสือดาวหิมะที่ราบสูง
* อาจารย์ Wang Liqun จากรายการ “Bai Jia Jiang Tan” พูดถึงมุมมองเรื่องเวลา

การแสดงตัวอย่างสถานการณ์ภาษาอังกฤษ
* Tony Stark (Iron Man) ในฉากเผชิญหน้ากับคนจำนวนมาก
* Taylor Swift เปิดใจกับแฟน ๆ อย่างลึกซึ้ง

ในตัวอย่างเหล่านี้ สีเสียงอ้างอิงเดียวกันในบริบทเนื้อหาที่แตกต่างกัน จังหวะการพูด ตำแหน่งการเน้นเสียง และความหนาแน่นของอารมณ์จะเปลี่ยนแปลงไปอย่างเป็นธรรมชาติ

การสร้างเสียงพูดยาวพิเศษ: ไม่ต้องกังวลกับการต่อเสียงเป็นช่วงๆ อีกต่อไป

MOSS-TTS รองรับการสร้างเสียงพูดยาวพิเศษภายในคอนเท็กซ์เดียว ไม่จำเป็นต้องแบ่งข้อความด้วยมือ หรือต่อผลลัพธ์เสียงผ่านการเรียกใช้หลายรอบ ตัวอย่างเช่น สามารถได้ไฟล์เสียงยาว 43 นาทีโดยตรงในกระบวนการสร้างครั้งเดียว ซึ่งหลีกเลี่ยงความซับซ้อนของอินเทอร์เฟซและภาระทางวิศวกรรมที่เกิดจากการประมวลผลแบบแบ่งส่วน

การควบคุมระยะเวลาเสียง: ควบคุมความเร็วในการพูดโดยไม่เสียความเป็นธรรมชาติ

MOSS-TTS รองรับการควบคุมระยะเวลาการสร้างในระดับ Token เพื่อให้เหมาะกับสถานการณ์การสร้างสรรค์มากขึ้นที่มีข้อจำกัดระยะเวลาเสียงที่ชัดเจน

การสร้างเสียงพูดหลายภาษา: การแสดงออกที่สม่ำเสมอข้ามภาษา

MOSS-TTS รองรับการสร้างเสียงพูดในภาษาหลักหลายภาษา และมุ่งมั่นที่จะรักษาคุณภาพการออกเสียงและความเป็นธรรมชาติในการแสดงออกที่สม่ำเสมอในภาษาต่างๆ ภาษาที่รองรับรวมถึงแต่ไม่จำกัดเพียง: จีน อังกฤษ ฝรั่งเศส เยอรมัน สเปน ญี่ปุ่น รัสเซีย เกาหลี อิตาลี และรองรับการสลับภาษาใดๆ ก็ได้

การควบคุมการออกเสียงระดับละเอียดด้วยพินอินและโฟนีน: จากการออกเสียงที่ถูกต้องสู่การแสดงออกที่ควบคุมได้

MOSS-TTS ให้ความสามารถในการควบคุมการออกเสียงระดับละเอียดด้วยพินอินและโฟนีน ทำให้ผู้ใช้สามารถมีส่วนร่วมในการออกแบบและปรับแต่งระดับการออกเสียงได้โดยตรง ด้วยความสามารถนี้ สามารถใช้งานได้ดังต่อไปนี้:

ใช้การป้อนข้อมูลพินอินล้วนๆ เพื่อขับเคลื่อนการสร้างเสียง โดยไม่ต้องพึ่งพาข้อความตัวอักษรจีนดั้งเดิม
- ตัวอย่างอินพุต: ni2 hao3，wo3 shi4 lai2 zi4 mo2 si1 zhi4 neng2 de4 mo2 xing2
แก้ไขเนื้อหาพินอินหรือวรรณยุกต์โดยตรง เพื่อแก้ไขการอ่านออกเสียงเฉพาะ
- ตัวอย่าง: “一骑红尘妃子笑，无人知是荔枝来”
  - อินพุต: 一 ji4 红尘妃子笑，无人知是荔枝来
  - อินพุต: 一 qi2 红尘妃子笑，无人知是荔枝来
สำรวจวิธีการออกเสียงที่เป็นส่วนตัวมากขึ้นผ่านการปรับผสมผสานพินอินและวรรณยุกต์
- ตัวอย่างอินพุต: nin2 hao3，qing4 wen3 nin2 lai2 zi4 na4 zuo3 cheng4 shi3？

MOSS-TTSD-V1.0: การสร้างบทสนทนาหลายผู้พูดสำหรับเนื้อหาสมจริง

หาก TTS คนเดียวแก้ไขปัญหาเรื่อง “การเล่า” แล้ว MOSS-TTSD ก็แก้ไขปัญหาเรื่อง “การสื่อสาร” เมื่อเทียบกับเวอร์ชัน 0.7 ความสามารถหลักของเวอร์ชัน 1.0 มีดังนี้:

จังหวะการสนทนาที่เป็นธรรมชาติ: เน้นผู้พูดสองคนเป็นหลัก รองรับการสร้างเสียงสำหรับจำนวนผู้พูดที่กำหนดได้ตั้งแต่ 1–5 คน
รองรับสถานการณ์การสนทนามากขึ้น: พอดแคสต์ การเล่านิทาน การบรรยายกีฬา การบรรยายอีสปอร์ต ภาพยนตร์/รายการ รายการวาไรตี้ การ์ตูน anime ละครตลก (เซียงเซิง) เป็นต้น
รองรับการสร้างบทสนทนายาวสูงสุด 60 นาที
ครอบคลุมหลายภาษา: รองรับภาษาจีน อังกฤษ ญี่ปุ่น เกาหลี สเปน โปรตุเกส ฝรั่งเศส เยอรมัน อิตาลี รัสเซีย อาหรับ และภาษาอื่นๆ อีกหลายภาษา

ตัวอย่างสถานการณ์
* Guan Zeyuan และ Wang Duoduo บรรยายการแข่งขัน IG ปะทะ T1
* Zhan Jun และ Zhang Lu บรรยายการแข่งขันดาร์บี้มหาวิทยาลัยในเมืองเซี่ยงไฮ้
* Jia Ling, Andy Lau และ Jay Chou สนทนาอย่างไม่เป็นทางการ

MOSS-TTSD-V1.0 นำหน้าโมเดลปิดและโอเพ่นซอร์สหลักในปัจจุบันทั้งในด้านตัวชี้วัดวัตถุวิสัยและการประเมินอัตนัย

MOSS-VoiceGenerator: “ออกแบบ” เสียงและตัวละครด้วยคำสั่ง

ในกระบวนการสร้างสรรค์มากมาย ผู้สร้างไม่เพียงต้องการ “เสียงของใครบางคน” แต่ต้องการเสียงตัวละครที่มีบุคลิก อารมณ์ และสถานะการแสดง

MOSS-VoiceGenerator ให้ความสามารถดังกล่าว:

การแสดงออกและการเปลี่ยนแปลงทางอารมณ์ที่รุนแรงและเป็นธรรมชาติ
การเปลี่ยนแปลงของสีเสียงและลมหายใจที่ใกล้เคียงกับสถานะการแสดงจริง
ความรู้สึกถึงบทบาทที่ชัดเจน

MOSS-VoiceGenerator สามารถทำหน้าที่เป็น:
* เครื่องมือสร้างต้นแบบตัวละคร
* จุดเริ่มต้นของการออกแบบเสียงสำหรับ IP
* “ชั้นการออกแบบเสียง” ที่ใช้ร่วมกับ TTS / TTSD

ตัวอย่าง:
* ชายหนุ่ม พูดเหน็บแนม ยืดเสียง เต็มไปด้วยการเยาะเย้ย
* หญิงวัยกลางคน ร้องไห้คร่ำครวญด้วยความเจ็บปวดสุดขีด

MOSS-SoundEffect: สร้างเสียงแวดล้อมและเอฟเฟกต์เสียงโดยตรงจากคำอธิบายข้อความ

ประสบการณ์เสียงที่สมบูรณ์ไม่เพียงมาจาก “คนพูด” แต่ยังมาจากพื้นที่ การเคลื่อนไหว และสภาพแวดล้อม MOSS-SoundEffect สามารถเติมเต็มเอฟเฟกต์เสียงที่สมจริงในสถานการณ์ที่เหมาะสมตามคำอธิบายข้อความ รองรับประเภทเอฟเฟกต์เสียงที่สร้างได้ดังนี้:

เสียงแวดล้อมทางธรรมชาติ: เช่น “เสียงดังกรอบแกรบจากการเดินบนหิมะใหม่”
เสียงแวดล้อมในเมือง: เช่น “เสียงรถสปอร์ตวิ่งผ่านบนทางด่วน”
เสียงสัตว์: เช่น “เสียงนกร้องในสวนยามเช้า บรรยากาศเงียบสงบ”
เสียงกิจกรรมของมนุษย์: เช่น “เสียงฝีเท้าที่ชัดเจนก้องอยู่ในพื้นคอนกรีต เป็นจังหวะที่มั่นคง”

MOSS-TTS-Realtime: การสร้างเสียงพูดแบบสตรีมมิ่งสำหรับระบบเรียลไทม์

ในผู้ช่วยเสียง การสนทนาแบบเรียลไทม์ และระบบโต้ตอบ ความล่าช้าและความเสถียรมักสำคัญกว่า “คุณภาพเสียงสุดยอด”

ลักษณะเด่น:
* อินพุตข้อความแบบสตรีมมิ่ง เอาต์พุตเสียงแบบสตรีมมิ่ง
* เหมาะสมสำหรับใช้เป็นความสามารถเสริมเสียงให้กับ LLM

MOSS-TTS-Streaming เป็นส่วนที่เน้น “ความสามารถของระบบ” มากที่สุดในตระกูลโมเดล

การเปรียบเทียบแบบ Case-by-case: การเปรียบเทียบผลลัพธ์กับโมเดลปิดและโอเพ่นซอร์สอื่นๆ

ในขณะที่แสดงความสามารถของ MOSS-TTS Family เราได้นำโมเดลไปทดสอบในบริบทอุตสาหกรรมที่กว้างขึ้นด้วย เพื่อจุดประสงค์นี้ เราได้เลือกโมเดลการสร้างเสียงพูดปิดและโอเพ่นซอร์สที่เป็นตัวแทนหลายแบบ และทำการทดสอบเปรียบเทียบผลลัพธ์โมเดลแบบ case-by-case ภายใต้เงื่อนไขอินพุตที่ค่อนข้างเหมือนกัน เพื่อสังเกตความแตกต่างในการแสดงผลของระบบต่างๆ ในงานจริงได้อย่างเป็นกลางมากขึ้น

มิติการเปรียบเทียบรวมถึงแต่ไม่จำกัดเพียง:
* ความคล้ายคลึงและความสม่ำเสมอของสีเสียง
* ความเป็นธรรมชาติในการแสดงออกและความสามารถในการแสดงออก
* ความสามารถในการปรับใช้กับสถานการณ์

ตัวอย่างการเปรียบเทียบทั้งหมดสร้างขึ้นจากข้อความและเงื่อนไขอ้างอิงเดียวกันหรือเทียบเท่า โดยมีจุดมุ่งหมายเพื่อแสดงผลลัพธ์จริงของโมเดลต่างๆ ในสถานการณ์ใช้งานเฉพาะ ไม่ใช่ตัวชี้วัดเดียวหรือความประทับใจส่วนตัว

วิธีการทางเทคนิค

ความสามารถของ MOSS-TTS Family ถูกสร้างขึ้นบนพื้นฐานของการเลือกเทคโนโลยีอย่างเป็นระบบและการปฏิบัติทางวิศวกรรม แกนหลักของโมเดลนี้อยู่ที่การกลับไปสู่ปัจจัยสามประการที่สำคัญที่สุดในงานสร้างเสียง: Audio Tokenizer คุณภาพสูง ข้อมูลพรีเทรนขนาดใหญ่ คุณภาพสูงและหลากหลาย และวิธีการสร้างแบบจำลอง Token แบบไม่ต่อเนื่องที่มีประสิทธิภาพ การผสมผสานขององค์ประกอบเหล่านี้ทำให้เราสามารถบรรลุประสิทธิภาพล้ำสมัยด้วยวิธีการที่เรียบง่ายอย่างน่าประหลาดใจ: แบบจำลองอัตโนมัติถอยหลัง (autoregressive) ที่เรียบง่าย — สถาปัตยกรรมเรียบง่ายที่สุดเท่าที่จะเป็นไปได้ แต่ผลลัพธ์ทรงพลังเพียงพอ

Audio Tokenizer ประสิทธิภาพสูง เสริมฐานรากการสร้างเสียงคุณภาพสูง

MOSS Audio Tokenizer เป็น audio tokenizer พารามิเตอร์ 1.6B ที่ใช้สถาปัตยกรรม Cat (Causal Audio Tokenizer with Transformer) โมเดลนี้มีเป้าหมายเพื่อให้อินเทอร์เฟซเสียงแบบไม่ต่อเนื่องที่เป็นหนึ่งเดียวสำหรับโมเดลเสียงขนาดใหญ่แบบอัตโนมัติถอยหลัง (autoregressive) โดยมีความสามารถในการสร้างใหม่แบบไม่สูญเสียข้อมูลและประสิทธิภาพการจัดแนวความหมายระหว่างเสียงและข้อความที่ยอดเยี่ยม
คุณลักษณะทางเทคนิค:
1. อัตราการบีบอัดสูงและอัตราบิตแปรผัน: รองรับการบีบอัดเสียง 24kHz ลงเหลือ 12.5 fps ขึ้นอยู่กับกลไก RVQ 32 ชั้น โมเดลสามารถปรับอัตราบิตได้อย่างยืดหยุ่นในช่วง 0.125-4kbps เพื่อตอบสนองความต้องการในการสร้างใหม่เสียงคุณภาพสูงในสถานการณ์ต่างๆ
2. สถาปัตยกรรม Transformer แบบ Isomorphic ล้วน: ใช้การออกแบบ
  
  ⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
  
  ☕ สนับสนุนค่ากาแฟทีมงาน
  
  หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
  
  SCAN TO PAY WITH ANY BANK
  
  本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/22966