เมื่อเสียงพูดไม่เพียงแต่ต้อง “เหมือนใครบางคน” และ “อ่านออกเสียงแต่ละคำอย่างถูกต้อง” แต่ยังต้องสามารถสลับวิธีการพูดได้อย่างเป็นธรรมชาติในเนื้อหาที่แตกต่างกัน รักษาความเสถียรอย่างต่อเนื่องตลอดการบรรยายหลายสิบนาที และใช้งานได้ทันทีในรูปแบบต่างๆ เช่น การสนทนา บทบาท และการโต้ตอบแบบเรียลไทม์ — โมเดล TTS เดียว มักจะไม่เพียงพออีกต่อไป
ทีม Modusi Intelligent และ OpenMOSS ได้เปิดตัว MOSS-TTS Family ซึ่งเป็นตระกูลโมเดลการสร้างเสียงพูดโอเพ่นซอร์สที่มุ่งเน้นการสร้างเสียงคุณภาพสูง ความสามารถในการแสดงออกสูง และการใช้งานในสถานการณ์ที่ซับซ้อน
MOSS-TTS Family สามารถทำงานต่อไปนี้ได้:
- การโคลนเสียงแบบ Zero-shot และการควบคุมระยะเวลา: โคลนสีเสียงและสไตล์การแสดงออกของผู้พูด และควบคุมระยะเวลาเสียงได้อย่างแม่นยำ เหมาะสำหรับสารคดี การพากย์ภาพยนตร์/รายการ หรือการอ่านข่าว
- การสร้างบทสนทนาที่มีจังหวะสมจริง: สร้างบทสนทนาระหว่างสองคนหรือหลายคนที่มีจังหวะสมจริง สำหรับพอดแคสต์ รายการวาไรตี้ หรือการบรรยาย
- การออกแบบเสียงตัวละครด้วยคำสั่ง: ออกแบบเสียงตัวละครที่มีอารมณ์และสถานะการแสดงเฉพาะผ่านคำสั่ง
- การเติมเต็มเสียงแวดล้อมและเอฟเฟกต์เสียง: เติมเต็มเสียงแวดล้อมและเอฟเฟกต์เสียงให้กับเนื้อหา
- การส่งออกเสียงพูดแบบสตรีมมิ่งเรียลไทม์: ในระบบ Voice Agent แบบเรียลไทม์ ส่งออกเสียงพูดที่เป็นธรรมชาติอย่างต่อเนื่องในรูปแบบสตรีมมิ่ง
MOSS-TTS Family ไม่ใช่เพียงการซ้อนทับความสามารถเดี่ยวๆ แต่เป็นชุดเครื่องมือการผลิตเสียงที่สามารถเชื่อมต่อโดยตรงกับกระบวนการสร้างสรรค์ ระบบผลิตภัณฑ์ และสถานการณ์การโต้ตอบ
ตระกูลโมเดลสร้างเสียงพูด: ความสามารถครอบคลุมทุกมิติ
MOSS-TTS Family ไม่ได้มุ่งแสวงหา “โมเดล TTS ที่ใหญ่ขึ้น” เพียงอย่างเดียว แต่เป็นการแยกย่อยกระบวนการผลิตเสียงออกเป็นหลายขั้นตอนที่เกิดขึ้นจริงในการสร้างสรรค์และการใช้งาน และให้การสนับสนุนโมเดลเฉพาะทางสำหรับแต่ละขั้นตอน โมเดลเหล่านี้สามารถใช้งานได้อย่างอิสระ หรือรวมกันเป็นเวิร์กโฟลว์ที่สมบูรณ์
ตระกูลโมเดลทั้งหมดประกอบด้วยสมาชิกหลักห้าตัว:
- MOSS-TTS: ฐานรากการสร้างเสียงพูดคุณภาพสูงและมีความสามารถในการแสดงออกสูง รองรับหลายภาษา เสียงยาว และการควบคุมระยะเวลาอย่างแม่นยำ
- MOSS-TTSD: อัปเดตอย่างสมบูรณ์เป็นเวอร์ชัน 1.0 การสังเคราะห์เสียงพูดหลายผู้พูดสำหรับสถานการณ์สนทนาสมจริง รองรับสถานการณ์สนทนาที่ซับซ้อน เช่น พอดแคสต์
- MOSS-VoiceGenerator: การปฏิบัติตามคำสั่งข้อความที่ซับซ้อน สำหรับการออกแบบสีเสียงและตัวละคร
- MOSS-SoundEffect: โมเดลสร้างเสียงแวดล้อมและเอฟเฟกต์เสียง
- MOSS-TTS-Realtime: โมเดล TTS แบบสตรีมมิ่งเรียลไทม์สำหรับการโต้ตอบแบบเรียลไทม์
พวกเขาร่วมกันสร้างระบบนิเวศการสร้างสรรค์เสียงแบบวงจรปิดที่ครอบคลุม “การสร้างที่เสถียร การออกแบบที่ยืดหยุ่น การสนทนาที่ซับซ้อน การเติมเต็มสถานการณ์ และการโต้ตอบแบบเรียลไทม์”
MOSS-TTS: ฐานรากการสร้างเสียงพูดที่มีความสามารถในการแสดงออกสูง
MOSS-TTS เป็นโมเดลพื้นฐานของ MOSS-TTS Family เป้าหมายหลักคือการสร้างเสียงส่วนยาวที่เสถียร โดยสร้างซ้ำลักษณะเสียงของผู้พูด วิธีการแสดงออก และนิสัยการใช้ภาษาได้อย่างเสถียรในเนื้อหาจริงและสถานการณ์ที่ซับซ้อน
การสร้างซ้ำสีเสียงแบบ Zero-shot: จาก “เหมือนเสียง” สู่ “เหมือนคนนี้กำลังพูด”
ความสามารถในการโคลนสีเสียงของ MOSS-TTS เน้นไปที่ “ลักษณะที่ไม่ชัดเจน” เช่น ความเร็วในการพูด จังหวะ วิธีการหยุดพัก แนวโน้มอารมณ์ และสไตล์การพูดโดยรวม บนชุดทดสอบมาตรฐานอุตสาหกรรม Seed-TTS-eval ความคล้ายคลึงของสีเสียงพูดของมันแซงหน้าทุกโมเดลโอเพ่นซอร์สและโมเดลปิดส่วนใหญ่ในปัจจุบัน
การแสดงตัวอย่างสถานการณ์ภาษาจีน
* การบรรยายสารคดี CCTV เกี่ยวกับเสือดาวหิมะที่ราบสูง
* อาจารย์ Wang Liqun จากรายการ “Bai Jia Jiang Tan” พูดถึงมุมมองเรื่องเวลา
การแสดงตัวอย่างสถานการณ์ภาษาอังกฤษ
* Tony Stark (Iron Man) ในฉากเผชิญหน้ากับคนจำนวนมาก
* Taylor Swift เปิดใจกับแฟน ๆ อย่างลึกซึ้ง
ในตัวอย่างเหล่านี้ สีเสียงอ้างอิงเดียวกันในบริบทเนื้อหาที่แตกต่างกัน จังหวะการพูด ตำแหน่งการเน้นเสียง และความหนาแน่นของอารมณ์จะเปลี่ยนแปลงไปอย่างเป็นธรรมชาติ
การสร้างเสียงพูดยาวพิเศษ: ไม่ต้องกังวลกับการต่อเสียงเป็นช่วงๆ อีกต่อไป
MOSS-TTS รองรับการสร้างเสียงพูดยาวพิเศษภายในคอนเท็กซ์เดียว ไม่จำเป็นต้องแบ่งข้อความด้วยมือ หรือต่อผลลัพธ์เสียงผ่านการเรียกใช้หลายรอบ ตัวอย่างเช่น สามารถได้ไฟล์เสียงยาว 43 นาทีโดยตรงในกระบวนการสร้างครั้งเดียว ซึ่งหลีกเลี่ยงความซับซ้อนของอินเทอร์เฟซและภาระทางวิศวกรรมที่เกิดจากการประมวลผลแบบแบ่งส่วน
การควบคุมระยะเวลาเสียง: ควบคุมความเร็วในการพูดโดยไม่เสียความเป็นธรรมชาติ
MOSS-TTS รองรับการควบคุมระยะเวลาการสร้างในระดับ Token เพื่อให้เหมาะกับสถานการณ์การสร้างสรรค์มากขึ้นที่มีข้อจำกัดระยะเวลาเสียงที่ชัดเจน
การสร้างเสียงพูดหลายภาษา: การแสดงออกที่สม่ำเสมอข้ามภาษา
MOSS-TTS รองรับการสร้างเสียงพูดในภาษาหลักหลายภาษา และมุ่งมั่นที่จะรักษาคุณภาพการออกเสียงและความเป็นธรรมชาติในการแสดงออกที่สม่ำเสมอในภาษาต่างๆ ภาษาที่รองรับรวมถึงแต่ไม่จำกัดเพียง: จีน อังกฤษ ฝรั่งเศส เยอรมัน สเปน ญี่ปุ่น รัสเซีย เกาหลี อิตาลี และรองรับการสลับภาษาใดๆ ก็ได้
การควบคุมการออกเสียงระดับละเอียดด้วยพินอินและโฟนีน: จากการออกเสียงที่ถูกต้องสู่การแสดงออกที่ควบคุมได้
MOSS-TTS ให้ความสามารถในการควบคุมการออกเสียงระดับละเอียดด้วยพินอินและโฟนีน ทำให้ผู้ใช้สามารถมีส่วนร่วมในการออกแบบและปรับแต่งระดับการออกเสียงได้โดยตรง ด้วยความสามารถนี้ สามารถใช้งานได้ดังต่อไปนี้:
- ใช้การป้อนข้อมูลพินอินล้วนๆ เพื่อขับเคลื่อนการสร้างเสียง โดยไม่ต้องพึ่งพาข้อความตัวอักษรจีนดั้งเดิม
- ตัวอย่างอินพุต:
ni2 hao3,wo3 shi4 lai2 zi4 mo2 si1 zhi4 neng2 de4 mo2 xing2
- ตัวอย่างอินพุต:
- แก้ไขเนื้อหาพินอินหรือวรรณยุกต์โดยตรง เพื่อแก้ไขการอ่านออกเสียงเฉพาะ
- ตัวอย่าง: “一骑红尘妃子笑,无人知是荔枝来”
- อินพุต:
一 ji4 红尘妃子笑,无人知是荔枝来 - อินพุต:
一 qi2 红尘妃子笑,无人知是荔枝来
- อินพุต:
- ตัวอย่าง: “一骑红尘妃子笑,无人知是荔枝来”
- สำรวจวิธีการออกเสียงที่เป็นส่วนตัวมากขึ้นผ่านการปรับผสมผสานพินอินและวรรณยุกต์
- ตัวอย่างอินพุต:
nin2 hao3,qing4 wen3 nin2 lai2 zi4 na4 zuo3 cheng4 shi3?
- ตัวอย่างอินพุต:
MOSS-TTSD-V1.0: การสร้างบทสนทนาหลายผู้พูดสำหรับเนื้อหาสมจริง
หาก TTS คนเดียวแก้ไขปัญหาเรื่อง “การเล่า” แล้ว MOSS-TTSD ก็แก้ไขปัญหาเรื่อง “การสื่อสาร” เมื่อเทียบกับเวอร์ชัน 0.7 ความสามารถหลักของเวอร์ชัน 1.0 มีดังนี้:
- จังหวะการสนทนาที่เป็นธรรมชาติ: เน้นผู้พูดสองคนเป็นหลัก รองรับการสร้างเสียงสำหรับจำนวนผู้พูดที่กำหนดได้ตั้งแต่ 1–5 คน
- รองรับสถานการณ์การสนทนามากขึ้น: พอดแคสต์ การเล่านิทาน การบรรยายกีฬา การบรรยายอีสปอร์ต ภาพยนตร์/รายการ รายการวาไรตี้ การ์ตูน anime ละครตลก (เซียงเซิง) เป็นต้น
- รองรับการสร้างบทสนทนายาวสูงสุด 60 นาที
- ครอบคลุมหลายภาษา: รองรับภาษาจีน อังกฤษ ญี่ปุ่น เกาหลี สเปน โปรตุเกส ฝรั่งเศส เยอรมัน อิตาลี รัสเซีย อาหรับ และภาษาอื่นๆ อีกหลายภาษา
ตัวอย่างสถานการณ์
* Guan Zeyuan และ Wang Duoduo บรรยายการแข่งขัน IG ปะทะ T1
* Zhan Jun และ Zhang Lu บรรยายการแข่งขันดาร์บี้มหาวิทยาลัยในเมืองเซี่ยงไฮ้
* Jia Ling, Andy Lau และ Jay Chou สนทนาอย่างไม่เป็นทางการ
MOSS-TTSD-V1.0 นำหน้าโมเดลปิดและโอเพ่นซอร์สหลักในปัจจุบันทั้งในด้านตัวชี้วัดวัตถุวิสัยและการประเมินอัตนัย
MOSS-VoiceGenerator: “ออกแบบ” เสียงและตัวละครด้วยคำสั่ง
ในกระบวนการสร้างสรรค์มากมาย ผู้สร้างไม่เพียงต้องการ “เสียงของใครบางคน” แต่ต้องการเสียงตัวละครที่มีบุคลิก อารมณ์ และสถานะการแสดง
MOSS-VoiceGenerator ให้ความสามารถดังกล่าว:
- การแสดงออกและการเปลี่ยนแปลงทางอารมณ์ที่รุนแรงและเป็นธรรมชาติ
- การเปลี่ยนแปลงของสีเสียงและลมหายใจที่ใกล้เคียงกับสถานะการแสดงจริง
- ความรู้สึกถึงบทบาทที่ชัดเจน
MOSS-VoiceGenerator สามารถทำหน้าที่เป็น:
* เครื่องมือสร้างต้นแบบตัวละคร
* จุดเริ่มต้นของการออกแบบเสียงสำหรับ IP
* “ชั้นการออกแบบเสียง” ที่ใช้ร่วมกับ TTS / TTSD
ตัวอย่าง:
* ชายหนุ่ม พูดเหน็บแนม ยืดเสียง เต็มไปด้วยการเยาะเย้ย
* หญิงวัยกลางคน ร้องไห้คร่ำครวญด้วยความเจ็บปวดสุดขีด
MOSS-SoundEffect: สร้างเสียงแวดล้อมและเอฟเฟกต์เสียงโดยตรงจากคำอธิบายข้อความ
ประสบการณ์เสียงที่สมบูรณ์ไม่เพียงมาจาก “คนพูด” แต่ยังมาจากพื้นที่ การเคลื่อนไหว และสภาพแวดล้อม MOSS-SoundEffect สามารถเติมเต็มเอฟเฟกต์เสียงที่สมจริงในสถานการณ์ที่เหมาะสมตามคำอธิบายข้อความ รองรับประเภทเอฟเฟกต์เสียงที่สร้างได้ดังนี้:
- เสียงแวดล้อมทางธรรมชาติ: เช่น “เสียงดังกรอบแกรบจากการเดินบนหิมะใหม่”
- เสียงแวดล้อมในเมือง: เช่น “เสียงรถสปอร์ตวิ่งผ่านบนทางด่วน”
- เสียงสัตว์: เช่น “เสียงนกร้องในสวนยามเช้า บรรยากาศเงียบสงบ”
- เสียงกิจกรรมของมนุษย์: เช่น “เสียงฝีเท้าที่ชัดเจนก้องอยู่ในพื้นคอนกรีต เป็นจังหวะที่มั่นคง”
MOSS-TTS-Realtime: การสร้างเสียงพูดแบบสตรีมมิ่งสำหรับระบบเรียลไทม์
ในผู้ช่วยเสียง การสนทนาแบบเรียลไทม์ และระบบโต้ตอบ ความล่าช้าและความเสถียรมักสำคัญกว่า “คุณภาพเสียงสุดยอด”
ลักษณะเด่น:
* อินพุตข้อความแบบสตรีมมิ่ง เอาต์พุตเสียงแบบสตรีมมิ่ง
* เหมาะสมสำหรับใช้เป็นความสามารถเสริมเสียงให้กับ LLM
MOSS-TTS-Streaming เป็นส่วนที่เน้น “ความสามารถของระบบ” มากที่สุดในตระกูลโมเดล
การเปรียบเทียบแบบ Case-by-case: การเปรียบเทียบผลลัพธ์กับโมเดลปิดและโอเพ่นซอร์สอื่นๆ
ในขณะที่แสดงความสามารถของ MOSS-TTS Family เราได้นำโมเดลไปทดสอบในบริบทอุตสาหกรรมที่กว้างขึ้นด้วย เพื่อจุดประสงค์นี้ เราได้เลือกโมเดลการสร้างเสียงพูดปิดและโอเพ่นซอร์สที่เป็นตัวแทนหลายแบบ และทำการทดสอบเปรียบเทียบผลลัพธ์โมเดลแบบ case-by-case ภายใต้เงื่อนไขอินพุตที่ค่อนข้างเหมือนกัน เพื่อสังเกตความแตกต่างในการแสดงผลของระบบต่างๆ ในงานจริงได้อย่างเป็นกลางมากขึ้น
มิติการเปรียบเทียบรวมถึงแต่ไม่จำกัดเพียง:
* ความคล้ายคลึงและความสม่ำเสมอของสีเสียง
* ความเป็นธรรมชาติในการแสดงออกและความสามารถในการแสดงออก
* ความสามารถในการปรับใช้กับสถานการณ์
ตัวอย่างการเปรียบเทียบทั้งหมดสร้างขึ้นจากข้อความและเงื่อนไขอ้างอิงเดียวกันหรือเทียบเท่า โดยมีจุดมุ่งหมายเพื่อแสดงผลลัพธ์จริงของโมเดลต่างๆ ในสถานการณ์ใช้งานเฉพาะ ไม่ใช่ตัวชี้วัดเดียวหรือความประทับใจส่วนตัว
วิธีการทางเทคนิค
ความสามารถของ MOSS-TTS Family ถูกสร้างขึ้นบนพื้นฐานของการเลือกเทคโนโลยีอย่างเป็นระบบและการปฏิบัติทางวิศวกรรม แกนหลักของโมเดลนี้อยู่ที่การกลับไปสู่ปัจจัยสามประการที่สำคัญที่สุดในงานสร้างเสียง: Audio Tokenizer คุณภาพสูง ข้อมูลพรีเทรนขนาดใหญ่ คุณภาพสูงและหลากหลาย และวิธีการสร้างแบบจำลอง Token แบบไม่ต่อเนื่องที่มีประสิทธิภาพ การผสมผสานขององค์ประกอบเหล่านี้ทำให้เราสามารถบรรลุประสิทธิภาพล้ำสมัยด้วยวิธีการที่เรียบง่ายอย่างน่าประหลาดใจ: แบบจำลองอัตโนมัติถอยหลัง (autoregressive) ที่เรียบง่าย — สถาปัตยกรรมเรียบง่ายที่สุดเท่าที่จะเป็นไปได้ แต่ผลลัพธ์ทรงพลังเพียงพอ
Audio Tokenizer ประสิทธิภาพสูง เสริมฐานรากการสร้างเสียงคุณภาพสูง
- MOSS Audio Tokenizer เป็น audio tokenizer พารามิเตอร์ 1.6B ที่ใช้สถาปัตยกรรม Cat (Causal Audio Tokenizer with Transformer) โมเดลนี้มีเป้าหมายเพื่อให้อินเทอร์เฟซเสียงแบบไม่ต่อเนื่องที่เป็นหนึ่งเดียวสำหรับโมเดลเสียงขนาดใหญ่แบบอัตโนมัติถอยหลัง (autoregressive) โดยมีความสามารถในการสร้างใหม่แบบไม่สูญเสียข้อมูลและประสิทธิภาพการจัดแนวความหมายระหว่างเสียงและข้อความที่ยอดเยี่ยม
- คุณลักษณะทางเทคนิค:
- อัตราการบีบอัดสูงและอัตราบิตแปรผัน: รองรับการบีบอัดเสียง 24kHz ลงเหลือ 12.5 fps ขึ้นอยู่กับกลไก RVQ 32 ชั้น โมเดลสามารถปรับอัตราบิตได้อย่างยืดหยุ่นในช่วง 0.125-4kbps เพื่อตอบสนองความต้องการในการสร้างใหม่เสียงคุณภาพสูงในสถานการณ์ต่างๆ
- สถาปัตยกรรม Transformer แบบ Isomorphic ล้วน: ใช้การออกแบบ
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/22966
