การโต้ตอบ AI ก้าวข้าม “รูปแบบผลัดกันพูด”: ไมโครรอบ 200ms ให้โมเดลฟัง พูด และคิดไปพร้อมกัน
รูปแบบการโต้ตอบของ AI ในที่สุดก็突破了ข้อจำกัดของ “รูปแบบผลัดกันพูด”
Thinking Machines Lab (ต่อไปนี้จะเรียกว่า TML) เพิ่งเปิดตัวโมเดลแรกของตน โดยฝังความสามารถในการโต้ตอบแบบเรียลไทม์ไว้ในสถาปัตยกรรมดั้งเดิมของโมเดล
ผู้ร่วมก่อตั้ง Weng Li ออกมา演示ด้วยตนเอง แสดงให้เห็นถึงการเปลี่ยนแปลงที่颠覆นี้: จาก “คนพูดเสร็จ → AI ตอบ → คนพูดอีก → AI ตอบอีก” แบบดั้งเดิม วิวัฒนาการเป็น “คนและ AI สามารถสอดแทรกได้ทุกเมื่อ พูดจบ โค้ดก็เขียนเสร็จ”
เสียงและโค้ดถูกส่งออกพร้อมกัน ภารกิจสำเร็จและการสนทนาสิ้นสุดลงเกือบจะพร้อมกัน
จากข้อมูลการทดสอบ ความหน่วงในการตอบสนองของโมเดลนี้เร็วกว่า GPT-realtime-2.0 ถึง 4 เท่า และการประเมินคุณภาพการโต้ตอบก็领先กว่า GPT-realtime-2.0 เช่นกัน เฉพาะในด้านความฉลาดของโมเดลเท่านั้นที่ด้อยกว่าโหมด xhigh ของ GPT-2.0 เล็กน้อย

ในช่วงหลายเดือนที่ผ่านมา ทีมงานได้ฝึกโมเดลทั้งหมด 12 เวอร์ชัน และ留下了บันทึกการฝึกโดยละเอียด 137 หน้า

วันนี้ ห้องปฏิบัติการที่ก่อตั้งโดยอดีต CTO ของ OpenAI ได้ส่งมอบคำตอบแรกในที่สุด นั่นคือโมเดล TML-Interaction-Small
สิ่งนี้ทำให้โลกภายนอกเข้าใจความหมายที่แท้จริงของ “Thinking Machines” ได้อย่างแท้จริง: การรวมผู้ช่วยเสียง การเข้าใจวิดีโอ และการทำงานร่วมกันของ Agent เข้าด้วยกันในกรอบงานเดียวกัน
เพิ่มแบนด์วิดท์การโต้ตอบระหว่างมนุษย์กับเครื่อง: โมเดลฟัง พูด และคิดไปพร้อมกัน
ในการทำงานจริง ความต้องการหลายอย่างไม่สามารถอธิบายได้อย่างครบถ้วนและชัดเจนตั้งแต่เริ่มต้น
คุณอาจเปลี่ยนทิศทางกลางคัน เห็นผลลัพธ์แล้วเพิ่มเงื่อนไข พบว่าโมเดลเข้าใจคำบางคำผิด หรือแค่อยากสอดแทรกสักคำว่า “ไม่ใช่ความหมายนี้” ในจุดสำคัญ
หากมนุษย์สามารถสื่อสารกันได้ทางอีเมลเท่านั้น ประสิทธิภาพจะต่ำมาก
ปัจจุบัน จังหวะการโต้ตอบพื้นฐานของระบบ AI ส่วนใหญ่ก็คือรูปแบบผลัดกันพูดแบบ “อีเมล” นี้
เมื่อผู้ใช้ป้อนข้อมูล โมเดลจะอยู่ในสถานะรอ เมื่อโมเดลสร้างผลลัพธ์ การรับรู้ข้อมูลใหม่ของมันจะหยุดนิ่ง เว้นแต่จะถูกขัดจังหวะ强行 มันจะไม่สามารถรับรู้ว่าคุณกำลังทำอะไร เห็นอะไร หรือกำลังลังเลอะไร

รูปแบบนี้บีบอัดการทำงานร่วมกันระหว่างมนุษย์และ AI ไว้ในช่องทางที่แคบ ความรู้ ความตั้งใจ และการตัดสินใจของมนุษย์ส่วนใหญ่จะถูกช่องทางแคบแบบ “อีเมล” นี้รั่วไหลหายไป
ในขณะเดียวกัน ระบบ AI แบบผลัดกันพูดไม่สามารถรองรับการประมาณเวลาแม่นยำหรืองานเสียงแบบซิงโครนัสได้
ตัวอย่างเช่น AI ที่มีอยู่ไม่สามารถตอบคำถามเช่น: “ฉันวิ่งหนึ่งไมล์ใช้เวลานานเท่าไหร่?” “โปรดแก้ไขข้อผิดพลาดในการออกเสียงของฉัน” หรือ “ฉันเขียนฟังก์ชันนี้ใช้เวลานานเท่าไหร่?”
เพื่อแก้ปัญหาเหล่านี้ TML ให้ AI สามารถโต้ตอบแบบเรียลไทม์ในทุกโหมด โดยให้อินเทอร์เฟซปรับให้เข้ากับมนุษย์ ไม่ใช่ให้มนุษย์ปรับตัวเข้ากับอินเทอร์เฟซ

ปัจจุบัน โมเดล AI ส่วนใหญ่แก้ปัญหาการโต้ตอบโดยการติด harness ภายนอก ประกอบ VAD (การตรวจจับกิจกรรมเสียง), turn-detection, TTS และส่วนประกอบอื่นๆ เพื่อจำลองความรู้สึกแบบเรียลไทม์
TML เสนอ “Bitter Lesson” ใหม่:
ระบบที่ประกอบขึ้นเหล่านี้ ในระยะยาวจะถูก追平甚至超越โดยการขยายความสามารถทั่วไป
หากต้องการให้ความสามารถในการโต้ตอบขยายขนาดไปพร้อมกับความฉลาด ความสามารถในการโต้ตอบจะต้องถูกสร้างไว้ภายในตัวโมเดลเอง
แล้ว “การสร้างการโต้ตอบไว้ภายในโมเดล” นั้นทำได้อย่างไร?
ส่วนหน้าตอบสนองทันที ส่วนหลังประมวลผลงานหนัก
กลไกที่สำคัญที่สุดของโมเดลการโต้ตอบนี้ คือการแบ่งเสียง วิดีโอ และข้อความที่ต่อเนื่องกันออกเป็น “ไมโครรอบ” 200ms ทำให้อินพุตและเอาต์พุตสลับกันในเวลาและป้อนเข้าสู่โมเดลเดียวกัน

ความเงียบ การพูดทับซ้อน การแก้ไขตัวเองของผู้ใช้ การเปลี่ยนแปลงทางภาพ ฯลฯ ไม่ใช่สถานะภายนอกอีกต่อไป แต่เป็นบริบทที่โมเดลสามารถเรียนรู้และตอบสนองได้โดยตรง
วิธีเก่า: โมเดลรอรอบผู้ใช้ที่สมบูรณ์ แล้วสร้างการตอบสนองที่สมบูรณ์ ความรู้สึกแบบเรียลไทม์ขึ้นอยู่กับส่วนประกอบภายนอกในการตัดสินว่าใครควรพูด
วิธีใหม่: ประมวลผลอินพุตทุก 200ms พร้อมสร้างเอาต์พุต อินพุตและเอาต์พุตสลับกันเหมือนกระแส
สถาปัตยกรรมโดยรวมใช้การทำงานร่วมกันของสองโมเดล
โมเดลส่วนหน้าจะรับอินพุตใหม่ ตอบคำถามติดตาม และรักษาบริบทอย่างต่อเนื่อง โมเดลส่วนหลังจะดำเนินการอนุมานยาว การเรียกใช้เครื่องมือ และเวิร์กโฟลว์ Agent แบบอะซิงโครนัส
เมื่อพบงานที่ไม่สามารถคำนวณได้ทันที Interaction Model จะ打包บริบทการสนทนาที่สมบูรณ์ส่งไปให้ส่วนหลัง
ขณะที่ส่วนหลังกำลังคำนวณ ผลลัพธ์จะถูกสตรีมกลับมาแบบเรียลไทม์ และส่วนหน้าจะเลือกเวลาที่เหมาะสมในการแทรกผลลัพธ์ลงในการสนทนา
วิธีการหลักในขั้นตอนการฝึกคือ encoder-free early fusion
โมเดล multimodal ส่วนใหญ่จะฝึก encoder แยกต่างหาก (เช่น Whisper) หรือ decoder แยกต่างหาก (เช่น TTS)
วิธีการของ TML คือ:
การเข้ารหัสเสียงไม่ใช้ encoder แยกขนาดใหญ่ แต่ใช้ dMel บวกกับเลเยอร์ embedding แบบเบา ภาพถูกตัดเป็น patch ขนาด 40×40 และเข้ารหัสโดย hMLP เอาต์พุตเสียงถูกถอดรหัสโดย flow head
ส่วนประกอบทั้งหมดนี้ ถูกฝึกไปพร้อมกับ Transformer ตั้งแต่เริ่มต้น ทำให้พวกเขาแบ่งปันบริบทการโต้ตอบแบบเรียลไทม์ในขั้นตอนการฝึก

ความเร็วในการตอบสนอง 200ms ยังสร้างแรงกดดันทางวิศวกรรมอย่างมหาศาล
การร้องขอทุก 200ms หมายถึง prefill เล็กและ decode เล็กจำนวนมาก ไลบรารีการอนุมาน LLM แบบดั้งเดิมไม่擅长งาน小块ความถี่สูงแบบนี้ ค่าใช้จ่ายอาจถูกกลืนกินโดยการจัดการคำขอ การจัดสรรหน่วยความจำ และการคำนวณ metadata
TML จึงพัฒนาเลเยอร์ streaming sessions
客户端ยังคงส่งคำขอเป็น chunk 200ms ส่วนเซิร์ฟเวอร์จะ追加 chunk เหล่านี้ลงใน persistent sequence ในหน่วยความจำ GPU เพื่อหลีกเลี่ยงการจัดสรรซ้ำ ผู้เผยแพร่ยังกล่าวอีกว่าฟังก์ชันที่เกี่ยวข้องได้ถูกเผยแพร่ไปยัง SGLang แล้ว
ทำความรู้จัก Thinking Machines Lab ใหม่
ในอดีต เมื่อพูดถึงบริษัท Thinking Machines Lab ป้ายที่จำได้ง่ายที่สุดคือ: ในช่วงที่ผลิตภัณฑ์เป็น 0 รายได้เป็น 0 ก็ได้รับเงินทุนจำนวนมาก
Mira Murati ก่อตั้ง TML หลังจากลาออกจาก OpenAI และเสร็จสิ้นการระดมทุนรอบ seed มูลค่าประมาณ 2 พันล้านดอลลาร์สหรัฐ โดยมีมูลค่าบริษัทถึง 1.2 หมื่นล้านดอลลาร์สหรัฐ
ตัวเลขนี้สะดุดตามาก แต่เป็นเวลานานที่โลกภายนอกไม่ชัดเจนว่าบริษัทนี้จะทำอะไรกันแน่
เบาะแสที่ตามมาก็ดูค่อนข้าง分散
ด้านหนึ่งคือบุคลากร
ภายในปี 2026 TML มีพนักงานประมาณ 140 คน Meta เป็นแหล่งที่ดึงดูดพนักงานมากที่สุด ตั้งแต่ CTO Soumith Chintala ไปจนถึง Piotr Dollar ที่มีส่วนร่วมในงาน Segment Anything ไปจนถึงนักวิจัยหลายคนที่มีพื้นฐานด้าน FAIR, multimodal, การฝึก LLM ต่างก็เข้าร่วม TML
อีกด้านหนึ่งคือพลังการคำนวณ
ในเดือนมีนาคม 2026 TML ประกาศความร่วมมือระยะยาวกับ NVIDIA โดยวางแผนที่จะได้รับพลังการคำนวณอย่างน้อย 1GW ผ่านระบบ Vera Rubin และ NVIDIA ก็เข้าร่วมในการระดมทุนของ TML
ในวันที่ 22 เมษายน 2026 TML เซ็นสัญญาคลาวด์คอมพิวติ้งมูลค่าระดับหลักพันล้านดอลลาร์สหรัฐกับ Google เพื่อรับระบบที่ใช้ NVIDIA GB300 สำหรับการฝึกและ部署โมเดล
แต่เป็นเวลานาน ผลิตภัณฑ์ของพวกเขามีเพียงโครงสร้างพื้นฐานการฝึก Tinker

โมเดลการโต้ตอบที่เผยแพร่ครั้งนี้ เป็นครั้งแรกที่ TML แสดงเส้นทางเทคโนโลยีของตนอย่างสมบูรณ์: การผลักดันกระบวนทัศน์การโต้ตอบของ AI จากเปลือกผลิตภัณฑ์ ไปสู่ตัวโมเดล
การกระทำต่างๆ ก่อนหน้านี้ก็ชัดเจนขึ้น:
- 200ms ต้องการระบบการอนุมานที่มีความหน่วงต่ำ
- โมเดลการโต้ตอบส่วนหน้าและโมเดลส่วนหลังต้องการการฝึก การจัดตารางเวลา และชุดเครื่องมือที่เสถียร
- อินพุตและเอาต์พุตแบบเรียลไทม์ multimodal ต้องการฐานการฝึกและ部署ที่แข็งแกร่งขึ้น
- โมเดลขนาดใหญ่กว่าที่จะทำงานในสภาพแวดล้อมแบบเรียลไทม์นี้ จำเป็นต้องมีพลังการคำนวณเช่น GB300, Vera Rubin
สิ่งที่ TML ต้องการเดิมพันคืออินเทอร์เฟซการทำงานร่วมกันระหว่างมนุษย์กับเครื่องในยุคหน้า
Zitong Yang ปริญญาเอกจาก Stanford ที่เข้าร่วมทีมใหม่ในปีนี้ ยังได้设想การเขียนข้อมูล预训练ของโมเดลขนาดใหญ่ทั้งหมดใหม่เป็นร่องรอยของ Agent

TML-Interaction-Small ที่เผยแพร่ครั้งนี้เป็นเพียงก้าวแรก
ตามที่ผู้เผยแพร่介绍 มันเป็นโมเดล MoE ที่มีพารามิเตอร์ 276B และพารามิเตอร์ที่เปิดใช้งาน 12B ปัจจุบัน โมเดล预训练ขนาดใหญ่ยังไม่สามารถทำงานการโต้ตอบแบบเรียลไทม์ได้

โมเดลขนาดใหญ่กว่ามีแผนจะเผยแพร่ในช่วงปลายปีนี้
ลิงก์อ้างอิง:
[1]https://thinkingmachines.ai/blog/interaction-models/
[2]https://x.com/thinkymachines/status/2053938906689884279
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/34275
