OpenAI อดีต CTO เปิดตัวโมเดลโต้ตอบแบบเรียลไทม์: ไมโครรอบ 200ms ให้ AI ฟัง พูด และคิดไปพร้อมกัน

การโต้ตอบ AI ก้าวข้าม “รูปแบบผลัดกันพูด”: ไมโครรอบ 200ms ให้โมเดลฟัง พูด และคิดไปพร้อมกัน

รูปแบบการโต้ตอบของ AI ในที่สุดก็突破了ข้อจำกัดของ “รูปแบบผลัดกันพูด”

Thinking Machines Lab (ต่อไปนี้จะเรียกว่า TML) เพิ่งเปิดตัวโมเดลแรกของตน โดยฝังความสามารถในการโต้ตอบแบบเรียลไทม์ไว้ในสถาปัตยกรรมดั้งเดิมของโมเดล

ผู้ร่วมก่อตั้ง Weng Li ออกมา演示ด้วยตนเอง แสดงให้เห็นถึงการเปลี่ยนแปลงที่颠覆นี้: จาก “คนพูดเสร็จ → AI ตอบ → คนพูดอีก → AI ตอบอีก” แบบดั้งเดิม วิวัฒนาการเป็น “คนและ AI สามารถสอดแทรกได้ทุกเมื่อ พูดจบ โค้ดก็เขียนเสร็จ”

เสียงและโค้ดถูกส่งออกพร้อมกัน ภารกิจสำเร็จและการสนทนาสิ้นสุดลงเกือบจะพร้อมกัน

จากข้อมูลการทดสอบ ความหน่วงในการตอบสนองของโมเดลนี้เร็วกว่า GPT-realtime-2.0 ถึง 4 เท่า และการประเมินคุณภาพการโต้ตอบก็领先กว่า GPT-realtime-2.0 เช่นกัน เฉพาะในด้านความฉลาดของโมเดลเท่านั้นที่ด้อยกว่าโหมด xhigh ของ GPT-2.0 เล็กน้อย

OpenAI อดีต CTO เปิดตัวโมเดลโต้ตอบแบบเรียลไทม์: ไมโครรอบ 200ms ให้ AI ฟัง พูด และคิดไปพร้อมกัน

ในช่วงหลายเดือนที่ผ่านมา ทีมงานได้ฝึกโมเดลทั้งหมด 12 เวอร์ชัน และ留下了บันทึกการฝึกโดยละเอียด 137 หน้า

OpenAI อดีต CTO เปิดตัวโมเดลโต้ตอบแบบเรียลไทม์: ไมโครรอบ 200ms ให้ AI ฟัง พูด และคิดไปพร้อมกัน

วันนี้ ห้องปฏิบัติการที่ก่อตั้งโดยอดีต CTO ของ OpenAI ได้ส่งมอบคำตอบแรกในที่สุด นั่นคือโมเดล TML-Interaction-Small

สิ่งนี้ทำให้โลกภายนอกเข้าใจความหมายที่แท้จริงของ “Thinking Machines” ได้อย่างแท้จริง: การรวมผู้ช่วยเสียง การเข้าใจวิดีโอ และการทำงานร่วมกันของ Agent เข้าด้วยกันในกรอบงานเดียวกัน


เพิ่มแบนด์วิดท์การโต้ตอบระหว่างมนุษย์กับเครื่อง: โมเดลฟัง พูด และคิดไปพร้อมกัน

ในการทำงานจริง ความต้องการหลายอย่างไม่สามารถอธิบายได้อย่างครบถ้วนและชัดเจนตั้งแต่เริ่มต้น

คุณอาจเปลี่ยนทิศทางกลางคัน เห็นผลลัพธ์แล้วเพิ่มเงื่อนไข พบว่าโมเดลเข้าใจคำบางคำผิด หรือแค่อยากสอดแทรกสักคำว่า “ไม่ใช่ความหมายนี้” ในจุดสำคัญ

หากมนุษย์สามารถสื่อสารกันได้ทางอีเมลเท่านั้น ประสิทธิภาพจะต่ำมาก

ปัจจุบัน จังหวะการโต้ตอบพื้นฐานของระบบ AI ส่วนใหญ่ก็คือรูปแบบผลัดกันพูดแบบ “อีเมล” นี้

เมื่อผู้ใช้ป้อนข้อมูล โมเดลจะอยู่ในสถานะรอ เมื่อโมเดลสร้างผลลัพธ์ การรับรู้ข้อมูลใหม่ของมันจะหยุดนิ่ง เว้นแต่จะถูกขัดจังหวะ强行 มันจะไม่สามารถรับรู้ว่าคุณกำลังทำอะไร เห็นอะไร หรือกำลังลังเลอะไร

OpenAI อดีต CTO เปิดตัวโมเดลโต้ตอบแบบเรียลไทม์: ไมโครรอบ 200ms ให้ AI ฟัง พูด และคิดไปพร้อมกัน

รูปแบบนี้บีบอัดการทำงานร่วมกันระหว่างมนุษย์และ AI ไว้ในช่องทางที่แคบ ความรู้ ความตั้งใจ และการตัดสินใจของมนุษย์ส่วนใหญ่จะถูกช่องทางแคบแบบ “อีเมล” นี้รั่วไหลหายไป

ในขณะเดียวกัน ระบบ AI แบบผลัดกันพูดไม่สามารถรองรับการประมาณเวลาแม่นยำหรืองานเสียงแบบซิงโครนัสได้

ตัวอย่างเช่น AI ที่มีอยู่ไม่สามารถตอบคำถามเช่น: “ฉันวิ่งหนึ่งไมล์ใช้เวลานานเท่าไหร่?” “โปรดแก้ไขข้อผิดพลาดในการออกเสียงของฉัน” หรือ “ฉันเขียนฟังก์ชันนี้ใช้เวลานานเท่าไหร่?”

เพื่อแก้ปัญหาเหล่านี้ TML ให้ AI สามารถโต้ตอบแบบเรียลไทม์ในทุกโหมด โดยให้อินเทอร์เฟซปรับให้เข้ากับมนุษย์ ไม่ใช่ให้มนุษย์ปรับตัวเข้ากับอินเทอร์เฟซ

OpenAI อดีต CTO เปิดตัวโมเดลโต้ตอบแบบเรียลไทม์: ไมโครรอบ 200ms ให้ AI ฟัง พูด และคิดไปพร้อมกัน

ปัจจุบัน โมเดล AI ส่วนใหญ่แก้ปัญหาการโต้ตอบโดยการติด harness ภายนอก ประกอบ VAD (การตรวจจับกิจกรรมเสียง), turn-detection, TTS และส่วนประกอบอื่นๆ เพื่อจำลองความรู้สึกแบบเรียลไทม์

TML เสนอ “Bitter Lesson” ใหม่:

ระบบที่ประกอบขึ้นเหล่านี้ ในระยะยาวจะถูก追平甚至超越โดยการขยายความสามารถทั่วไป
หากต้องการให้ความสามารถในการโต้ตอบขยายขนาดไปพร้อมกับความฉลาด ความสามารถในการโต้ตอบจะต้องถูกสร้างไว้ภายในตัวโมเดลเอง

แล้ว “การสร้างการโต้ตอบไว้ภายในโมเดล” นั้นทำได้อย่างไร?


ส่วนหน้าตอบสนองทันที ส่วนหลังประมวลผลงานหนัก

กลไกที่สำคัญที่สุดของโมเดลการโต้ตอบนี้ คือการแบ่งเสียง วิดีโอ และข้อความที่ต่อเนื่องกันออกเป็น “ไมโครรอบ” 200ms ทำให้อินพุตและเอาต์พุตสลับกันในเวลาและป้อนเข้าสู่โมเดลเดียวกัน

OpenAI อดีต CTO เปิดตัวโมเดลโต้ตอบแบบเรียลไทม์: ไมโครรอบ 200ms ให้ AI ฟัง พูด และคิดไปพร้อมกัน

ความเงียบ การพูดทับซ้อน การแก้ไขตัวเองของผู้ใช้ การเปลี่ยนแปลงทางภาพ ฯลฯ ไม่ใช่สถานะภายนอกอีกต่อไป แต่เป็นบริบทที่โมเดลสามารถเรียนรู้และตอบสนองได้โดยตรง

วิธีเก่า: โมเดลรอรอบผู้ใช้ที่สมบูรณ์ แล้วสร้างการตอบสนองที่สมบูรณ์ ความรู้สึกแบบเรียลไทม์ขึ้นอยู่กับส่วนประกอบภายนอกในการตัดสินว่าใครควรพูด

วิธีใหม่: ประมวลผลอินพุตทุก 200ms พร้อมสร้างเอาต์พุต อินพุตและเอาต์พุตสลับกันเหมือนกระแส

สถาปัตยกรรมโดยรวมใช้การทำงานร่วมกันของสองโมเดล

โมเดลส่วนหน้าจะรับอินพุตใหม่ ตอบคำถามติดตาม และรักษาบริบทอย่างต่อเนื่อง โมเดลส่วนหลังจะดำเนินการอนุมานยาว การเรียกใช้เครื่องมือ และเวิร์กโฟลว์ Agent แบบอะซิงโครนัส

เมื่อพบงานที่ไม่สามารถคำนวณได้ทันที Interaction Model จะ打包บริบทการสนทนาที่สมบูรณ์ส่งไปให้ส่วนหลัง
ขณะที่ส่วนหลังกำลังคำนวณ ผลลัพธ์จะถูกสตรีมกลับมาแบบเรียลไทม์ และส่วนหน้าจะเลือกเวลาที่เหมาะสมในการแทรกผลลัพธ์ลงในการสนทนา

วิธีการหลักในขั้นตอนการฝึกคือ encoder-free early fusion

โมเดล multimodal ส่วนใหญ่จะฝึก encoder แยกต่างหาก (เช่น Whisper) หรือ decoder แยกต่างหาก (เช่น TTS)

วิธีการของ TML คือ:

การเข้ารหัสเสียงไม่ใช้ encoder แยกขนาดใหญ่ แต่ใช้ dMel บวกกับเลเยอร์ embedding แบบเบา ภาพถูกตัดเป็น patch ขนาด 40×40 และเข้ารหัสโดย hMLP เอาต์พุตเสียงถูกถอดรหัสโดย flow head

ส่วนประกอบทั้งหมดนี้ ถูกฝึกไปพร้อมกับ Transformer ตั้งแต่เริ่มต้น ทำให้พวกเขาแบ่งปันบริบทการโต้ตอบแบบเรียลไทม์ในขั้นตอนการฝึก

OpenAI อดีต CTO เปิดตัวโมเดลโต้ตอบแบบเรียลไทม์: ไมโครรอบ 200ms ให้ AI ฟัง พูด และคิดไปพร้อมกัน

ความเร็วในการตอบสนอง 200ms ยังสร้างแรงกดดันทางวิศวกรรมอย่างมหาศาล

การร้องขอทุก 200ms หมายถึง prefill เล็กและ decode เล็กจำนวนมาก ไลบรารีการอนุมาน LLM แบบดั้งเดิมไม่擅长งาน小块ความถี่สูงแบบนี้ ค่าใช้จ่ายอาจถูกกลืนกินโดยการจัดการคำขอ การจัดสรรหน่วยความจำ และการคำนวณ metadata

TML จึงพัฒนาเลเยอร์ streaming sessions

客户端ยังคงส่งคำขอเป็น chunk 200ms ส่วนเซิร์ฟเวอร์จะ追加 chunk เหล่านี้ลงใน persistent sequence ในหน่วยความจำ GPU เพื่อหลีกเลี่ยงการจัดสรรซ้ำ ผู้เผยแพร่ยังกล่าวอีกว่าฟังก์ชันที่เกี่ยวข้องได้ถูกเผยแพร่ไปยัง SGLang แล้ว


ทำความรู้จัก Thinking Machines Lab ใหม่

ในอดีต เมื่อพูดถึงบริษัท Thinking Machines Lab ป้ายที่จำได้ง่ายที่สุดคือ: ในช่วงที่ผลิตภัณฑ์เป็น 0 รายได้เป็น 0 ก็ได้รับเงินทุนจำนวนมาก

Mira Murati ก่อตั้ง TML หลังจากลาออกจาก OpenAI และเสร็จสิ้นการระดมทุนรอบ seed มูลค่าประมาณ 2 พันล้านดอลลาร์สหรัฐ โดยมีมูลค่าบริษัทถึง 1.2 หมื่นล้านดอลลาร์สหรัฐ

ตัวเลขนี้สะดุดตามาก แต่เป็นเวลานานที่โลกภายนอกไม่ชัดเจนว่าบริษัทนี้จะทำอะไรกันแน่

เบาะแสที่ตามมาก็ดูค่อนข้าง分散

ด้านหนึ่งคือบุคลากร

ภายในปี 2026 TML มีพนักงานประมาณ 140 คน Meta เป็นแหล่งที่ดึงดูดพนักงานมากที่สุด ตั้งแต่ CTO Soumith Chintala ไปจนถึง Piotr Dollar ที่มีส่วนร่วมในงาน Segment Anything ไปจนถึงนักวิจัยหลายคนที่มีพื้นฐานด้าน FAIR, multimodal, การฝึก LLM ต่างก็เข้าร่วม TML

อีกด้านหนึ่งคือพลังการคำนวณ

ในเดือนมีนาคม 2026 TML ประกาศความร่วมมือระยะยาวกับ NVIDIA โดยวางแผนที่จะได้รับพลังการคำนวณอย่างน้อย 1GW ผ่านระบบ Vera Rubin และ NVIDIA ก็เข้าร่วมในการระดมทุนของ TML

ในวันที่ 22 เมษายน 2026 TML เซ็นสัญญาคลาวด์คอมพิวติ้งมูลค่าระดับหลักพันล้านดอลลาร์สหรัฐกับ Google เพื่อรับระบบที่ใช้ NVIDIA GB300 สำหรับการฝึกและ部署โมเดล

แต่เป็นเวลานาน ผลิตภัณฑ์ของพวกเขามีเพียงโครงสร้างพื้นฐานการฝึก Tinker

OpenAI อดีต CTO เปิดตัวโมเดลโต้ตอบแบบเรียลไทม์: ไมโครรอบ 200ms ให้ AI ฟัง พูด และคิดไปพร้อมกัน

โมเดลการโต้ตอบที่เผยแพร่ครั้งนี้ เป็นครั้งแรกที่ TML แสดงเส้นทางเทคโนโลยีของตนอย่างสมบูรณ์: การผลักดันกระบวนทัศน์การโต้ตอบของ AI จากเปลือกผลิตภัณฑ์ ไปสู่ตัวโมเดล

การกระทำต่างๆ ก่อนหน้านี้ก็ชัดเจนขึ้น:

  • 200ms ต้องการระบบการอนุมานที่มีความหน่วงต่ำ
  • โมเดลการโต้ตอบส่วนหน้าและโมเดลส่วนหลังต้องการการฝึก การจัดตารางเวลา และชุดเครื่องมือที่เสถียร
  • อินพุตและเอาต์พุตแบบเรียลไทม์ multimodal ต้องการฐานการฝึกและ部署ที่แข็งแกร่งขึ้น
  • โมเดลขนาดใหญ่กว่าที่จะทำงานในสภาพแวดล้อมแบบเรียลไทม์นี้ จำเป็นต้องมีพลังการคำนวณเช่น GB300, Vera Rubin

สิ่งที่ TML ต้องการเดิมพันคืออินเทอร์เฟซการทำงานร่วมกันระหว่างมนุษย์กับเครื่องในยุคหน้า

Zitong Yang ปริญญาเอกจาก Stanford ที่เข้าร่วมทีมใหม่ในปีนี้ ยังได้设想การเขียนข้อมูล预训练ของโมเดลขนาดใหญ่ทั้งหมดใหม่เป็นร่องรอยของ Agent

OpenAI อดีต CTO เปิดตัวโมเดลโต้ตอบแบบเรียลไทม์: ไมโครรอบ 200ms ให้ AI ฟัง พูด และคิดไปพร้อมกัน

TML-Interaction-Small ที่เผยแพร่ครั้งนี้เป็นเพียงก้าวแรก

ตามที่ผู้เผยแพร่介绍 มันเป็นโมเดล MoE ที่มีพารามิเตอร์ 276B และพารามิเตอร์ที่เปิดใช้งาน 12B ปัจจุบัน โมเดล预训练ขนาดใหญ่ยังไม่สามารถทำงานการโต้ตอบแบบเรียลไทม์ได้

OpenAI อดีต CTO เปิดตัวโมเดลโต้ตอบแบบเรียลไทม์: ไมโครรอบ 200ms ให้ AI ฟัง พูด และคิดไปพร้อมกัน

โมเดลขนาดใหญ่กว่ามีแผนจะเผยแพร่ในช่วงปลายปีนี้

ลิงก์อ้างอิง:
[1]https://thinkingmachines.ai/blog/interaction-models/
[2]https://x.com/thinkymachines/status/2053938906689884279


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/34275

Like (0)
Previous 17 hours ago
Next 17 hours ago

相关推荐