OpenAI อดีต CTO เปิดตัวโมเดลโต้ตอบแบบเรียลไทม์: ไมโครรอบ 200ms ให้ AI ฟัง พูด และคิดไปพร้อมกัน

17 hours ago • คลังสินค้า AI • 18 views

การโต้ตอบ AI ก้าวข้าม “รูปแบบผลัดกันพูด”: ไมโครรอบ 200ms ให้โมเดลฟัง พูด และคิดไปพร้อมกัน

รูปแบบการโต้ตอบของ AI ในที่สุดก็突破了ข้อจำกัดของ “รูปแบบผลัดกันพูด”

Thinking Machines Lab (ต่อไปนี้จะเรียกว่า TML) เพิ่งเปิดตัวโมเดลแรกของตน โดยฝังความสามารถในการโต้ตอบแบบเรียลไทม์ไว้ในสถาปัตยกรรมดั้งเดิมของโมเดล

ผู้ร่วมก่อตั้ง Weng Li ออกมา演示ด้วยตนเอง แสดงให้เห็นถึงการเปลี่ยนแปลงที่颠覆นี้: จาก “คนพูดเสร็จ → AI ตอบ → คนพูดอีก → AI ตอบอีก” แบบดั้งเดิม วิวัฒนาการเป็น “คนและ AI สามารถสอดแทรกได้ทุกเมื่อ พูดจบ โค้ดก็เขียนเสร็จ”

เสียงและโค้ดถูกส่งออกพร้อมกัน ภารกิจสำเร็จและการสนทนาสิ้นสุดลงเกือบจะพร้อมกัน

จากข้อมูลการทดสอบ ความหน่วงในการตอบสนองของโมเดลนี้เร็วกว่า GPT-realtime-2.0 ถึง 4 เท่า และการประเมินคุณภาพการโต้ตอบก็领先กว่า GPT-realtime-2.0 เช่นกัน เฉพาะในด้านความฉลาดของโมเดลเท่านั้นที่ด้อยกว่าโหมด xhigh ของ GPT-2.0 เล็กน้อย

OpenAI อดีต CTO เปิดตัวโมเดลโต้ตอบแบบเรียลไทม์: ไมโครรอบ 200ms ให้ AI ฟัง พูด และคิดไปพร้อมกัน

ในช่วงหลายเดือนที่ผ่านมา ทีมงานได้ฝึกโมเดลทั้งหมด 12 เวอร์ชัน และ留下了บันทึกการฝึกโดยละเอียด 137 หน้า

วันนี้ ห้องปฏิบัติการที่ก่อตั้งโดยอดีต CTO ของ OpenAI ได้ส่งมอบคำตอบแรกในที่สุด นั่นคือโมเดล TML-Interaction-Small

สิ่งนี้ทำให้โลกภายนอกเข้าใจความหมายที่แท้จริงของ “Thinking Machines” ได้อย่างแท้จริง: การรวมผู้ช่วยเสียง การเข้าใจวิดีโอ และการทำงานร่วมกันของ Agent เข้าด้วยกันในกรอบงานเดียวกัน

เพิ่มแบนด์วิดท์การโต้ตอบระหว่างมนุษย์กับเครื่อง: โมเดลฟัง พูด และคิดไปพร้อมกัน

ในการทำงานจริง ความต้องการหลายอย่างไม่สามารถอธิบายได้อย่างครบถ้วนและชัดเจนตั้งแต่เริ่มต้น

คุณอาจเปลี่ยนทิศทางกลางคัน เห็นผลลัพธ์แล้วเพิ่มเงื่อนไข พบว่าโมเดลเข้าใจคำบางคำผิด หรือแค่อยากสอดแทรกสักคำว่า “ไม่ใช่ความหมายนี้” ในจุดสำคัญ

หากมนุษย์สามารถสื่อสารกันได้ทางอีเมลเท่านั้น ประสิทธิภาพจะต่ำมาก

ปัจจุบัน จังหวะการโต้ตอบพื้นฐานของระบบ AI ส่วนใหญ่ก็คือรูปแบบผลัดกันพูดแบบ “อีเมล” นี้

เมื่อผู้ใช้ป้อนข้อมูล โมเดลจะอยู่ในสถานะรอ เมื่อโมเดลสร้างผลลัพธ์ การรับรู้ข้อมูลใหม่ของมันจะหยุดนิ่ง เว้นแต่จะถูกขัดจังหวะ强行 มันจะไม่สามารถรับรู้ว่าคุณกำลังทำอะไร เห็นอะไร หรือกำลังลังเลอะไร

รูปแบบนี้บีบอัดการทำงานร่วมกันระหว่างมนุษย์และ AI ไว้ในช่องทางที่แคบ ความรู้ ความตั้งใจ และการตัดสินใจของมนุษย์ส่วนใหญ่จะถูกช่องทางแคบแบบ “อีเมล” นี้รั่วไหลหายไป

ในขณะเดียวกัน ระบบ AI แบบผลัดกันพูดไม่สามารถรองรับการประมาณเวลาแม่นยำหรืองานเสียงแบบซิงโครนัสได้

ตัวอย่างเช่น AI ที่มีอยู่ไม่สามารถตอบคำถามเช่น: “ฉันวิ่งหนึ่งไมล์ใช้เวลานานเท่าไหร่?” “โปรดแก้ไขข้อผิดพลาดในการออกเสียงของฉัน” หรือ “ฉันเขียนฟังก์ชันนี้ใช้เวลานานเท่าไหร่?”

เพื่อแก้ปัญหาเหล่านี้ TML ให้ AI สามารถโต้ตอบแบบเรียลไทม์ในทุกโหมด โดยให้อินเทอร์เฟซปรับให้เข้ากับมนุษย์ ไม่ใช่ให้มนุษย์ปรับตัวเข้ากับอินเทอร์เฟซ

ปัจจุบัน โมเดล AI ส่วนใหญ่แก้ปัญหาการโต้ตอบโดยการติด harness ภายนอก ประกอบ VAD (การตรวจจับกิจกรรมเสียง), turn-detection, TTS และส่วนประกอบอื่นๆ เพื่อจำลองความรู้สึกแบบเรียลไทม์

TML เสนอ “Bitter Lesson” ใหม่:

ระบบที่ประกอบขึ้นเหล่านี้ ในระยะยาวจะถูก追平甚至超越โดยการขยายความสามารถทั่วไป
หากต้องการให้ความสามารถในการโต้ตอบขยายขนาดไปพร้อมกับความฉลาด ความสามารถในการโต้ตอบจะต้องถูกสร้างไว้ภายในตัวโมเดลเอง

แล้ว “การสร้างการโต้ตอบไว้ภายในโมเดล” นั้นทำได้อย่างไร?

ส่วนหน้าตอบสนองทันที ส่วนหลังประมวลผลงานหนัก

กลไกที่สำคัญที่สุดของโมเดลการโต้ตอบนี้ คือการแบ่งเสียง วิดีโอ และข้อความที่ต่อเนื่องกันออกเป็น “ไมโครรอบ” 200ms ทำให้อินพุตและเอาต์พุตสลับกันในเวลาและป้อนเข้าสู่โมเดลเดียวกัน

ความเงียบ การพูดทับซ้อน การแก้ไขตัวเองของผู้ใช้ การเปลี่ยนแปลงทางภาพ ฯลฯ ไม่ใช่สถานะภายนอกอีกต่อไป แต่เป็นบริบทที่โมเดลสามารถเรียนรู้และตอบสนองได้โดยตรง

วิธีเก่า: โมเดลรอรอบผู้ใช้ที่สมบูรณ์ แล้วสร้างการตอบสนองที่สมบูรณ์ ความรู้สึกแบบเรียลไทม์ขึ้นอยู่กับส่วนประกอบภายนอกในการตัดสินว่าใครควรพูด

วิธีใหม่: ประมวลผลอินพุตทุก 200ms พร้อมสร้างเอาต์พุต อินพุตและเอาต์พุตสลับกันเหมือนกระแส

สถาปัตยกรรมโดยรวมใช้การทำงานร่วมกันของสองโมเดล

โมเดลส่วนหน้าจะรับอินพุตใหม่ ตอบคำถามติดตาม และรักษาบริบทอย่างต่อเนื่อง โมเดลส่วนหลังจะดำเนินการอนุมานยาว การเรียกใช้เครื่องมือ และเวิร์กโฟลว์ Agent แบบอะซิงโครนัส

เมื่อพบงานที่ไม่สามารถคำนวณได้ทันที Interaction Model จะ打包บริบทการสนทนาที่สมบูรณ์ส่งไปให้ส่วนหลัง
ขณะที่ส่วนหลังกำลังคำนวณ ผลลัพธ์จะถูกสตรีมกลับมาแบบเรียลไทม์ และส่วนหน้าจะเลือกเวลาที่เหมาะสมในการแทรกผลลัพธ์ลงในการสนทนา

วิธีการหลักในขั้นตอนการฝึกคือ encoder-free early fusion

โมเดล multimodal ส่วนใหญ่จะฝึก encoder แยกต่างหาก (เช่น Whisper) หรือ decoder แยกต่างหาก (เช่น TTS)

วิธีการของ TML คือ:

การเข้ารหัสเสียงไม่ใช้ encoder แยกขนาดใหญ่ แต่ใช้ dMel บวกกับเลเยอร์ embedding แบบเบา ภาพถูกตัดเป็น patch ขนาด 40×40 และเข้ารหัสโดย hMLP เอาต์พุตเสียงถูกถอดรหัสโดย flow head

ส่วนประกอบทั้งหมดนี้ ถูกฝึกไปพร้อมกับ Transformer ตั้งแต่เริ่มต้น ทำให้พวกเขาแบ่งปันบริบทการโต้ตอบแบบเรียลไทม์ในขั้นตอนการฝึก

ความเร็วในการตอบสนอง 200ms ยังสร้างแรงกดดันทางวิศวกรรมอย่างมหาศาล

การร้องขอทุก 200ms หมายถึง prefill เล็กและ decode เล็กจำนวนมาก ไลบรารีการอนุมาน LLM แบบดั้งเดิมไม่擅长งาน小块ความถี่สูงแบบนี้ ค่าใช้จ่ายอาจถูกกลืนกินโดยการจัดการคำขอ การจัดสรรหน่วยความจำ และการคำนวณ metadata

TML จึงพัฒนาเลเยอร์ streaming sessions

客户端ยังคงส่งคำขอเป็น chunk 200ms ส่วนเซิร์ฟเวอร์จะ追加 chunk เหล่านี้ลงใน persistent sequence ในหน่วยความจำ GPU เพื่อหลีกเลี่ยงการจัดสรรซ้ำ ผู้เผยแพร่ยังกล่าวอีกว่าฟังก์ชันที่เกี่ยวข้องได้ถูกเผยแพร่ไปยัง SGLang แล้ว

ทำความรู้จัก Thinking Machines Lab ใหม่

ในอดีต เมื่อพูดถึงบริษัท Thinking Machines Lab ป้ายที่จำได้ง่ายที่สุดคือ: ในช่วงที่ผลิตภัณฑ์เป็น 0 รายได้เป็น 0 ก็ได้รับเงินทุนจำนวนมาก

Mira Murati ก่อตั้ง TML หลังจากลาออกจาก OpenAI และเสร็จสิ้นการระดมทุนรอบ seed มูลค่าประมาณ 2 พันล้านดอลลาร์สหรัฐ โดยมีมูลค่าบริษัทถึง 1.2 หมื่นล้านดอลลาร์สหรัฐ

ตัวเลขนี้สะดุดตามาก แต่เป็นเวลานานที่โลกภายนอกไม่ชัดเจนว่าบริษัทนี้จะทำอะไรกันแน่

เบาะแสที่ตามมาก็ดูค่อนข้าง分散

ด้านหนึ่งคือบุคลากร

ภายในปี 2026 TML มีพนักงานประมาณ 140 คน Meta เป็นแหล่งที่ดึงดูดพนักงานมากที่สุด ตั้งแต่ CTO Soumith Chintala ไปจนถึง Piotr Dollar ที่มีส่วนร่วมในงาน Segment Anything ไปจนถึงนักวิจัยหลายคนที่มีพื้นฐานด้าน FAIR, multimodal, การฝึก LLM ต่างก็เข้าร่วม TML

อีกด้านหนึ่งคือพลังการคำนวณ

ในเดือนมีนาคม 2026 TML ประกาศความร่วมมือระยะยาวกับ NVIDIA โดยวางแผนที่จะได้รับพลังการคำนวณอย่างน้อย 1GW ผ่านระบบ Vera Rubin และ NVIDIA ก็เข้าร่วมในการระดมทุนของ TML

ในวันที่ 22 เมษายน 2026 TML เซ็นสัญญาคลาวด์คอมพิวติ้งมูลค่าระดับหลักพันล้านดอลลาร์สหรัฐกับ Google เพื่อรับระบบที่ใช้ NVIDIA GB300 สำหรับการฝึกและ部署โมเดล

แต่เป็นเวลานาน ผลิตภัณฑ์ของพวกเขามีเพียงโครงสร้างพื้นฐานการฝึก Tinker

โมเดลการโต้ตอบที่เผยแพร่ครั้งนี้ เป็นครั้งแรกที่ TML แสดงเส้นทางเทคโนโลยีของตนอย่างสมบูรณ์: การผลักดันกระบวนทัศน์การโต้ตอบของ AI จากเปลือกผลิตภัณฑ์ ไปสู่ตัวโมเดล

การกระทำต่างๆ ก่อนหน้านี้ก็ชัดเจนขึ้น:

200ms ต้องการระบบการอนุมานที่มีความหน่วงต่ำ
โมเดลการโต้ตอบส่วนหน้าและโมเดลส่วนหลังต้องการการฝึก การจัดตารางเวลา และชุดเครื่องมือที่เสถียร
อินพุตและเอาต์พุตแบบเรียลไทม์ multimodal ต้องการฐานการฝึกและ部署ที่แข็งแกร่งขึ้น
โมเดลขนาดใหญ่กว่าที่จะทำงานในสภาพแวดล้อมแบบเรียลไทม์นี้ จำเป็นต้องมีพลังการคำนวณเช่น GB300, Vera Rubin

สิ่งที่ TML ต้องการเดิมพันคืออินเทอร์เฟซการทำงานร่วมกันระหว่างมนุษย์กับเครื่องในยุคหน้า

Zitong Yang ปริญญาเอกจาก Stanford ที่เข้าร่วมทีมใหม่ในปีนี้ ยังได้设想การเขียนข้อมูล预训练ของโมเดลขนาดใหญ่ทั้งหมดใหม่เป็นร่องรอยของ Agent

TML-Interaction-Small ที่เผยแพร่ครั้งนี้เป็นเพียงก้าวแรก

ตามที่ผู้เผยแพร่介绍 มันเป็นโมเดล MoE ที่มีพารามิเตอร์ 276B และพารามิเตอร์ที่เปิดใช้งาน 12B ปัจจุบัน โมเดล预训练ขนาดใหญ่ยังไม่สามารถทำงานการโต้ตอบแบบเรียลไทม์ได้

โมเดลขนาดใหญ่กว่ามีแผนจะเผยแพร่ในช่วงปลายปีนี้

ลิงก์อ้างอิง:
[1]https://thinkingmachines.ai/blog/interaction-models/
[2]https://x.com/thinkymachines/status/2053938906689884279

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/34275

Like (0)

0 0

OpenAI ไม่ขายแค่โมเดลอีกต่อไป! ตั้งบริษัทใหม่เพื่อปรับใช้ AI ได้รับเงินลงทุน 4 พันล้านดอลลาร์ มุ่งเป้าสู่ธุรกิจหลักขององค์กร

Previous 17 hours ago

快手เตรียมแยกธุรกิจ AI “Kling” จดทะเบียนตลาดหลักทรัพย์ มูลค่าประมาณ 2 หมื่นล้านดอลลาร์สหรัฐ ใกล้เคียง 70% ของมูลค่าบริษัทแม่

Next 17 hours ago

คลังสินค้า AI

รีวิวเชิงลึก Gemini 3.1 Pro Preview: ความเร็วตรรกะขึ้นแท่นสูงสุด ข้อได้เปรียบด้านต้นทุนลดลง เตรียมประลองศักดาเดือดกับ GPT-5.2

สรุปสั้นๆ: กษัตริย์และม้าครองโลกไปด้วยกัน สถานการณ์พื้นฐาน: การไล่ล่าของ Google และ OpenAI ในด้านโมเดลระดับสูงสุดนั้นดุเดือดเป็นพิเศษ สามเดือนก่อน Gemini 3 Pro เคยนำหน้า GPT-5 ในขณ…

2026年2月20日
255000
คลังสินค้า AI

Ali Meoo: สร้างแอปพลิเคชันโต้ตอบแบบเรียลไทม์ใน 1 นาทีโดยไม่ต้องเขียนโค้ด เครื่องมือพัฒนา AI ช่วยให้มือใหม่สามารถปล่อยผลิตภัณฑ์ได้อย่างง่ายดาย

อาลี Meoo: สร้างแอปพลิเคชันแบบเรียลไทม์ใน 1 นาทีโดยไม่ต้องเขียนโค้ด เครื่องมือพัฒนา AI ช่วยให้มือใหม่สามารถปล่อยผลิตภัณฑ์ได้อย่างง่ายดาย คุณหมายถึงว่ากำแพงโน้ตติดข้อความนี้ สร้างขึ…

2026年4月16日
94000
คลังสินค้า AI

เทนเซ็นต์เปิดตัว WorkBuddy Claw: ผู้ช่วย AI กุ้งเครย์ฟิชจุดกระแสการใช้งานทั่วประเทศ เชื่อมต่อได้ทันทีผ่าน WeChat, QQ และ WeCom

สัปดาห์ที่แล้ว มีผู้คนต่อแถวยาวเหยียดหน้ากระทรวงของบริษัท Tencent หลายพันคนรอคิวขอความช่วยเหลือจากวิศวกรในการติดตั้งและปรับใช้ผู้ช่วย AI ชื่อ “OpenClaw” เนื่องจากไอคอนข…

2026年3月12日
309000
คลังสินค้า AI

LibTV เปิดตัวอย่างยิ่งใหญ่: แพลตฟอร์มสร้างวิดีโอ AI แบบมุมมองคู่คน+Agent แห่งแรก, แคนวาสไร้ขีดจำกัด+เวิร์กโฟลว์โหนดพลิกโฉมวงการแบบดั้งเดิม

LibTV: แพลตฟอร์มสร้างวิดีโอ AI แบบมุมมองคู่ คน + Agent แรกของโลก เครื่องมือสร้างวิดีโอ AI แบบดั้งเดิมมักจะมุ่งเน้นเฉพาะที่การสร้างเนื้อหาเอง ในขณะที่ LibTV เสนอแนวคิดการออกแบบใหม่:…

2026年3月20日
269000
คลังสินค้า AI

โมเดลรวมโลก WALL-B เปิดตัว หุ่นยนต์สามารถเข้าใจโลกทางกายภาพได้เหมือนมนุษย์

ในฐานะบรรณาธิการเทคนิคมืออาชีพ ฉันจะเขียนเนื้อหาต้นฉบับใหม่ตามคำขอของคุณ การเขียนใหม่จะเน้นที่: 1. ลบข้อมูลโฆษณา (เช่น คิวอาร์โค้ดของบัญชีสาธารณะ ชื่อบรรณาธิการ ฯลฯ) 2. ปรับปรุงรูป…

2026年4月22日
105000

OpenAI อดีต CTO เปิดตัวโมเดลโต้ตอบแบบเรียลไทม์: ไมโครรอบ 200ms ให้ AI ฟัง พูด และคิดไปพร้อมกัน

การโต้ตอบ AI ก้าวข้าม “รูปแบบผลัดกันพูด”: ไมโครรอบ 200ms ให้โมเดลฟัง พูด และคิดไปพร้อมกัน

เพิ่มแบนด์วิดท์การโต้ตอบระหว่างมนุษย์กับเครื่อง: โมเดลฟัง พูด และคิดไปพร้อมกัน

ส่วนหน้าตอบสนองทันที ส่วนหลังประมวลผลงานหนัก

ทำความรู้จัก Thinking Machines Lab ใหม่

☕ สนับสนุนค่ากาแฟทีมงาน

相关推荐

เทนเซ็นต์เปิดตัว WorkBuddy Claw: ผู้ช่วย AI กุ้งเครย์ฟิชจุดกระแสการใช้งานทั่วประเทศ เชื่อมต่อได้ทันทีผ่าน WeChat, QQ และ WeCom

โมเดลรวมโลก WALL-B เปิดตัว หุ่นยนต์สามารถเข้าใจโลกทางกายภาพได้เหมือนมนุษย์