ตั้งแต่ยุค iPhone 4S ปฏิสัมพันธ์ระหว่างมนุษย์กับเครื่องจักรยังคงอยู่ในรูปแบบ “ถาม-ตอบ” แบบรอบเดียว แม้ในปัจจุบันที่เทคโนโลยีเอเจนต์อัจฉริยะพัฒนาไปมาก สถานการณ์นี้ก็ยังไม่เปลี่ยนแปลง
ทำไมการสนทนากับเครื่องจักรถึงยังคงเป็นแบบถามทีละคำตอบทีละคำ ไม่สามารถเป็นไปอย่างเป็นธรรมชาติเหมือนการสื่อสารระหว่างมนุษย์?
แนวทางหลักของวงการในปัจจุบัน ยังคงเป็นการนำ VAD (Voice Activity Detection) มาครอบทับโมเดลขนาดใหญ่แบบ turn-based แบบดั้งเดิม เพื่อบังคับให้มันทำงานในสถานการณ์แบบเรียลไทม์
เมื่อไม่นานมานี้ Thinking Machines Lab ที่ได้รับการจับตามองอย่างมาก ได้เปิดตัวโมเดลขนาดใหญ่ตัวแรกนับตั้งแต่ก่อตั้ง นั่นคือ TML-Interaction-Small ซึ่งเป็นโมเดลแรกที่มีทั้งความฉลาด ความสามารถในการทำตามคำสั่ง และการโต้ตอบในตัว

โมเดลนี้สร้างความฮือฮาทันทีที่เปิดตัว พลิกรูปแบบปฏิสัมพันธ์ “ถาม-ตอบ” แบบเดิมอย่างสิ้นเชิง ทำให้สามารถส่งออกเสียง เนื้อหา และโค้ดพร้อมกันได้จริง บรรลุประสบการณ์การโต้ตอบที่เป็นธรรมชาติอย่างสมบูรณ์
“ผู้คนพูดคุย ฟัง ดู คิด และทำงานร่วมกันในเวลาเดียวกัน ทุกอย่างเกิดขึ้นแบบเรียลไทม์ เราออกแบบ AI ที่สามารถทำงานร่วมกับมนุษย์ในแบบเดียวกัน”
ที่น่าสนใจยิ่งกว่านั้นคือ Lilian Weng อดีตรองประธานฝ่ายวิจัยประยุกต์ของ OpenAI และผู้ร่วมก่อตั้ง Thinking Machines ได้ปรากฏตัวในวิดีโอสาธิตความสามารถหลักของโมเดลผ่านเรื่องราวที่ต่อเนื่อง
ตามคำอธิบายของ Thinking Machines อย่างเป็นทางการ: “ในระหว่างที่ Lilian เล่าเรื่อง โมเดลการโต้ตอบสามารถติดตามว่าเธอกำลังคิด ปล่อยให้ผู้อื่นพูด แก้ไขตัวเอง หรือเชิญชวนให้ตอบสนอง ตลอดกระบวนการไม่มีระบบจัดการบทสนทนาเฉพาะทางทำงานอยู่”
เธอเขียนบนแพลตฟอร์มโซเชียลว่า:

“ในช่วงหลายเดือนที่ผ่านมา เรามีความสนุกสนาน (และความกดดัน) มากมาย จนในที่สุดก็ผลิตได้ 12 เวอร์ชัน (บวกกับเวอร์ชันย่อยอีกมากมาย) และบันทึกการฝึก 137 หน้า ผลปรากฏว่า เพื่อให้มนุษย์และ AI ทำงานร่วมกันได้ดีขึ้น ก่อนอื่นต้องพึ่งพาความร่วมมือระหว่างมนุษย์ด้วยกัน”
Thinking Machines ได้เผยแพร่บล็อกเทคนิคที่อธิบายรายละเอียดทางเทคนิคของโมเดลอย่างละเอียด

- ลิงก์บล็อก: https://thinkingmachines.ai/blog/interaction-models/#introduction
นวัตกรรมหลัก: การผสาน “เวลา” เข้ากับสถาปัตยกรรมโมเดล
จากข้อมูลการประเมิน TML-Interaction-Small มีประสิทธิภาพเหนือกว่าคู่แข่งแบบปิดอย่าง GPT Realtime 2.0, Gemini 3.1 Flash Live ในตัวชี้วัดรวมของคุณภาพการโต้ตอบและความฉลาด ในการประเมินการรับรู้เวลาและความริเริ่มทางภาพแบบใหม่ ผลงานของมันทิ้งห่างอันดับสองในระดับเลขยกกำลัง

แนวหน้าของความฉลาดและการโต้ตอบ โมเดลนี้มีประสิทธิภาพยอดเยี่ยมในด้านคุณภาพการโต้ตอบ ขณะเดียวกันก็ฉลาดกว่าโมเดลที่ไม่ใช่ thinking ใดๆ โดยวัดจากความหน่วงของรอบระหว่างผู้ใช้และโมเดล ทำให้มีความเร็วในการตอบสนองที่ดีที่สุด
สาเหตุที่โมเดลการโต้ตอบนี้มีระดับความสามารถเช่นนี้ อยู่ที่กระบวนทัศน์การฝึกที่แตกต่างจากโมเดลขนาดใหญ่แบบดั้งเดิมอย่างสิ้นเชิง
200ms ต่อจังหวะ: ไมโครเทิร์นที่จัดแนวเวลา
อินพุตและเอาต์พุตของ LLM แบบดั้งเดิมถูก “ทำให้แบน” เป็นลำดับโทเค็นเส้นเดียว: คนพูดหนึ่งประโยค โมเดลตอบหนึ่งประโยค แล้ววนซ้ำ โมเดลไม่มีการรับรู้ถึงเวลาที่ผ่านไปในโลกจริง
วิธีการของ Thinking Machines คือ: การตัดเสียง วิดีโอ และข้อความทั้งสามรูปแบบเป็น chunk ละ 200ms ให้เป็น “ไมโครเทิร์น” (micro-turn) ที่ต่อเนื่องกัน ในแต่ละช่วงเวลา 200ms โมเดลจะประมวลผลอินพุตและสร้างเอาต์พุตไปพร้อมกัน ซึ่งหมายความว่า ขณะที่โมเดลฟังคุณพูด มันอาจกำลังสร้างการตอบสนอง เงียบ หรือแทรกคำติชม
ค่า 200ms ไม่ได้ถูกเลือกโดยบังเอิญ มันใกล้เคียงกับหน้าต่างธรรมชาติที่สั้นที่สุดของการรับรู้การได้ยินและการตอบสนองด้วยวาจาของมนุษย์ และเป็นขนาดเวลาที่ backchannel (เช่น “อืม” “ใช่” นิสัยการพูดเล็กๆ น้อยๆ) สามารถแทรกได้อย่างเป็นธรรมชาติ
ข้อดีโดยตรงของการออกแบบนี้คือ: สถานการณ์ต่างๆ เช่น “ความเงียบ” “การพูดทับ” “การขัดจังหวะ” ซึ่งก่อนหน้านี้ต้องใช้สคริปต์พิเศษในการจัดการ กลับกลายเป็นเอาต์พุตปกติของโมเดลเอง เมื่อจำเป็นต้องพูดก็สร้างโทเค็นเสียง เมื่อไม่จำเป็นต้องพูดก็สร้างโทเค็น “เงียบ” ซึ่งโดยพื้นฐานแล้วไม่แตกต่างจากการที่โมเดลตัดสินใจว่าโทเค็นข้อความถัดไปคืออะไร
ทิ้งเอนโค้ดเดอร์ ฝึกจากศูนย์
การออกแบบสำคัญที่สองคือ “encoder-free early fusion” (การหลอมรวมช่วงต้นโดยไม่มีเอนโค้ดเดอร์)
โมเดลหลายรูปแบบ (omni) กระแสหลัก มักจะต้องฝึกเอนโค้ดเดอร์เสียงที่คล้าย Whisper และดีโค้ดเดอร์ที่คล้าย TTS ก่อน แล้วจึงเชื่อมต่อเข้ากับแกนหลัก LLM ราคาของชุดนี้คือ: แต่ละส่วนประกอบต้องได้รับการปรับให้เหมาะสมและบำรุงรักษาแยกกัน และข้อมูลระหว่างรูปแบบต่างๆ มักจะสูญหายไปที่ขอบเขต
Thinking Machines ละทิ้งแนวคิดนี้โดยตรง:
- เสียงใช้การแสดงผลแบบ dMel ผ่านเลเยอร์ embedding ที่มีน้ำหนักเบาเข้าสู่แกนหลัก
- ภาพถูกตัดเป็น patch ขนาด 40×40 และเข้ารหัสโดยโมดูล hMLP
- ด้านดีโค้ดเสียงใช้ flow head เพื่อส่งออก mel spectrogram โดยตรง
- ส่วนประกอบทั้งหมดนี้ พร้อมกับแกนหลัก transformer ถูกฝึกแบบร่วมกันตั้งแต่เริ่มต้น
ซึ่งหมายความว่า ตั้งแต่วินาทีแรกของการฝึก โมเดลเรียนรู้ที่จะประสานสัญญาณทั้งสามรูปแบบ (เสียง วิดีโอ ข้อความ) ในกระแสการไล่ระดับเดียวกัน ข้อดีของการหลอมรวมช่วงต้นนั้นชัดเจน: เสียงหัวเราะในเสียง สีหน้าบนภาพ ความลังเลในข้อความ สามารถถูกจับได้ในเลเยอร์เดียวกัน แทนที่จะสูญเสียไปในสามโมดูลอิสระ
การทำงานร่วมกันของสองโมเดล: หน้าร้านเรียลไทม์ + สมองเบื้องหลัง
การออกแบบที่ชาญฉลาดชั้นที่สามคือสถาปัตยกรรมสองโมเดลในระดับระบบ
โมเดลการโต้ตอบรับผิดชอบ “現場” (สถานการณ์จริง) โดยต้องการการตอบสนองแบบเรียลไทม์ที่เข้มงวด ส่วนงานที่ต้องใช้การอนุมานเชิงลึก การค้นคืน หรือการเรียกใช้เครื่องมือจริงๆ จะถูกบรรจุเป็นบริบทที่สมบูรณ์และส่งไปยัง background model (โมเดลเบื้องหลัง) ที่ทำงานแบบอะซิงโครนัสเพื่อประมวลผล เมื่อผลลัพธ์กลับมา โมเดลการโต้ตอบจะเลือกจังหวะที่เหมาะสมเพื่อแทรกข้อมูลลงในการสนทนาปัจจุบันอย่างเป็นธรรมชาติ
“ให้ผู้ใช้เพลิดเพลินไปกับความฉลาดของโมเดล thinking และความหน่วงในการตอบสนองของโมเดล non-thinking ในเวลาเดียวกัน” นี่คือตำแหน่งที่ Thinking Machines กำหนดให้กับสถาปัตยกรรมนี้
เพื่อควบคุมความหน่วง 200ms ให้ถึงขีดสุด พวกเขายังได้ดำเนินการปรับแต่งทางวิศวกรรมที่หนักหน่วงอีกชุดหนึ่ง:
- พัฒนา streaming session inference mechanism ภายในองค์กร โดยได้ส่งหนึ่งเวอร์ชัน upstream ไปยัง SGLang แล้ว
- ใช้ gather+gemv แทน grouped gemm มาตรฐานเพื่อ implement MoE kernel ซึ่งเหมาะกับ tensor shape ของ bidirectional serving มากกว่า
- ทำให้ trainer และ sampler จัดตำแหน่งในระดับ bitwise เพื่อให้ได้ batch-invariant training โดยมีค่าใช้จ่าย end-to-end น้อยกว่า 5%
ประเด็นสุดท้ายนี้ควรค่าแก่การกล่าวถึงเป็นพิเศษ ในการฝึกโมเดลขนาดใหญ่ ความไม่สอดคล้องกันของ floating point ระหว่าง trainer และ sampler เป็น “กล่องดำลึกลับ” ในการดีบัก RL มาเป็นเวลานาน Thinking Machines เขียน kernel ใหม่บนเส้นทางสำคัญ เช่น NVLS communication และ Attention Split-KV ทำให้กลายเป็นปัญหาที่กำหนดได้อย่างสมบูรณ์
ผลการทดลอง
ข้อมูลเฉพาะนั้นน่าเชื่อถือ

ใน FD-bench v1.5 ที่วัดคุณภาพการโต้ตอบ TML-Interaction-Small ได้ 77.8 คะแนน ในขณะที่อันดับสอง Gemini-3.1-flash-live (minimal) ได้เพียง 54.3 คะแนน และ GPT-Realtime-2.0 (minimal) ได้ 46.8 คะแนน
ใน FD-bench v1 ที่วัดความหน่วงในการตอบสนองแบบ end-to-end TML ทำความหน่วงของการแปลงอย่างง่ายได้ 0.40 วินาที ในขณะที่ GPT-Realtime-2.0 (minimal) อยู่ที่ 1.18 วินาที และ Gemini-3.1-flash-live (minimal) อยู่ที่ 0.57 วินาที มันฉลาดกว่าและเร็วกว่าในเวลาเดียวกัน
เมื่อเพิ่ม background agent แล้ว Pass@1 ใน FD-bench v3 (Audio + Tools) สูงถึง 68.0% เทียบกับ GPT-2.0 (minimal) ที่ 52.0% และ GPT-2.0 (xhigh) ที่ 58.0% ยังคงเป็นอันดับหนึ่ง
ในด้านความฉลาด TML-Interaction-Small ได้ 43.4 คะแนนใน Audio MultiChallenge เกินกว่าโมเดล instant ทั้งหมด ใน BigBench Audio เมื่อเปิดใช้งาน background agent แล้วได้ 96.5% เกือบเท่ากับ GPT-Realtime-2.0 (xhigh) ที่ 96.6%

นอกเหนือจากการทดสอบมาตรฐานที่ใช้กันทั่วไปในวงการ Thinking Machines ยังได้ออกแบบระบบการประเมินใหม่ทั้งหมด โดยเน้นวัด “การรับรู้เวลา” และ “ความริเริ่มทางภาพ” ของโมเดล ในงานที่กำหนดเองเหล่านี้ ช่องว่างระหว่าง TML-Interaction-Small กับอันดับสองนั้นนำในระดับเลขยกกำลัง:
- TimeSpeak (พูดตามเวลาที่ผู้ใช้กำหนด): 64.7 vs 4.3
- CueSpeak (พูดแทรกในจังหวะความหมายที่เหมาะสม): 81.7 vs 2.9
- RepCount-A (การนับด้วยภาพ): 35.4 vs 1.3
- Charades (การระบุตำแหน่งช่วงเวลาของการกระทำด้วยภาพ): mIoU 32.4 vs 0
ทางบริษัทกล่าวในบล็อกอย่างตรงไปตรงมา: “ปัจจุบันไม่มีโมเดลใดที่มีอยู่แล้วสามารถทำงานเหล่านี้ได้อย่างมีความหมาย” โมเดลเปรียบเทียบทั้งหมดที่เข้าร่วมการประเมิน เงียบหรือให้คำตอบที่ผิด แม้แต่เวอร์ชัน thinking ที่เปิดโหมดการอนุมานสูงก็ไม่รอด

บทสรุป
ในเดือนกรกฎาคม 2025 Thinking Machines Lab ปิดดีลการระดมทุนที่สร้างความฮือฮาในซิลิคอนแวลลีย์: เงินลงทุนรอบ seed มูลค่าประมาณ 2 พันล้านดอลลาร์สหรัฐ มูลค่าบริษัทประมาณ 1.2 หมื่นล้านดอลลาร์สหรัฐ นี่เป็นหนึ่งในรอบ seed ที่ใหญ่ที่สุดเท่าที่มีการบันทึกสาธารณะ นำโดย a16z โดยมี Nvidia, Accel, ServiceNow, Cisco, AMD, Jane Street และอื่นๆ ร่วมลงทุน บริษัทที่ก่อตั้งมาไม่ถึงครึ่งปีและยังไม่ได้เปิดตัวผลิตภัณฑ์ใดๆ ได้รับมูลค่าบริษัทที่สูงกว่าเกณฑ์ยูนิคอร์นถึงสิบเท่า เพียงแค่จากชื่อเสียงด้านการวิจัยของทีมผู้ก่อตั้ง นี่เป็นเหตุการณ์สำคัญในวงการ AI
หลังจากนั้นเกือบหนึ่งปี Thinking Machines มีการเคลื่อนไหวภายนอกไม่มากนัก ส่วนใหญ่เผยแพร่ผลงานเป็นระยะผ่าน Connectionism บล็อกวิจัยของบริษัท บทความที่ได้รับความสนใจมากที่สุดคือ “Defeating Nondeterminism in LLM Inference” ที่เขียนโดย Horace He ซึ่งเจาะลึกถึงปัญหาความไม่แน่นอนในการอนุมานของโมเดลขนาดใหญ่ และยังเป็นรากฐานสำหรับการจัดตำแหน่ง trainer-sampler ในระดับ bitwise ที่กล่าวถึงใน Interaction Models ครั้งนี้
และการเปิดตัว Interaction Models ในครั้งนี้ เป็นครั้งแรกที่ Thinking Machines นำเสนอ “โมเดลขนาดใหญ่เรือธงที่พัฒนาขึ้นเอง” อย่างแท้จริง หลังจากแบกรับมูลค่าบริษัท 1.2 หมื่นล้านดอลลาร์มานานกว่าหนึ่งปี ในที่สุดพวกเขาก็ส่งมอบคำตอบแรกสู่สาธารณะ
TML-Interaction-Small เป็นเพียงจุดเริ่มต้น ทางบริษัทระบุอย่างชัดเจนว่า โมเดลขนาดใหญ่กว่าจะเปิดตัวภายในปีนี้ และวิธีการทำงานร่วมกันของ background agent “เพิ่งเริ่มต้นการสำรวจ”
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/34378
