Thinking Machines Lab เปิดตัวโมเดลโต้ตอบรุ่นแรก TML-Interaction-Small ทำลายรูปแบบถาม-ตอบแบบเดิมระหว่างมนุษย์กับเครื่องจักรอย่างสิ้นเชิง

ตั้งแต่ยุค iPhone 4S ปฏิสัมพันธ์ระหว่างมนุษย์กับเครื่องจักรยังคงอยู่ในรูปแบบ “ถาม-ตอบ” แบบรอบเดียว แม้ในปัจจุบันที่เทคโนโลยีเอเจนต์อัจฉริยะพัฒนาไปมาก สถานการณ์นี้ก็ยังไม่เปลี่ยนแปลง

ทำไมการสนทนากับเครื่องจักรถึงยังคงเป็นแบบถามทีละคำตอบทีละคำ ไม่สามารถเป็นไปอย่างเป็นธรรมชาติเหมือนการสื่อสารระหว่างมนุษย์?

แนวทางหลักของวงการในปัจจุบัน ยังคงเป็นการนำ VAD (Voice Activity Detection) มาครอบทับโมเดลขนาดใหญ่แบบ turn-based แบบดั้งเดิม เพื่อบังคับให้มันทำงานในสถานการณ์แบบเรียลไทม์

เมื่อไม่นานมานี้ Thinking Machines Lab ที่ได้รับการจับตามองอย่างมาก ได้เปิดตัวโมเดลขนาดใหญ่ตัวแรกนับตั้งแต่ก่อตั้ง นั่นคือ TML-Interaction-Small ซึ่งเป็นโมเดลแรกที่มีทั้งความฉลาด ความสามารถในการทำตามคำสั่ง และการโต้ตอบในตัว

Thinking Machines Lab เปิดตัวโมเดลโต้ตอบรุ่นแรก TML-Interaction-Small ทำลายรูปแบบถาม-ตอบแบบเดิมระหว่างมนุษย์กับเครื่องจักรอย่างสิ้นเชิง

โมเดลนี้สร้างความฮือฮาทันทีที่เปิดตัว พลิกรูปแบบปฏิสัมพันธ์ “ถาม-ตอบ” แบบเดิมอย่างสิ้นเชิง ทำให้สามารถส่งออกเสียง เนื้อหา และโค้ดพร้อมกันได้จริง บรรลุประสบการณ์การโต้ตอบที่เป็นธรรมชาติอย่างสมบูรณ์

“ผู้คนพูดคุย ฟัง ดู คิด และทำงานร่วมกันในเวลาเดียวกัน ทุกอย่างเกิดขึ้นแบบเรียลไทม์ เราออกแบบ AI ที่สามารถทำงานร่วมกับมนุษย์ในแบบเดียวกัน”

ที่น่าสนใจยิ่งกว่านั้นคือ Lilian Weng อดีตรองประธานฝ่ายวิจัยประยุกต์ของ OpenAI และผู้ร่วมก่อตั้ง Thinking Machines ได้ปรากฏตัวในวิดีโอสาธิตความสามารถหลักของโมเดลผ่านเรื่องราวที่ต่อเนื่อง

ตามคำอธิบายของ Thinking Machines อย่างเป็นทางการ: “ในระหว่างที่ Lilian เล่าเรื่อง โมเดลการโต้ตอบสามารถติดตามว่าเธอกำลังคิด ปล่อยให้ผู้อื่นพูด แก้ไขตัวเอง หรือเชิญชวนให้ตอบสนอง ตลอดกระบวนการไม่มีระบบจัดการบทสนทนาเฉพาะทางทำงานอยู่”

เธอเขียนบนแพลตฟอร์มโซเชียลว่า:

Thinking Machines Lab เปิดตัวโมเดลโต้ตอบรุ่นแรก TML-Interaction-Small ทำลายรูปแบบถาม-ตอบแบบเดิมระหว่างมนุษย์กับเครื่องจักรอย่างสิ้นเชิง

“ในช่วงหลายเดือนที่ผ่านมา เรามีความสนุกสนาน (และความกดดัน) มากมาย จนในที่สุดก็ผลิตได้ 12 เวอร์ชัน (บวกกับเวอร์ชันย่อยอีกมากมาย) และบันทึกการฝึก 137 หน้า ผลปรากฏว่า เพื่อให้มนุษย์และ AI ทำงานร่วมกันได้ดีขึ้น ก่อนอื่นต้องพึ่งพาความร่วมมือระหว่างมนุษย์ด้วยกัน”

Thinking Machines ได้เผยแพร่บล็อกเทคนิคที่อธิบายรายละเอียดทางเทคนิคของโมเดลอย่างละเอียด

Thinking Machines Lab เปิดตัวโมเดลโต้ตอบรุ่นแรก TML-Interaction-Small ทำลายรูปแบบถาม-ตอบแบบเดิมระหว่างมนุษย์กับเครื่องจักรอย่างสิ้นเชิง

  • ลิงก์บล็อก: https://thinkingmachines.ai/blog/interaction-models/#introduction

นวัตกรรมหลัก: การผสาน “เวลา” เข้ากับสถาปัตยกรรมโมเดล

จากข้อมูลการประเมิน TML-Interaction-Small มีประสิทธิภาพเหนือกว่าคู่แข่งแบบปิดอย่าง GPT Realtime 2.0, Gemini 3.1 Flash Live ในตัวชี้วัดรวมของคุณภาพการโต้ตอบและความฉลาด ในการประเมินการรับรู้เวลาและความริเริ่มทางภาพแบบใหม่ ผลงานของมันทิ้งห่างอันดับสองในระดับเลขยกกำลัง

Thinking Machines Lab เปิดตัวโมเดลโต้ตอบรุ่นแรก TML-Interaction-Small ทำลายรูปแบบถาม-ตอบแบบเดิมระหว่างมนุษย์กับเครื่องจักรอย่างสิ้นเชิง

แนวหน้าของความฉลาดและการโต้ตอบ โมเดลนี้มีประสิทธิภาพยอดเยี่ยมในด้านคุณภาพการโต้ตอบ ขณะเดียวกันก็ฉลาดกว่าโมเดลที่ไม่ใช่ thinking ใดๆ โดยวัดจากความหน่วงของรอบระหว่างผู้ใช้และโมเดล ทำให้มีความเร็วในการตอบสนองที่ดีที่สุด

สาเหตุที่โมเดลการโต้ตอบนี้มีระดับความสามารถเช่นนี้ อยู่ที่กระบวนทัศน์การฝึกที่แตกต่างจากโมเดลขนาดใหญ่แบบดั้งเดิมอย่างสิ้นเชิง

200ms ต่อจังหวะ: ไมโครเทิร์นที่จัดแนวเวลา

อินพุตและเอาต์พุตของ LLM แบบดั้งเดิมถูก “ทำให้แบน” เป็นลำดับโทเค็นเส้นเดียว: คนพูดหนึ่งประโยค โมเดลตอบหนึ่งประโยค แล้ววนซ้ำ โมเดลไม่มีการรับรู้ถึงเวลาที่ผ่านไปในโลกจริง

วิธีการของ Thinking Machines คือ: การตัดเสียง วิดีโอ และข้อความทั้งสามรูปแบบเป็น chunk ละ 200ms ให้เป็น “ไมโครเทิร์น” (micro-turn) ที่ต่อเนื่องกัน ในแต่ละช่วงเวลา 200ms โมเดลจะประมวลผลอินพุตและสร้างเอาต์พุตไปพร้อมกัน ซึ่งหมายความว่า ขณะที่โมเดลฟังคุณพูด มันอาจกำลังสร้างการตอบสนอง เงียบ หรือแทรกคำติชม

ค่า 200ms ไม่ได้ถูกเลือกโดยบังเอิญ มันใกล้เคียงกับหน้าต่างธรรมชาติที่สั้นที่สุดของการรับรู้การได้ยินและการตอบสนองด้วยวาจาของมนุษย์ และเป็นขนาดเวลาที่ backchannel (เช่น “อืม” “ใช่” นิสัยการพูดเล็กๆ น้อยๆ) สามารถแทรกได้อย่างเป็นธรรมชาติ

ข้อดีโดยตรงของการออกแบบนี้คือ: สถานการณ์ต่างๆ เช่น “ความเงียบ” “การพูดทับ” “การขัดจังหวะ” ซึ่งก่อนหน้านี้ต้องใช้สคริปต์พิเศษในการจัดการ กลับกลายเป็นเอาต์พุตปกติของโมเดลเอง เมื่อจำเป็นต้องพูดก็สร้างโทเค็นเสียง เมื่อไม่จำเป็นต้องพูดก็สร้างโทเค็น “เงียบ” ซึ่งโดยพื้นฐานแล้วไม่แตกต่างจากการที่โมเดลตัดสินใจว่าโทเค็นข้อความถัดไปคืออะไร

ทิ้งเอนโค้ดเดอร์ ฝึกจากศูนย์

การออกแบบสำคัญที่สองคือ “encoder-free early fusion” (การหลอมรวมช่วงต้นโดยไม่มีเอนโค้ดเดอร์)

โมเดลหลายรูปแบบ (omni) กระแสหลัก มักจะต้องฝึกเอนโค้ดเดอร์เสียงที่คล้าย Whisper และดีโค้ดเดอร์ที่คล้าย TTS ก่อน แล้วจึงเชื่อมต่อเข้ากับแกนหลัก LLM ราคาของชุดนี้คือ: แต่ละส่วนประกอบต้องได้รับการปรับให้เหมาะสมและบำรุงรักษาแยกกัน และข้อมูลระหว่างรูปแบบต่างๆ มักจะสูญหายไปที่ขอบเขต

Thinking Machines ละทิ้งแนวคิดนี้โดยตรง:

  • เสียงใช้การแสดงผลแบบ dMel ผ่านเลเยอร์ embedding ที่มีน้ำหนักเบาเข้าสู่แกนหลัก
  • ภาพถูกตัดเป็น patch ขนาด 40×40 และเข้ารหัสโดยโมดูล hMLP
  • ด้านดีโค้ดเสียงใช้ flow head เพื่อส่งออก mel spectrogram โดยตรง
  • ส่วนประกอบทั้งหมดนี้ พร้อมกับแกนหลัก transformer ถูกฝึกแบบร่วมกันตั้งแต่เริ่มต้น

ซึ่งหมายความว่า ตั้งแต่วินาทีแรกของการฝึก โมเดลเรียนรู้ที่จะประสานสัญญาณทั้งสามรูปแบบ (เสียง วิดีโอ ข้อความ) ในกระแสการไล่ระดับเดียวกัน ข้อดีของการหลอมรวมช่วงต้นนั้นชัดเจน: เสียงหัวเราะในเสียง สีหน้าบนภาพ ความลังเลในข้อความ สามารถถูกจับได้ในเลเยอร์เดียวกัน แทนที่จะสูญเสียไปในสามโมดูลอิสระ

การทำงานร่วมกันของสองโมเดล: หน้าร้านเรียลไทม์ + สมองเบื้องหลัง

การออกแบบที่ชาญฉลาดชั้นที่สามคือสถาปัตยกรรมสองโมเดลในระดับระบบ

โมเดลการโต้ตอบรับผิดชอบ “現場” (สถานการณ์จริง) โดยต้องการการตอบสนองแบบเรียลไทม์ที่เข้มงวด ส่วนงานที่ต้องใช้การอนุมานเชิงลึก การค้นคืน หรือการเรียกใช้เครื่องมือจริงๆ จะถูกบรรจุเป็นบริบทที่สมบูรณ์และส่งไปยัง background model (โมเดลเบื้องหลัง) ที่ทำงานแบบอะซิงโครนัสเพื่อประมวลผล เมื่อผลลัพธ์กลับมา โมเดลการโต้ตอบจะเลือกจังหวะที่เหมาะสมเพื่อแทรกข้อมูลลงในการสนทนาปัจจุบันอย่างเป็นธรรมชาติ

“ให้ผู้ใช้เพลิดเพลินไปกับความฉลาดของโมเดล thinking และความหน่วงในการตอบสนองของโมเดล non-thinking ในเวลาเดียวกัน” นี่คือตำแหน่งที่ Thinking Machines กำหนดให้กับสถาปัตยกรรมนี้

เพื่อควบคุมความหน่วง 200ms ให้ถึงขีดสุด พวกเขายังได้ดำเนินการปรับแต่งทางวิศวกรรมที่หนักหน่วงอีกชุดหนึ่ง:

  • พัฒนา streaming session inference mechanism ภายในองค์กร โดยได้ส่งหนึ่งเวอร์ชัน upstream ไปยัง SGLang แล้ว
  • ใช้ gather+gemv แทน grouped gemm มาตรฐานเพื่อ implement MoE kernel ซึ่งเหมาะกับ tensor shape ของ bidirectional serving มากกว่า
  • ทำให้ trainer และ sampler จัดตำแหน่งในระดับ bitwise เพื่อให้ได้ batch-invariant training โดยมีค่าใช้จ่าย end-to-end น้อยกว่า 5%

ประเด็นสุดท้ายนี้ควรค่าแก่การกล่าวถึงเป็นพิเศษ ในการฝึกโมเดลขนาดใหญ่ ความไม่สอดคล้องกันของ floating point ระหว่าง trainer และ sampler เป็น “กล่องดำลึกลับ” ในการดีบัก RL มาเป็นเวลานาน Thinking Machines เขียน kernel ใหม่บนเส้นทางสำคัญ เช่น NVLS communication และ Attention Split-KV ทำให้กลายเป็นปัญหาที่กำหนดได้อย่างสมบูรณ์

ผลการทดลอง

ข้อมูลเฉพาะนั้นน่าเชื่อถือ

Thinking Machines Lab เปิดตัวโมเดลโต้ตอบรุ่นแรก TML-Interaction-Small ทำลายรูปแบบถาม-ตอบแบบเดิมระหว่างมนุษย์กับเครื่องจักรอย่างสิ้นเชิง

ใน FD-bench v1.5 ที่วัดคุณภาพการโต้ตอบ TML-Interaction-Small ได้ 77.8 คะแนน ในขณะที่อันดับสอง Gemini-3.1-flash-live (minimal) ได้เพียง 54.3 คะแนน และ GPT-Realtime-2.0 (minimal) ได้ 46.8 คะแนน

ใน FD-bench v1 ที่วัดความหน่วงในการตอบสนองแบบ end-to-end TML ทำความหน่วงของการแปลงอย่างง่ายได้ 0.40 วินาที ในขณะที่ GPT-Realtime-2.0 (minimal) อยู่ที่ 1.18 วินาที และ Gemini-3.1-flash-live (minimal) อยู่ที่ 0.57 วินาที มันฉลาดกว่าและเร็วกว่าในเวลาเดียวกัน

เมื่อเพิ่ม background agent แล้ว Pass@1 ใน FD-bench v3 (Audio + Tools) สูงถึง 68.0% เทียบกับ GPT-2.0 (minimal) ที่ 52.0% และ GPT-2.0 (xhigh) ที่ 58.0% ยังคงเป็นอันดับหนึ่ง

ในด้านความฉลาด TML-Interaction-Small ได้ 43.4 คะแนนใน Audio MultiChallenge เกินกว่าโมเดล instant ทั้งหมด ใน BigBench Audio เมื่อเปิดใช้งาน background agent แล้วได้ 96.5% เกือบเท่ากับ GPT-Realtime-2.0 (xhigh) ที่ 96.6%

Thinking Machines Lab เปิดตัวโมเดลโต้ตอบรุ่นแรก TML-Interaction-Small ทำลายรูปแบบถาม-ตอบแบบเดิมระหว่างมนุษย์กับเครื่องจักรอย่างสิ้นเชิง

นอกเหนือจากการทดสอบมาตรฐานที่ใช้กันทั่วไปในวงการ Thinking Machines ยังได้ออกแบบระบบการประเมินใหม่ทั้งหมด โดยเน้นวัด “การรับรู้เวลา” และ “ความริเริ่มทางภาพ” ของโมเดล ในงานที่กำหนดเองเหล่านี้ ช่องว่างระหว่าง TML-Interaction-Small กับอันดับสองนั้นนำในระดับเลขยกกำลัง:

  • TimeSpeak (พูดตามเวลาที่ผู้ใช้กำหนด): 64.7 vs 4.3
  • CueSpeak (พูดแทรกในจังหวะความหมายที่เหมาะสม): 81.7 vs 2.9
  • RepCount-A (การนับด้วยภาพ): 35.4 vs 1.3
  • Charades (การระบุตำแหน่งช่วงเวลาของการกระทำด้วยภาพ): mIoU 32.4 vs 0

ทางบริษัทกล่าวในบล็อกอย่างตรงไปตรงมา: “ปัจจุบันไม่มีโมเดลใดที่มีอยู่แล้วสามารถทำงานเหล่านี้ได้อย่างมีความหมาย” โมเดลเปรียบเทียบทั้งหมดที่เข้าร่วมการประเมิน เงียบหรือให้คำตอบที่ผิด แม้แต่เวอร์ชัน thinking ที่เปิดโหมดการอนุมานสูงก็ไม่รอด

Thinking Machines Lab เปิดตัวโมเดลโต้ตอบรุ่นแรก TML-Interaction-Small ทำลายรูปแบบถาม-ตอบแบบเดิมระหว่างมนุษย์กับเครื่องจักรอย่างสิ้นเชิง

บทสรุป

ในเดือนกรกฎาคม 2025 Thinking Machines Lab ปิดดีลการระดมทุนที่สร้างความฮือฮาในซิลิคอนแวลลีย์: เงินลงทุนรอบ seed มูลค่าประมาณ 2 พันล้านดอลลาร์สหรัฐ มูลค่าบริษัทประมาณ 1.2 หมื่นล้านดอลลาร์สหรัฐ นี่เป็นหนึ่งในรอบ seed ที่ใหญ่ที่สุดเท่าที่มีการบันทึกสาธารณะ นำโดย a16z โดยมี Nvidia, Accel, ServiceNow, Cisco, AMD, Jane Street และอื่นๆ ร่วมลงทุน บริษัทที่ก่อตั้งมาไม่ถึงครึ่งปีและยังไม่ได้เปิดตัวผลิตภัณฑ์ใดๆ ได้รับมูลค่าบริษัทที่สูงกว่าเกณฑ์ยูนิคอร์นถึงสิบเท่า เพียงแค่จากชื่อเสียงด้านการวิจัยของทีมผู้ก่อตั้ง นี่เป็นเหตุการณ์สำคัญในวงการ AI

หลังจากนั้นเกือบหนึ่งปี Thinking Machines มีการเคลื่อนไหวภายนอกไม่มากนัก ส่วนใหญ่เผยแพร่ผลงานเป็นระยะผ่าน Connectionism บล็อกวิจัยของบริษัท บทความที่ได้รับความสนใจมากที่สุดคือ “Defeating Nondeterminism in LLM Inference” ที่เขียนโดย Horace He ซึ่งเจาะลึกถึงปัญหาความไม่แน่นอนในการอนุมานของโมเดลขนาดใหญ่ และยังเป็นรากฐานสำหรับการจัดตำแหน่ง trainer-sampler ในระดับ bitwise ที่กล่าวถึงใน Interaction Models ครั้งนี้

และการเปิดตัว Interaction Models ในครั้งนี้ เป็นครั้งแรกที่ Thinking Machines นำเสนอ “โมเดลขนาดใหญ่เรือธงที่พัฒนาขึ้นเอง” อย่างแท้จริง หลังจากแบกรับมูลค่าบริษัท 1.2 หมื่นล้านดอลลาร์มานานกว่าหนึ่งปี ในที่สุดพวกเขาก็ส่งมอบคำตอบแรกสู่สาธารณะ

TML-Interaction-Small เป็นเพียงจุดเริ่มต้น ทางบริษัทระบุอย่างชัดเจนว่า โมเดลขนาดใหญ่กว่าจะเปิดตัวภายในปีนี้ และวิธีการทำงานร่วมกันของ background agent “เพิ่งเริ่มต้นการสำรวจ”


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/34378

Like (0)
Previous 12 hours ago
Next 12 hours ago

相关推荐