Thinking Machines Lab เปิดตัวโมเดลโต้ตอบรุ่นแรก TML-Interaction-Small ทำลายรูปแบบถาม-ตอบแบบเดิมระหว่างมนุษย์กับเครื่องจักรอย่างสิ้นเชิง

12 hours ago • ข่าวสารอุตสาหกรรม AI • 24 views

ตั้งแต่ยุค iPhone 4S ปฏิสัมพันธ์ระหว่างมนุษย์กับเครื่องจักรยังคงอยู่ในรูปแบบ “ถาม-ตอบ” แบบรอบเดียว แม้ในปัจจุบันที่เทคโนโลยีเอเจนต์อัจฉริยะพัฒนาไปมาก สถานการณ์นี้ก็ยังไม่เปลี่ยนแปลง

ทำไมการสนทนากับเครื่องจักรถึงยังคงเป็นแบบถามทีละคำตอบทีละคำ ไม่สามารถเป็นไปอย่างเป็นธรรมชาติเหมือนการสื่อสารระหว่างมนุษย์?

แนวทางหลักของวงการในปัจจุบัน ยังคงเป็นการนำ VAD (Voice Activity Detection) มาครอบทับโมเดลขนาดใหญ่แบบ turn-based แบบดั้งเดิม เพื่อบังคับให้มันทำงานในสถานการณ์แบบเรียลไทม์

เมื่อไม่นานมานี้ Thinking Machines Lab ที่ได้รับการจับตามองอย่างมาก ได้เปิดตัวโมเดลขนาดใหญ่ตัวแรกนับตั้งแต่ก่อตั้ง นั่นคือ TML-Interaction-Small ซึ่งเป็นโมเดลแรกที่มีทั้งความฉลาด ความสามารถในการทำตามคำสั่ง และการโต้ตอบในตัว

Thinking Machines Lab เปิดตัวโมเดลโต้ตอบรุ่นแรก TML-Interaction-Small ทำลายรูปแบบถาม-ตอบแบบเดิมระหว่างมนุษย์กับเครื่องจักรอย่างสิ้นเชิง

โมเดลนี้สร้างความฮือฮาทันทีที่เปิดตัว พลิกรูปแบบปฏิสัมพันธ์ “ถาม-ตอบ” แบบเดิมอย่างสิ้นเชิง ทำให้สามารถส่งออกเสียง เนื้อหา และโค้ดพร้อมกันได้จริง บรรลุประสบการณ์การโต้ตอบที่เป็นธรรมชาติอย่างสมบูรณ์

“ผู้คนพูดคุย ฟัง ดู คิด และทำงานร่วมกันในเวลาเดียวกัน ทุกอย่างเกิดขึ้นแบบเรียลไทม์ เราออกแบบ AI ที่สามารถทำงานร่วมกับมนุษย์ในแบบเดียวกัน”

ที่น่าสนใจยิ่งกว่านั้นคือ Lilian Weng อดีตรองประธานฝ่ายวิจัยประยุกต์ของ OpenAI และผู้ร่วมก่อตั้ง Thinking Machines ได้ปรากฏตัวในวิดีโอสาธิตความสามารถหลักของโมเดลผ่านเรื่องราวที่ต่อเนื่อง

ตามคำอธิบายของ Thinking Machines อย่างเป็นทางการ: “ในระหว่างที่ Lilian เล่าเรื่อง โมเดลการโต้ตอบสามารถติดตามว่าเธอกำลังคิด ปล่อยให้ผู้อื่นพูด แก้ไขตัวเอง หรือเชิญชวนให้ตอบสนอง ตลอดกระบวนการไม่มีระบบจัดการบทสนทนาเฉพาะทางทำงานอยู่”

เธอเขียนบนแพลตฟอร์มโซเชียลว่า:

“ในช่วงหลายเดือนที่ผ่านมา เรามีความสนุกสนาน (และความกดดัน) มากมาย จนในที่สุดก็ผลิตได้ 12 เวอร์ชัน (บวกกับเวอร์ชันย่อยอีกมากมาย) และบันทึกการฝึก 137 หน้า ผลปรากฏว่า เพื่อให้มนุษย์และ AI ทำงานร่วมกันได้ดีขึ้น ก่อนอื่นต้องพึ่งพาความร่วมมือระหว่างมนุษย์ด้วยกัน”

Thinking Machines ได้เผยแพร่บล็อกเทคนิคที่อธิบายรายละเอียดทางเทคนิคของโมเดลอย่างละเอียด

ลิงก์บล็อก: https://thinkingmachines.ai/blog/interaction-models/#introduction

นวัตกรรมหลัก: การผสาน “เวลา” เข้ากับสถาปัตยกรรมโมเดล

จากข้อมูลการประเมิน TML-Interaction-Small มีประสิทธิภาพเหนือกว่าคู่แข่งแบบปิดอย่าง GPT Realtime 2.0, Gemini 3.1 Flash Live ในตัวชี้วัดรวมของคุณภาพการโต้ตอบและความฉลาด ในการประเมินการรับรู้เวลาและความริเริ่มทางภาพแบบใหม่ ผลงานของมันทิ้งห่างอันดับสองในระดับเลขยกกำลัง

แนวหน้าของความฉลาดและการโต้ตอบ โมเดลนี้มีประสิทธิภาพยอดเยี่ยมในด้านคุณภาพการโต้ตอบ ขณะเดียวกันก็ฉลาดกว่าโมเดลที่ไม่ใช่ thinking ใดๆ โดยวัดจากความหน่วงของรอบระหว่างผู้ใช้และโมเดล ทำให้มีความเร็วในการตอบสนองที่ดีที่สุด

สาเหตุที่โมเดลการโต้ตอบนี้มีระดับความสามารถเช่นนี้ อยู่ที่กระบวนทัศน์การฝึกที่แตกต่างจากโมเดลขนาดใหญ่แบบดั้งเดิมอย่างสิ้นเชิง

200ms ต่อจังหวะ: ไมโครเทิร์นที่จัดแนวเวลา

อินพุตและเอาต์พุตของ LLM แบบดั้งเดิมถูก “ทำให้แบน” เป็นลำดับโทเค็นเส้นเดียว: คนพูดหนึ่งประโยค โมเดลตอบหนึ่งประโยค แล้ววนซ้ำ โมเดลไม่มีการรับรู้ถึงเวลาที่ผ่านไปในโลกจริง

วิธีการของ Thinking Machines คือ: การตัดเสียง วิดีโอ และข้อความทั้งสามรูปแบบเป็น chunk ละ 200ms ให้เป็น “ไมโครเทิร์น” (micro-turn) ที่ต่อเนื่องกัน ในแต่ละช่วงเวลา 200ms โมเดลจะประมวลผลอินพุตและสร้างเอาต์พุตไปพร้อมกัน ซึ่งหมายความว่า ขณะที่โมเดลฟังคุณพูด มันอาจกำลังสร้างการตอบสนอง เงียบ หรือแทรกคำติชม

ค่า 200ms ไม่ได้ถูกเลือกโดยบังเอิญ มันใกล้เคียงกับหน้าต่างธรรมชาติที่สั้นที่สุดของการรับรู้การได้ยินและการตอบสนองด้วยวาจาของมนุษย์ และเป็นขนาดเวลาที่ backchannel (เช่น “อืม” “ใช่” นิสัยการพูดเล็กๆ น้อยๆ) สามารถแทรกได้อย่างเป็นธรรมชาติ

ข้อดีโดยตรงของการออกแบบนี้คือ: สถานการณ์ต่างๆ เช่น “ความเงียบ” “การพูดทับ” “การขัดจังหวะ” ซึ่งก่อนหน้านี้ต้องใช้สคริปต์พิเศษในการจัดการ กลับกลายเป็นเอาต์พุตปกติของโมเดลเอง เมื่อจำเป็นต้องพูดก็สร้างโทเค็นเสียง เมื่อไม่จำเป็นต้องพูดก็สร้างโทเค็น “เงียบ” ซึ่งโดยพื้นฐานแล้วไม่แตกต่างจากการที่โมเดลตัดสินใจว่าโทเค็นข้อความถัดไปคืออะไร

ทิ้งเอนโค้ดเดอร์ ฝึกจากศูนย์

การออกแบบสำคัญที่สองคือ “encoder-free early fusion” (การหลอมรวมช่วงต้นโดยไม่มีเอนโค้ดเดอร์)

โมเดลหลายรูปแบบ (omni) กระแสหลัก มักจะต้องฝึกเอนโค้ดเดอร์เสียงที่คล้าย Whisper และดีโค้ดเดอร์ที่คล้าย TTS ก่อน แล้วจึงเชื่อมต่อเข้ากับแกนหลัก LLM ราคาของชุดนี้คือ: แต่ละส่วนประกอบต้องได้รับการปรับให้เหมาะสมและบำรุงรักษาแยกกัน และข้อมูลระหว่างรูปแบบต่างๆ มักจะสูญหายไปที่ขอบเขต

Thinking Machines ละทิ้งแนวคิดนี้โดยตรง:

เสียงใช้การแสดงผลแบบ dMel ผ่านเลเยอร์ embedding ที่มีน้ำหนักเบาเข้าสู่แกนหลัก
ภาพถูกตัดเป็น patch ขนาด 40×40 และเข้ารหัสโดยโมดูล hMLP
ด้านดีโค้ดเสียงใช้ flow head เพื่อส่งออก mel spectrogram โดยตรง
ส่วนประกอบทั้งหมดนี้ พร้อมกับแกนหลัก transformer ถูกฝึกแบบร่วมกันตั้งแต่เริ่มต้น

ซึ่งหมายความว่า ตั้งแต่วินาทีแรกของการฝึก โมเดลเรียนรู้ที่จะประสานสัญญาณทั้งสามรูปแบบ (เสียง วิดีโอ ข้อความ) ในกระแสการไล่ระดับเดียวกัน ข้อดีของการหลอมรวมช่วงต้นนั้นชัดเจน: เสียงหัวเราะในเสียง สีหน้าบนภาพ ความลังเลในข้อความ สามารถถูกจับได้ในเลเยอร์เดียวกัน แทนที่จะสูญเสียไปในสามโมดูลอิสระ

การทำงานร่วมกันของสองโมเดล: หน้าร้านเรียลไทม์ + สมองเบื้องหลัง

การออกแบบที่ชาญฉลาดชั้นที่สามคือสถาปัตยกรรมสองโมเดลในระดับระบบ

โมเดลการโต้ตอบรับผิดชอบ “現場” (สถานการณ์จริง) โดยต้องการการตอบสนองแบบเรียลไทม์ที่เข้มงวด ส่วนงานที่ต้องใช้การอนุมานเชิงลึก การค้นคืน หรือการเรียกใช้เครื่องมือจริงๆ จะถูกบรรจุเป็นบริบทที่สมบูรณ์และส่งไปยัง background model (โมเดลเบื้องหลัง) ที่ทำงานแบบอะซิงโครนัสเพื่อประมวลผล เมื่อผลลัพธ์กลับมา โมเดลการโต้ตอบจะเลือกจังหวะที่เหมาะสมเพื่อแทรกข้อมูลลงในการสนทนาปัจจุบันอย่างเป็นธรรมชาติ

“ให้ผู้ใช้เพลิดเพลินไปกับความฉลาดของโมเดล thinking และความหน่วงในการตอบสนองของโมเดล non-thinking ในเวลาเดียวกัน” นี่คือตำแหน่งที่ Thinking Machines กำหนดให้กับสถาปัตยกรรมนี้

เพื่อควบคุมความหน่วง 200ms ให้ถึงขีดสุด พวกเขายังได้ดำเนินการปรับแต่งทางวิศวกรรมที่หนักหน่วงอีกชุดหนึ่ง:

พัฒนา streaming session inference mechanism ภายในองค์กร โดยได้ส่งหนึ่งเวอร์ชัน upstream ไปยัง SGLang แล้ว
ใช้ gather+gemv แทน grouped gemm มาตรฐานเพื่อ implement MoE kernel ซึ่งเหมาะกับ tensor shape ของ bidirectional serving มากกว่า
ทำให้ trainer และ sampler จัดตำแหน่งในระดับ bitwise เพื่อให้ได้ batch-invariant training โดยมีค่าใช้จ่าย end-to-end น้อยกว่า 5%

ประเด็นสุดท้ายนี้ควรค่าแก่การกล่าวถึงเป็นพิเศษ ในการฝึกโมเดลขนาดใหญ่ ความไม่สอดคล้องกันของ floating point ระหว่าง trainer และ sampler เป็น “กล่องดำลึกลับ” ในการดีบัก RL มาเป็นเวลานาน Thinking Machines เขียน kernel ใหม่บนเส้นทางสำคัญ เช่น NVLS communication และ Attention Split-KV ทำให้กลายเป็นปัญหาที่กำหนดได้อย่างสมบูรณ์

ผลการทดลอง

ข้อมูลเฉพาะนั้นน่าเชื่อถือ

ใน FD-bench v1.5 ที่วัดคุณภาพการโต้ตอบ TML-Interaction-Small ได้ 77.8 คะแนน ในขณะที่อันดับสอง Gemini-3.1-flash-live (minimal) ได้เพียง 54.3 คะแนน และ GPT-Realtime-2.0 (minimal) ได้ 46.8 คะแนน

ใน FD-bench v1 ที่วัดความหน่วงในการตอบสนองแบบ end-to-end TML ทำความหน่วงของการแปลงอย่างง่ายได้ 0.40 วินาที ในขณะที่ GPT-Realtime-2.0 (minimal) อยู่ที่ 1.18 วินาที และ Gemini-3.1-flash-live (minimal) อยู่ที่ 0.57 วินาที มันฉลาดกว่าและเร็วกว่าในเวลาเดียวกัน

เมื่อเพิ่ม background agent แล้ว Pass@1 ใน FD-bench v3 (Audio + Tools) สูงถึง 68.0% เทียบกับ GPT-2.0 (minimal) ที่ 52.0% และ GPT-2.0 (xhigh) ที่ 58.0% ยังคงเป็นอันดับหนึ่ง

ในด้านความฉลาด TML-Interaction-Small ได้ 43.4 คะแนนใน Audio MultiChallenge เกินกว่าโมเดล instant ทั้งหมด ใน BigBench Audio เมื่อเปิดใช้งาน background agent แล้วได้ 96.5% เกือบเท่ากับ GPT-Realtime-2.0 (xhigh) ที่ 96.6%

นอกเหนือจากการทดสอบมาตรฐานที่ใช้กันทั่วไปในวงการ Thinking Machines ยังได้ออกแบบระบบการประเมินใหม่ทั้งหมด โดยเน้นวัด “การรับรู้เวลา” และ “ความริเริ่มทางภาพ” ของโมเดล ในงานที่กำหนดเองเหล่านี้ ช่องว่างระหว่าง TML-Interaction-Small กับอันดับสองนั้นนำในระดับเลขยกกำลัง:

TimeSpeak (พูดตามเวลาที่ผู้ใช้กำหนด): 64.7 vs 4.3
CueSpeak (พูดแทรกในจังหวะความหมายที่เหมาะสม): 81.7 vs 2.9
RepCount-A (การนับด้วยภาพ): 35.4 vs 1.3
Charades (การระบุตำแหน่งช่วงเวลาของการกระทำด้วยภาพ): mIoU 32.4 vs 0

ทางบริษัทกล่าวในบล็อกอย่างตรงไปตรงมา: “ปัจจุบันไม่มีโมเดลใดที่มีอยู่แล้วสามารถทำงานเหล่านี้ได้อย่างมีความหมาย” โมเดลเปรียบเทียบทั้งหมดที่เข้าร่วมการประเมิน เงียบหรือให้คำตอบที่ผิด แม้แต่เวอร์ชัน thinking ที่เปิดโหมดการอนุมานสูงก็ไม่รอด

บทสรุป

ในเดือนกรกฎาคม 2025 Thinking Machines Lab ปิดดีลการระดมทุนที่สร้างความฮือฮาในซิลิคอนแวลลีย์: เงินลงทุนรอบ seed มูลค่าประมาณ 2 พันล้านดอลลาร์สหรัฐ มูลค่าบริษัทประมาณ 1.2 หมื่นล้านดอลลาร์สหรัฐ นี่เป็นหนึ่งในรอบ seed ที่ใหญ่ที่สุดเท่าที่มีการบันทึกสาธารณะ นำโดย a16z โดยมี Nvidia, Accel, ServiceNow, Cisco, AMD, Jane Street และอื่นๆ ร่วมลงทุน บริษัทที่ก่อตั้งมาไม่ถึงครึ่งปีและยังไม่ได้เปิดตัวผลิตภัณฑ์ใดๆ ได้รับมูลค่าบริษัทที่สูงกว่าเกณฑ์ยูนิคอร์นถึงสิบเท่า เพียงแค่จากชื่อเสียงด้านการวิจัยของทีมผู้ก่อตั้ง นี่เป็นเหตุการณ์สำคัญในวงการ AI

หลังจากนั้นเกือบหนึ่งปี Thinking Machines มีการเคลื่อนไหวภายนอกไม่มากนัก ส่วนใหญ่เผยแพร่ผลงานเป็นระยะผ่าน Connectionism บล็อกวิจัยของบริษัท บทความที่ได้รับความสนใจมากที่สุดคือ “Defeating Nondeterminism in LLM Inference” ที่เขียนโดย Horace He ซึ่งเจาะลึกถึงปัญหาความไม่แน่นอนในการอนุมานของโมเดลขนาดใหญ่ และยังเป็นรากฐานสำหรับการจัดตำแหน่ง trainer-sampler ในระดับ bitwise ที่กล่าวถึงใน Interaction Models ครั้งนี้

และการเปิดตัว Interaction Models ในครั้งนี้ เป็นครั้งแรกที่ Thinking Machines นำเสนอ “โมเดลขนาดใหญ่เรือธงที่พัฒนาขึ้นเอง” อย่างแท้จริง หลังจากแบกรับมูลค่าบริษัท 1.2 หมื่นล้านดอลลาร์มานานกว่าหนึ่งปี ในที่สุดพวกเขาก็ส่งมอบคำตอบแรกสู่สาธารณะ

TML-Interaction-Small เป็นเพียงจุดเริ่มต้น ทางบริษัทระบุอย่างชัดเจนว่า โมเดลขนาดใหญ่กว่าจะเปิดตัวภายในปีนี้ และวิธีการทำงานร่วมกันของ background agent “เพิ่งเริ่มต้นการสำรวจ”

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/34378

Like (0)

0 0

บริษัท Yushu Technology เปิดตัวหุ่นยนต์บรรทุกคน GD01 ราคา 3.9 ล้านบาท หุ่นยนต์ยักษ์สไตล์กันดั้มในโลกจริงใกล้ผลิตจำนวนมาก

Previous 12 hours ago

MacBook รันโมเดล 284B ในเครื่อง! เครื่องมือโอเพนซอร์สจากบิดาของ Redis ปฏิวัติการแคช KV แบบดั้งเดิมด้วยการจัดเก็บลงดิสก์

Next 12 hours ago

ข่าวสารอุตสาหกรรม AI

การปฏิวัติระดับพิกเซล: ทีมของ He Kaiming ประสบความสำเร็จในการสร้างภาพแบบขั้นตอนเดียวโดยไม่ใช้พื้นที่แฝงด้วย pMF ทำสถิติ FID 2.22 ทำลายขีดจำกัดด้านประสิทธิภาพ

งานวิจัยใหม่ของทีม Kaiming He อีกครั้ง “หลักการยิ่งใหญ่ ยิ่งเรียบง่าย” งานวิจัยครั้งนี้ชี้ไปที่ปัญหาทั่วไปของโมเดลแพร่กระจายหลักและโมเดลการจับคู่โฟลว์ในปัจจุบัน ซึ่งเป็…

2026年2月3日
264000
ข่าวสารอุตสาหกรรม AI

DeepSeek ระดมทุนหมื่นล้าน! พารามิเตอร์ V4 หมื่นล้าน + ฮั่วเหวยเซิงเทิงหนุนหลัง วงการ AI ตื่นเต้น

เช้าวันนี้ ข่าวหนึ่งได้สร้างความสั่นสะเทือนให้กับวงการ AI: DeepSeek ซึ่งก่อนหน้านี้ยืนยันจะไม่ระดมทุน กำลังแสวงหาการระดมทุนจากภายนอกครั้งแรกด้วยมูลค่าธุรกิจไม่ต่ำกว่า 10 หมื่นล้านด…

2026年4月18日
113000
ข่าวสารอุตสาหกรรม AI

ห้องปฏิบัติการ AI ของ Tencent ถูกยุบ เจียงเจียปลดจากตำแหน่งผู้อำนวยการ กำลัง AI รวมพลสู่โมเดลใหญ่ Hunyuan

วันนี้ Tencent TEG (กลุ่มธุรกิจวิศวกรรมเทคโนโลยี) ได้ปรับโครงสร้างองค์กรบางส่วน โดยได้ยุบเลิก AI Lab และนาย Jiang Jie ไม่ได้ดำรงตำแหน่งผู้อำนวยการ AI Lab อีกต่อไป แต่หน้าที่การบริห…

2026年3月20日
227000
ข่าวสารอุตสาหกรรม AI

Gemma 4 เปิดตัวอย่างยิ่งใหญ่: 256K คอนเท็กซ์, มัลติโมดัลแบบเนทีฟ, ใบอนุญาต Apache 2.0 ตั้งมาตรฐานใหม่ให้โมเดลโอเพนซอร์ส

Google DeepMind ได้เปิดตัว Gemma 4 อย่างเป็นทางการ ซึ่งเป็นตระกูลโมเดลโอเพนซอร์สแบบมัลติโมดัลที่มีทั้งหมด 4 รุ่น โมเดลทั้งสี่รุ่น ได้แก่: E2B (พารามิเตอร์ที่มีประสิทธิภาพ 2.3B), E4…

2026年4月3日
155000
วิศวกรชาวจีน เกอ เสี่ยวชวน จะดำรงตำแหน่ง CTO ของ AppLovin หลังจากลาออกจาก Meta สู่บริษัทมูลค่าหลายแสนล้านในซิลิคอนวัลเลย์ภายในเวลาเพียงสามปี

ซิลิคอนแวลลีย์กำลังจะได้พบกับ CTO ชาวจีน คนใหม่ เกอ เสี่ยวชวน ชายวัย 80 ที่จบจากชั้นเรียนพิเศษของมหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีแห่งประเทศจีน (中科大) จะเข้ารับตำแหน่งประธานเจ้าหน้…

ข่าวสารอุตสาหกรรม AI 2026年4月24日
71000

☕ สนับสนุนค่ากาแฟทีมงาน

相关推荐

DeepSeek ระดมทุนหมื่นล้าน! พารามิเตอร์ V4 หมื่นล้าน + ฮั่วเหวยเซิงเทิงหนุนหลัง วงการ AI ตื่นเต้น

ห้องปฏิบัติการ AI ของ Tencent ถูกยุบ เจียงเจียปลดจากตำแหน่งผู้อำนวยการ กำลัง AI รวมพลสู่โมเดลใหญ่ Hunyuan

Gemma 4 เปิดตัวอย่างยิ่งใหญ่: 256K คอนเท็กซ์, มัลติโมดัลแบบเนทีฟ, ใบอนุญาต Apache 2.0 ตั้งมาตรฐานใหม่ให้โมเดลโอเพนซอร์ส