MiniCPM-o4.5: การปฏิวัติปฏิสัมพันธ์แบบเรียลไทม์ด้วย AI แบบมัลติโมดัลที่มอง ฟัง และพูดไปพร้อมกัน

เครื่องทอดไร้น้ำมันส่งเสียง “ติ้ง”

ฉันยังไม่ทันได้ตั้งตัว AI ก็พูดขึ้นก่อน: “เรียบร้อยแล้ว มันติ้งแล้ว”

นี่ไม่ใช่การอัปเกรดผู้ช่วยเสียง แต่เป็นโมเดลมัลติโมดัลเต็มรูปแบบ MiniCPM-o4.5 ที่เพิ่งเปิดตัวโดย 面壁智能 (Mianbi Zhineng)

วางโทรศัพท์ไว้ในครัว มันสามารถคุยกับคุณไปพร้อมๆ กับจ้องมองเตาและฟังเสียงรอบข้างได้

ไม่ใช่แค่ “คุณถามหนึ่งประโยค มันตอบหนึ่งประโยค” อีกต่อไป แต่เป็น AI ที่ดู ฟัง และพูดเองได้อย่างพร้อมเพรียง

AI เริ่มตั้งหูและลืมตา

เมื่อ AI ตัวนี้สามารถจ้องมองและเตือนได้ขนาดนี้ แล้วถ้าเอาไปแขวนไว้ในห้องเรียนหรือหน้าทางเดินล่ะ?

พอครูหรือผู้ปกครองมา ก็เตือนฉันทันที จะดีไม่เบาเลยใช่ไหม? (doge)

MiniCPM-o4.5: การปฏิวัติปฏิสัมพันธ์แบบเรียลไทม์ด้วย AI แบบมัลติโมดัลที่มอง ฟัง และพูดไปพร้อมกัน

เดี๋ยวก่อน! AI ต้องไม่ได้มีไว้ใช้แบบนั้นแน่

แต่ในการทดสอบจริงและกรณีการใช้งานตัวอย่างจากทางการ เราก็พบสิ่งที่น่าสนใจอย่างหนึ่งจริงๆ: สิ่งที่มันทำได้นั้น แตกต่างจาก AI ในอดีตแล้ว

เริ่มจากสิ่งที่เห็นได้ชัดที่สุดก่อน

MiniCPM-o4.5 ของ Mianbi ครั้งนี้ การเปลี่ยนแปลงที่ใหญ่ที่สุด จริงๆ แล้วสรุปได้เป็นประโยคเดียว: มันสามารถฟัง ดู และพูดเองได้พร้อมกัน

เช่น เวลาเดินซื้อของในซูเปอร์มาร์เก็ต คนเดินไปข้างหน้า ชั้นวางสินค้าเปลี่ยน สินค้าก็เปลี่ยนไปด้วย

แค่ถามลอยๆ ว่า: ผลไม้ราคาเท่าไหร่บ้าง? มันก็ตอบได้ทันที

ประเด็นสำคัญที่นี่ไม่ใช่ “ตอบเร็ว” แต่อยู่ที่ว่าในขณะที่มันตอบฉัน ดวงตาของมันก็ไม่ได้หยุดนิ่ง มันยังคงมองตามคุณไปเรื่อยๆ

คุณเดินไป ชั้นวางสินค้าเปลี่ยน มันก็สามารถพูดต่อได้ทันที เหมือนมีเพื่อนอยู่ข้างๆ

ถ้าเป็น AI แบบเดิม ส่วนใหญ่ก็คือคุณถามหนึ่งประโยค มันตอบหนึ่งประโยค

รอให้มันพูดครั้งต่อไป มันถึงจะ “มอง” โลกใหม่อีกครั้ง วงกลมโหลดก็ต้องหมุนใหม่สักสองสามรอบ

อีกตัวอย่างเช่น ออกไปทำงาน คุณเดินเข้าไปในลิฟต์ เล่นโทรศัพท์อยู่ สมองก็กำลังคิดเรื่องอื่นแล้ว

คุณแค่ต้องบอกมันตั้งแต่แรกให้เตือนคุณ มันก็จะสามารถตรวจจับการเปลี่ยนแปลงของชั้นลิฟต์ได้อย่างต่อเนื่อง และเมื่อถึงชั้นที่คุณต้องลง มันก็จะพูดเตือนคุณโดยตรง

อีกจุดที่สำคัญก็คือ: MiniCPM-o4.5 ไม่จำเป็นต้องให้คุณพูดก่อน มันก็สามารถตอบสนองได้เอง

จุดนี้แสดงให้เห็นชัดเจนเป็นพิเศษในการทดสอบตอนต้น เพราะในสถานการณ์จริง เวลาคุณถามว่า “เสร็จยัง” มักจะสายไปแล้ว

สิ่งที่มีประโยชน์จริงๆ คือ — คุณยังไม่ได้ถาม แต่ AI ได้ยินเสียง “ติ้ง” ก็พูดขึ้นมาเลย: “อุ่นเสร็จแล้ว”

นอกจากนี้ เรายังพบจุดที่ค่อนข้างขัดกับสัญชาตญาณของ MiniCPM-o4.5 อีกอย่าง: ในขณะที่มันกำลังพูด มันก็ยังคงฟังอยู่

เพราะทุกคนรู้ดีว่า เมื่อคนเริ่มพูด ความสนใจส่วนใหญ่ก็จะไม่อยู่ที่ “การฟัง” แล้ว

MiniCPM-o4.5: การปฏิวัติปฏิสัมพันธ์แบบเรียลไทม์ด้วย AI แบบมัลติโมดัลที่มอง ฟัง และพูดไปพร้อมกัน

แต่ o4.5 แตกต่างออกไป ด้านหนึ่ง มันสามารถคุยกับคุณไปพร้อมๆ กับคอยสังเกตการณ์สิ่งรอบข้าง —

เสียงเคาะประตู เสียงน้ำเดือด เสียง “ติ้ง” ของเครื่องทอดไร้น้ำمةน จะไม่ถูกมองข้าม

ที่เจ๋งกว่านั้นคือ ในขณะที่มันกำลังพูดเอง มันก็ยังได้ยินคำสั่งใหม่ที่คุณแทรกเข้ามา สามารถทำการสนทนาแบบอิสระทันทีได้

เพื่อจุดนี้ เราได้ตั้งใจทำสิ่งที่น่าจะ “ลำบาก” โมเดลสักหน่อย

มันกำลังอธิบายว่าลูกเป็ดสีฟ้าในภาพอยู่ที่ไหน ตอนนั้นฉันก็แทรกคำขอใหม่เข้าไปทันที ให้มันบอกฉันว่าตัวเล็กสีเหลือง (เป็ด) อยู่ที่ไหน

ผลลัพธ์คือ MiniCPM-o4.5 หลังจากพูดประโยคก่อนหน้าจบ ก็ตอบคำถามที่แทรกเข้ามากะทันหันนี้ทันที

สิ่งนี้ก็ทำให้ MiniCPM-o4.5 แตกต่างจาก AI แบบถามตอบ

มันไม่ใช่รอให้คุณพูดจบประโยคแล้วค่อยถึงตาของมัน แต่เป็นฟังไป พูดไป และพร้อมจะเปลี่ยนคำพูดได้ทุกเมื่อ

พูดอีกนัยหนึ่งคือ AI ปีนี้ไม่เล่นเกมถามตอบแบบผลัดกันตีแล้ว เริ่มเล่นแบบตอบสนองทันที เรียนรู้ที่จะตอบก่อนถามแล้ว

MiniCPM-o4.5: การปฏิวัติปฏิสัมพันธ์แบบเรียลไทม์ด้วย AI แบบมัลติโมดัลที่มอง ฟัง และพูดไปพร้อมกัน

นอกจากนี้ ยังมีวิธีเล่นที่ “แปลกประหลาด” กว่านี้อีก เช่น ให้ AI บรรยายการแข่งขันสด หรือจ้องดูคุณฝึกซ้อมและนับจำนวนครั้ง

โมเดลขนาดใหญ่ตัวแรกที่สามารถ「สนทนาแบบอิสระทันที」ได้

แล้ว “การสนทนาแบบอิสระ” ข้างต้นนี้ทำได้อย่างไร?

กุญแจสำคัญอยู่ที่MiniCPM-o4.5 ได้ปรับโครงสร้างใหม่ให้กับวิธีการโต้ตอบเอง

โมเดลมัลติโมดัลในอดีต โดยพื้นฐานแล้วเป็นแบบอนุกรม (Serial): ฟังให้จบก่อน ค่อยคิด ค่อยพูด

เมื่อเริ่มส่งออก การรับรู้อินพุตจากภายนอกของโมเดลจะถูกหยุดชั่วคราว ก่อให้เกิดการบล็อก I/O แบบทั่วไป ซึ่งเป็นสาเหตุที่ไม่สามารถดู ฟัง และพูดพร้อมกันได้

ใน MiniCPM-o4.5 ทีม Mianbi ได้นำกลไกFull-Duplex Multi-modal Real-time Streaming มาใช้เป็นครั้งแรก โมเดลสามารถรับอินพุตวิดีโอและเสียงอย่างต่อเนื่องไปพร้อมๆ กับสร้างเอาต์พุตเสียงหรือข้อความแบบ同步 สองสตรีมข้อมูลนี้ทำงานขนานกันโดยไม่บล็อกซึ่งกันและกัน

ในการนำไปปฏิบัติ MiniCPM-o4.5 ได้อัปเกรดโมดัลเอ็นโคเดอร์และดีโคเดอร์แบบออฟไลน์เดิม เป็นเวอร์ชันออนไลน์ที่รองรับอินพุต/เอาต์พุตแบบสตรีม

ด้านเสียงใช้การสร้างโมเดลแบบสลับระหว่างโทเค็นข้อความและเสียง ซึ่งทั้งสนับสนุนการสร้างเสียงแบบฟูลดูเพล็กซ์ และยังเพิ่มความเสถียรของการสร้างเสียงยาว

ในเวลาเดียวกัน ผ่านกลไกTime-division Multiplexing ทำการสร้างโมเดลแบบรวมสำหรับอินพุตและเอาต์พุตมัลติโมดัลที่ถูกจัดแนวบนไทม์ไลน์ระดับมิลลิวินาที เพื่อให้เกิดการประมวลผลสตรีมที่มีประสิทธิภาพ

MiniCPM-o4.5: การปฏิวัติปฏิสัมพันธ์แบบเรียลไทม์ด้วย AI แบบมัลติโมดัลที่มอง ฟัง และพูดไปพร้อมกัน

ในโครงสร้างโดยรวม MiniCPM-o4.5 ใช้การออกแบบแบบเอ็นด์ทูเอ็นด์เต็มรูปแบบ เชื่อมต่อเอ็นโคเดอร์และดีโคเดอร์ของแต่ละโมดัลเข้ากับแกนหลักของโมเดลภาษาขนาดใหญ่ผ่านคุณลักษณะแบบหนาแน่น (dense features) โมดัลต่างๆ เช่น การมองเห็น เสียง ยังคงสามารถอัปเดตอย่างต่อเนื่องในขณะที่โมเดลสร้างเอาต์พุต

นอกจากนี้ MiniCPM-o4.5 ยังเปลี่ยนวิธีการตัดสินจังหวะการสนทนา โมเดลจะตัดสินใจในระดับความหมายอย่างต่อเนื่อง และตัดสินใจด้วยความถี่ 1Hz ว่าจะเข้าไปตอบสนองหรือไม่ แทนที่จะพึ่งพากลไก VAD (Voice Activity Detection) แบบ “ตรวจจับความเงียบแล้วตอบ”

(ผู้ช่วยเสียงแบบดั้งเดิมมักพึ่งพา VAD ภายนอก: ทันทีที่ตรวจจับความเงียบชั่วคราว ก็จะถือว่าผู้ใช้ “พูดจบแล้ว” และเริ่มตอบ)

这使得โมเดลไม่เพียงแต่สามารถถูกขัดจังหวะได้อย่างเป็นธรรมชาติ แต่ยังสามารถเริ่มการเตือนหรือแสดงความคิดเห็นได้เอง โดยอิงจากความเข้าใจต่อสถานการณ์อย่างต่อเนื่อง

นี่คือสาเหตุที่ก่อนหน้าฉันยังพูดไม่จบ มันก็ “ตอบก่อนถาม” แล้ว

นอกจากนี้ เป็นที่น่าสังเกตว่าในการทดสอบ Benchmark MiniCPM-o4.5 ก็แสดงผลงานที่โดดเด่นเช่นกัน

ภายใต้ขนาดพารามิเตอร์เพียง 9B โมเดลมีความสามารถในหลายทิศทาง เช่น ความเข้าใจมัลติโมดัลเต็มรูปแบบ ความเข้าใจภาพ การแยกวิเคราะห์เอกสาร ความเข้าใจและการสร้างเสียง การโคลนเสียง ฯลฯ ซึ่งล้วนแต่อยู่ในระดับแนวหน้าของโมเดลมัลติโมดัลเต็มรูปแบบในปัจจุบัน

MiniCPM-o4.5: การปฏิวัติปฏิสัมพันธ์แบบเรียลไทม์ด้วย AI แบบมัลติโมดัลที่มอง ฟัง และพูดไปพร้อมกัน

แล้ว AI แบบ MiniCPM-o4.5 ที่ดู ฟัง และพูดเองได้พร้อมกันแบบนี้ หมายความว่าอย่างไร?

ความนิยมของ Clawdbot (ปัจจุบันเปลี่ยนชื่อเป็น OpenClaw) เมื่อเร็วๆ นี้ ได้ให้คำตอบล่วงหน้าแล้ว: สิ่งที่ผู้คนต้องการจริงๆ อาจไม่ใช่ “เครื่องถามตอบที่ฉลาดขึ้น” แต่เป็นAI ที่ทำงานต่อเนื่องและอยู่กับคุณตลอดเวลา

ไม่ใช่คุณถามมันหนึ่งประโยค มันถึงจะตื่นขึ้นมาทีหนึ่ง; แต่เป็นมันทำงานอยู่แล้วตั้งแต่แรก กำลังดู กำลังฟัง และพร้อมจะพูดทุกเมื่อ

นี่คือจุดที่โมเดลประเภท “ดู ฟัง และพูดเองได้พร้อมกัน” แบบนี้สร้างคุณค่าจริงๆ

AI ในอดีต คล้ายกับวิทยุสื่อสารมากกว่า คุณพูดจบ มันถึงฟัง; พอมันเริ่มพูด สิ่งรอบข้างก็เหมือนถูกกดปุ่มหยุดชั่วคราว

แต่ครั้งนี้ สิ่งที่ Mianbi พยายามทำคือ: ให้ AI ในขณะที่กำลังพูด โลกและสิ่งรอบข้างยังคงไหลเวียนอยู่ มันรับรู้โลกอย่างต่อเนื่องในขณะเดียวกันก็มีส่วนร่วมในการสนทนาและการกระทำอย่างต่อเนื่อง แทนที่จะสลับไปมาระหว่าง “ถาม/ตอบ” แบบเป็นจุดๆ เท่านั้น

และเพราะอย่างนี้ มันจึงสามารถขยายไปสู่สถานที่ต่างๆ ได้อย่างเป็นธรรมชาติ:

สำหรับ Embodied Intelligence แล้ว การรับรู้ การตัดสินใจ และการกระทำ ไม่ควรถูกแยกออกจากกันตั้งแต่แรก สำหรับผู้ช่วยในรถหรือบนอุปกรณ์ปลายทาง สิ่งที่มีประโยชน์จริงๆ มักไม่ใช่ “การตอบคำถาม” แต่เป็นการพูดต่อในจังหวะที่เหมาะสม สำหรับระบบที่ซับซ้อนแล้ว “รอคิดอีกที” นั้นเองก็ถือเป็นการล้มเหลว

ดังนั้น Full-Duplex จึงไม่ใช่การอัปเกรดประสบการณ์ แต่เป็นเส้นแบ่งที่กำหนดว่า AI จะสามารถเข้าสู่โลกแห่งความต่อเนื่องในความเป็นจริงได้จริงหรือไม่

และในความหมายนี้เอง Mianbi ได้นิยาม MiniCPM-o4.5 ว่าเป็นโมเดลพื้นฐานแบบมัลติโมดัลเต็มรูปแบบ และใช้เป็นจุดเริ่มต้นในการเพิ่มขีดความสามารถให้กับรูปแบบอุปกรณ์ปลายทางต่างๆ เช่น รถยนต์ โทรศัพท์มือถือ หุ่นยนต์ ฯลฯ ในอนาคต

面壁智能 (Mianbi Zhineng): ทำเฉพาะปลายทาง และทำให้สุดขีด

面壁智能 ก่อตั้งขึ้นในเดือนสิงหาคม 2022

ในยุคที่ AI ปลายทางยังไม่เป็นคำฮิตในอุตสาหกรรม และจุดสนใจของการอภิปรายยังคง集中在คลาวด์และการเพิ่มกำลังประมวลผล Mianbi ได้วางทิศทางไว้บนเส้นทางโมเดล AI ปลายทางแล้ว

MiniCPM-o4.5 ที่เปิดตัวครั้งนี้ นำโดยYao Yuan ผู้ช่วยศาสตราจารย์ประจำคณะวิศวกรรมศาสตร์ปัญญาประดิษฐ์ มหาวิทยาลัยชิงหวา และหัวหน้านักวิทยาศาสตร์มัลติโมดัลของ Mianbi

ในการเปิดตัวครั้งนี้ Mianbi เน้นย้ำคำสำคัญสองคำซ้ำๆ: Software-Hardware Integration, Edge Deployment

ยกตัวอย่าง MiniCPM-o4.5 เน้นที่การรับรู้สภาพแวดล้อมทางภาพและเสียงอย่างต่อเนื่อง และรูปแบบ AI แบบ “อยู่เป็นเพื่อนตลอด 24 ชั่วโมง” นี้เอง ก็ไม่สามารถมีอยู่ได้ในรูปแบบคลาวด์เป็นหลัก

ด้านหนึ่งคือความเสี่ยงด้านความเป็นส่วนตัวที่ไม่สามารถหลีกเลี่ยงได้ อีกด้านคือความล่าช้า ความเสถียร และความพร้อมใช้งานทางวิศวกรรมที่รับมือไม่ได้

และด้วยเหตุนี้เอง MiniCPM-o4.5 จึงถูกกำหนดให้เป็นโมเดลปลายทางตั้งแต่แรก และสอดคล้องอย่างสูงกับเส้นทางปลายทางที่ Mianbi ยึดถือมาโดยตลอด

Li Dahai ผู้ร่วมก่อตั้งและ CEO ของ Mianbi กล่าวในการสัมภาษณ์ว่า:

เป้าหมายของโมเดลปลายทาง ตั้งแต่แรกก็คือการเพิ่มขีดความสามารถให้อุปกรณ์ปลายทาง และการเพิ่มขีดความสามารถให้อุปกรณ์ปลายทางนั้น โดยธรรมชาติแล้วต้องผสานรวมกับชิปปลายทางให้ลึกซึ้งยิ่งขึ้น

据透露ว่า ในช่วงเกือบสองปีที่ผ่านมา Mianbi ได้ทำงานร่วมกับผู้ผลิตชิปหลายรายในรูปแบบที่มีการประสานงานสูง:

ชิปในขั้นตอนการออกแบบจะเปิดให้ฝั่งโมเดลเข้าถึง เพื่อตรวจสอบว่าโครงสร้างสอดคล้องกับความต้องการของโมเดลในอนาคตหรือไม่ การวิจัยและพัฒนาของโมเดลก็ป้อนข้อมูลย้อนกลับแบบ同步 กำหนดข้อกำหนดที่ชัดเจนสำหรับรูปแบบโอเปอเรเตอร์และความสามารถของฮาร์ดแวร์

การผสานรวมซอฟต์แวร์-ฮาร์ดแวร์และการเดินทางมาพบกันทั้งสองฝั่งแบบนี้ ได้กลายเป็นเงื่อนไขเบื้องต้นสำหรับวิวัฒนาการของโมเดลแล้ว

ในเส้นทางที่เฉพาะเจาะจง Lei Shengtao ผู้ร่วมก่อตั้งและ COO ของMianbi ได้ให้การวิเคราะห์ที่ชัดเจนยิ่งขึ้น:

  • Edge-Native Model: ไม่ใช่การบีบอัดโมเดลคลาวด์แล้วย้ายไปยังปลายทาง แต่เป็นการออกแบบในขั้นตอนการฝึกโดยมีชิปปลายทางเป็นสภาพแวดล้อมเป้าหมาย ทำให้โมเดล “เกิดมาพร้อมที่จะรันบนปลายทาง”
  • Infra Layer ที่ประสานงานซอฟต์แวร์-ฮาร์ดแวร์: ครอบคลุมเทคโนโลยีสำคัญ เช่น การควอนไทซ์ การบีบอัดความแม่นยำ และรับประกันว่าความสามารถของโมเดลหลังการบีบอัดจะไม่สูญเสีย เทคโนโลยีชั้นนี้มีความยากสูง ต้องอาศัยการสะสมประสบการณ์ในระยะยาว และเป็นกุญแจสำคัญในการสร้างกำแพงความสามารถหลัก
  • Productization Delivery: บรรจุความสามารถข้างต้นเป็นโซลูชันที่ใช้งานได้โดยตรง ส่งมอบให้กับลูกค้าและพันธมิตร เพื่อให้สามารถทำงานบนอุปกรณ์ปลายทางประเภทต่างๆ ได้อย่างมีประสิทธิภาพ

ตัวอย่างเช่น Mianbi วางแผนจะเปิดตัวฮาร์ดแวร์ AI ชิ้นแรกPinea Pi (松果派) ในช่วงกลางปี ซึ่งมีเป้าหมายเพื่อสนับสนุนการพัฒนาฟูลสแต็กสำหรับฮาร์ดแวร์ และการนำไปปฏิบัติในด้านต่างๆ เช่น ห้องโดยสารอัจฉริยะในช่วง一年多ที่ผ่านมา ล้วนเป็นการแสดงให้เห็นถึงเส้นทางเทคโนโลยีการประสานงานซอฟต์แวร์-ฮาร์ดแวร์นี้

จากมุมมองนี้ MiniCPM-o4.5 เองก็สามารถถูกเข้าใจว่าเป็นโมเดลมัลติโมดัลเต็มรูปแบบแบบ Edge-Native

据面壁智能介绍,MiniCPM-o4.5 จะเปิดตัวคู่กับบอร์ดพัฒนา Edge AI แบบ Native


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/23039

Like (0)
Previous 2026年2月4日 pm7:12
Next 2026年2月5日 am12:00

相关推荐