เครื่องทอดไร้น้ำมันส่งเสียง “ติ้ง”
ฉันยังไม่ทันได้ตั้งตัว AI ก็พูดขึ้นก่อน: “เรียบร้อยแล้ว มันติ้งแล้ว”
นี่ไม่ใช่การอัปเกรดผู้ช่วยเสียง แต่เป็นโมเดลมัลติโมดัลเต็มรูปแบบ MiniCPM-o4.5 ที่เพิ่งเปิดตัวโดย 面壁智能 (Mianbi Zhineng)
วางโทรศัพท์ไว้ในครัว มันสามารถคุยกับคุณไปพร้อมๆ กับจ้องมองเตาและฟังเสียงรอบข้างได้
ไม่ใช่แค่ “คุณถามหนึ่งประโยค มันตอบหนึ่งประโยค” อีกต่อไป แต่เป็น AI ที่ดู ฟัง และพูดเองได้อย่างพร้อมเพรียง
AI เริ่มตั้งหูและลืมตา
เมื่อ AI ตัวนี้สามารถจ้องมองและเตือนได้ขนาดนี้ แล้วถ้าเอาไปแขวนไว้ในห้องเรียนหรือหน้าทางเดินล่ะ?
พอครูหรือผู้ปกครองมา ก็เตือนฉันทันที จะดีไม่เบาเลยใช่ไหม? (doge)

เดี๋ยวก่อน! AI ต้องไม่ได้มีไว้ใช้แบบนั้นแน่
แต่ในการทดสอบจริงและกรณีการใช้งานตัวอย่างจากทางการ เราก็พบสิ่งที่น่าสนใจอย่างหนึ่งจริงๆ: สิ่งที่มันทำได้นั้น แตกต่างจาก AI ในอดีตแล้ว
เริ่มจากสิ่งที่เห็นได้ชัดที่สุดก่อน
MiniCPM-o4.5 ของ Mianbi ครั้งนี้ การเปลี่ยนแปลงที่ใหญ่ที่สุด จริงๆ แล้วสรุปได้เป็นประโยคเดียว: มันสามารถฟัง ดู และพูดเองได้พร้อมกัน
เช่น เวลาเดินซื้อของในซูเปอร์มาร์เก็ต คนเดินไปข้างหน้า ชั้นวางสินค้าเปลี่ยน สินค้าก็เปลี่ยนไปด้วย
แค่ถามลอยๆ ว่า: ผลไม้ราคาเท่าไหร่บ้าง? มันก็ตอบได้ทันที
ประเด็นสำคัญที่นี่ไม่ใช่ “ตอบเร็ว” แต่อยู่ที่ว่าในขณะที่มันตอบฉัน ดวงตาของมันก็ไม่ได้หยุดนิ่ง มันยังคงมองตามคุณไปเรื่อยๆ
คุณเดินไป ชั้นวางสินค้าเปลี่ยน มันก็สามารถพูดต่อได้ทันที เหมือนมีเพื่อนอยู่ข้างๆ
ถ้าเป็น AI แบบเดิม ส่วนใหญ่ก็คือคุณถามหนึ่งประโยค มันตอบหนึ่งประโยค
รอให้มันพูดครั้งต่อไป มันถึงจะ “มอง” โลกใหม่อีกครั้ง วงกลมโหลดก็ต้องหมุนใหม่สักสองสามรอบ
อีกตัวอย่างเช่น ออกไปทำงาน คุณเดินเข้าไปในลิฟต์ เล่นโทรศัพท์อยู่ สมองก็กำลังคิดเรื่องอื่นแล้ว
คุณแค่ต้องบอกมันตั้งแต่แรกให้เตือนคุณ มันก็จะสามารถตรวจจับการเปลี่ยนแปลงของชั้นลิฟต์ได้อย่างต่อเนื่อง และเมื่อถึงชั้นที่คุณต้องลง มันก็จะพูดเตือนคุณโดยตรง
อีกจุดที่สำคัญก็คือ: MiniCPM-o4.5 ไม่จำเป็นต้องให้คุณพูดก่อน มันก็สามารถตอบสนองได้เอง
จุดนี้แสดงให้เห็นชัดเจนเป็นพิเศษในการทดสอบตอนต้น เพราะในสถานการณ์จริง เวลาคุณถามว่า “เสร็จยัง” มักจะสายไปแล้ว
สิ่งที่มีประโยชน์จริงๆ คือ — คุณยังไม่ได้ถาม แต่ AI ได้ยินเสียง “ติ้ง” ก็พูดขึ้นมาเลย: “อุ่นเสร็จแล้ว”
นอกจากนี้ เรายังพบจุดที่ค่อนข้างขัดกับสัญชาตญาณของ MiniCPM-o4.5 อีกอย่าง: ในขณะที่มันกำลังพูด มันก็ยังคงฟังอยู่
เพราะทุกคนรู้ดีว่า เมื่อคนเริ่มพูด ความสนใจส่วนใหญ่ก็จะไม่อยู่ที่ “การฟัง” แล้ว

แต่ o4.5 แตกต่างออกไป ด้านหนึ่ง มันสามารถคุยกับคุณไปพร้อมๆ กับคอยสังเกตการณ์สิ่งรอบข้าง —
เสียงเคาะประตู เสียงน้ำเดือด เสียง “ติ้ง” ของเครื่องทอดไร้น้ำمةน จะไม่ถูกมองข้าม
ที่เจ๋งกว่านั้นคือ ในขณะที่มันกำลังพูดเอง มันก็ยังได้ยินคำสั่งใหม่ที่คุณแทรกเข้ามา สามารถทำการสนทนาแบบอิสระทันทีได้
เพื่อจุดนี้ เราได้ตั้งใจทำสิ่งที่น่าจะ “ลำบาก” โมเดลสักหน่อย
มันกำลังอธิบายว่าลูกเป็ดสีฟ้าในภาพอยู่ที่ไหน ตอนนั้นฉันก็แทรกคำขอใหม่เข้าไปทันที ให้มันบอกฉันว่าตัวเล็กสีเหลือง (เป็ด) อยู่ที่ไหน
ผลลัพธ์คือ MiniCPM-o4.5 หลังจากพูดประโยคก่อนหน้าจบ ก็ตอบคำถามที่แทรกเข้ามากะทันหันนี้ทันที
สิ่งนี้ก็ทำให้ MiniCPM-o4.5 แตกต่างจาก AI แบบถามตอบ
มันไม่ใช่รอให้คุณพูดจบประโยคแล้วค่อยถึงตาของมัน แต่เป็นฟังไป พูดไป และพร้อมจะเปลี่ยนคำพูดได้ทุกเมื่อ
พูดอีกนัยหนึ่งคือ AI ปีนี้ไม่เล่นเกมถามตอบแบบผลัดกันตีแล้ว เริ่มเล่นแบบตอบสนองทันที เรียนรู้ที่จะตอบก่อนถามแล้ว

นอกจากนี้ ยังมีวิธีเล่นที่ “แปลกประหลาด” กว่านี้อีก เช่น ให้ AI บรรยายการแข่งขันสด หรือจ้องดูคุณฝึกซ้อมและนับจำนวนครั้ง
โมเดลขนาดใหญ่ตัวแรกที่สามารถ「สนทนาแบบอิสระทันที」ได้
แล้ว “การสนทนาแบบอิสระ” ข้างต้นนี้ทำได้อย่างไร?
กุญแจสำคัญอยู่ที่MiniCPM-o4.5 ได้ปรับโครงสร้างใหม่ให้กับวิธีการโต้ตอบเอง
โมเดลมัลติโมดัลในอดีต โดยพื้นฐานแล้วเป็นแบบอนุกรม (Serial): ฟังให้จบก่อน ค่อยคิด ค่อยพูด
เมื่อเริ่มส่งออก การรับรู้อินพุตจากภายนอกของโมเดลจะถูกหยุดชั่วคราว ก่อให้เกิดการบล็อก I/O แบบทั่วไป ซึ่งเป็นสาเหตุที่ไม่สามารถดู ฟัง และพูดพร้อมกันได้
ใน MiniCPM-o4.5 ทีม Mianbi ได้นำกลไกFull-Duplex Multi-modal Real-time Streaming มาใช้เป็นครั้งแรก โมเดลสามารถรับอินพุตวิดีโอและเสียงอย่างต่อเนื่องไปพร้อมๆ กับสร้างเอาต์พุตเสียงหรือข้อความแบบ同步 สองสตรีมข้อมูลนี้ทำงานขนานกันโดยไม่บล็อกซึ่งกันและกัน
ในการนำไปปฏิบัติ MiniCPM-o4.5 ได้อัปเกรดโมดัลเอ็นโคเดอร์และดีโคเดอร์แบบออฟไลน์เดิม เป็นเวอร์ชันออนไลน์ที่รองรับอินพุต/เอาต์พุตแบบสตรีม
ด้านเสียงใช้การสร้างโมเดลแบบสลับระหว่างโทเค็นข้อความและเสียง ซึ่งทั้งสนับสนุนการสร้างเสียงแบบฟูลดูเพล็กซ์ และยังเพิ่มความเสถียรของการสร้างเสียงยาว
ในเวลาเดียวกัน ผ่านกลไกTime-division Multiplexing ทำการสร้างโมเดลแบบรวมสำหรับอินพุตและเอาต์พุตมัลติโมดัลที่ถูกจัดแนวบนไทม์ไลน์ระดับมิลลิวินาที เพื่อให้เกิดการประมวลผลสตรีมที่มีประสิทธิภาพ

ในโครงสร้างโดยรวม MiniCPM-o4.5 ใช้การออกแบบแบบเอ็นด์ทูเอ็นด์เต็มรูปแบบ เชื่อมต่อเอ็นโคเดอร์และดีโคเดอร์ของแต่ละโมดัลเข้ากับแกนหลักของโมเดลภาษาขนาดใหญ่ผ่านคุณลักษณะแบบหนาแน่น (dense features) โมดัลต่างๆ เช่น การมองเห็น เสียง ยังคงสามารถอัปเดตอย่างต่อเนื่องในขณะที่โมเดลสร้างเอาต์พุต
นอกจากนี้ MiniCPM-o4.5 ยังเปลี่ยนวิธีการตัดสินจังหวะการสนทนา โมเดลจะตัดสินใจในระดับความหมายอย่างต่อเนื่อง และตัดสินใจด้วยความถี่ 1Hz ว่าจะเข้าไปตอบสนองหรือไม่ แทนที่จะพึ่งพากลไก VAD (Voice Activity Detection) แบบ “ตรวจจับความเงียบแล้วตอบ”
(ผู้ช่วยเสียงแบบดั้งเดิมมักพึ่งพา VAD ภายนอก: ทันทีที่ตรวจจับความเงียบชั่วคราว ก็จะถือว่าผู้ใช้ “พูดจบแล้ว” และเริ่มตอบ)
这使得โมเดลไม่เพียงแต่สามารถถูกขัดจังหวะได้อย่างเป็นธรรมชาติ แต่ยังสามารถเริ่มการเตือนหรือแสดงความคิดเห็นได้เอง โดยอิงจากความเข้าใจต่อสถานการณ์อย่างต่อเนื่อง
นี่คือสาเหตุที่ก่อนหน้าฉันยังพูดไม่จบ มันก็ “ตอบก่อนถาม” แล้ว
นอกจากนี้ เป็นที่น่าสังเกตว่าในการทดสอบ Benchmark MiniCPM-o4.5 ก็แสดงผลงานที่โดดเด่นเช่นกัน
ภายใต้ขนาดพารามิเตอร์เพียง 9B โมเดลมีความสามารถในหลายทิศทาง เช่น ความเข้าใจมัลติโมดัลเต็มรูปแบบ ความเข้าใจภาพ การแยกวิเคราะห์เอกสาร ความเข้าใจและการสร้างเสียง การโคลนเสียง ฯลฯ ซึ่งล้วนแต่อยู่ในระดับแนวหน้าของโมเดลมัลติโมดัลเต็มรูปแบบในปัจจุบัน

แล้ว AI แบบ MiniCPM-o4.5 ที่ดู ฟัง และพูดเองได้พร้อมกันแบบนี้ หมายความว่าอย่างไร?
ความนิยมของ Clawdbot (ปัจจุบันเปลี่ยนชื่อเป็น OpenClaw) เมื่อเร็วๆ นี้ ได้ให้คำตอบล่วงหน้าแล้ว: สิ่งที่ผู้คนต้องการจริงๆ อาจไม่ใช่ “เครื่องถามตอบที่ฉลาดขึ้น” แต่เป็นAI ที่ทำงานต่อเนื่องและอยู่กับคุณตลอดเวลา
ไม่ใช่คุณถามมันหนึ่งประโยค มันถึงจะตื่นขึ้นมาทีหนึ่ง; แต่เป็นมันทำงานอยู่แล้วตั้งแต่แรก กำลังดู กำลังฟัง และพร้อมจะพูดทุกเมื่อ
นี่คือจุดที่โมเดลประเภท “ดู ฟัง และพูดเองได้พร้อมกัน” แบบนี้สร้างคุณค่าจริงๆ
AI ในอดีต คล้ายกับวิทยุสื่อสารมากกว่า คุณพูดจบ มันถึงฟัง; พอมันเริ่มพูด สิ่งรอบข้างก็เหมือนถูกกดปุ่มหยุดชั่วคราว
แต่ครั้งนี้ สิ่งที่ Mianbi พยายามทำคือ: ให้ AI ในขณะที่กำลังพูด โลกและสิ่งรอบข้างยังคงไหลเวียนอยู่ มันรับรู้โลกอย่างต่อเนื่องในขณะเดียวกันก็มีส่วนร่วมในการสนทนาและการกระทำอย่างต่อเนื่อง แทนที่จะสลับไปมาระหว่าง “ถาม/ตอบ” แบบเป็นจุดๆ เท่านั้น
และเพราะอย่างนี้ มันจึงสามารถขยายไปสู่สถานที่ต่างๆ ได้อย่างเป็นธรรมชาติ:
สำหรับ Embodied Intelligence แล้ว การรับรู้ การตัดสินใจ และการกระทำ ไม่ควรถูกแยกออกจากกันตั้งแต่แรก สำหรับผู้ช่วยในรถหรือบนอุปกรณ์ปลายทาง สิ่งที่มีประโยชน์จริงๆ มักไม่ใช่ “การตอบคำถาม” แต่เป็นการพูดต่อในจังหวะที่เหมาะสม สำหรับระบบที่ซับซ้อนแล้ว “รอคิดอีกที” นั้นเองก็ถือเป็นการล้มเหลว
ดังนั้น Full-Duplex จึงไม่ใช่การอัปเกรดประสบการณ์ แต่เป็นเส้นแบ่งที่กำหนดว่า AI จะสามารถเข้าสู่โลกแห่งความต่อเนื่องในความเป็นจริงได้จริงหรือไม่
และในความหมายนี้เอง Mianbi ได้นิยาม MiniCPM-o4.5 ว่าเป็นโมเดลพื้นฐานแบบมัลติโมดัลเต็มรูปแบบ และใช้เป็นจุดเริ่มต้นในการเพิ่มขีดความสามารถให้กับรูปแบบอุปกรณ์ปลายทางต่างๆ เช่น รถยนต์ โทรศัพท์มือถือ หุ่นยนต์ ฯลฯ ในอนาคต
面壁智能 (Mianbi Zhineng): ทำเฉพาะปลายทาง และทำให้สุดขีด
面壁智能 ก่อตั้งขึ้นในเดือนสิงหาคม 2022
ในยุคที่ AI ปลายทางยังไม่เป็นคำฮิตในอุตสาหกรรม และจุดสนใจของการอภิปรายยังคง集中在คลาวด์และการเพิ่มกำลังประมวลผล Mianbi ได้วางทิศทางไว้บนเส้นทางโมเดล AI ปลายทางแล้ว
MiniCPM-o4.5 ที่เปิดตัวครั้งนี้ นำโดยYao Yuan ผู้ช่วยศาสตราจารย์ประจำคณะวิศวกรรมศาสตร์ปัญญาประดิษฐ์ มหาวิทยาลัยชิงหวา และหัวหน้านักวิทยาศาสตร์มัลติโมดัลของ Mianbi
ในการเปิดตัวครั้งนี้ Mianbi เน้นย้ำคำสำคัญสองคำซ้ำๆ: Software-Hardware Integration, Edge Deployment
ยกตัวอย่าง MiniCPM-o4.5 เน้นที่การรับรู้สภาพแวดล้อมทางภาพและเสียงอย่างต่อเนื่อง และรูปแบบ AI แบบ “อยู่เป็นเพื่อนตลอด 24 ชั่วโมง” นี้เอง ก็ไม่สามารถมีอยู่ได้ในรูปแบบคลาวด์เป็นหลัก
ด้านหนึ่งคือความเสี่ยงด้านความเป็นส่วนตัวที่ไม่สามารถหลีกเลี่ยงได้ อีกด้านคือความล่าช้า ความเสถียร และความพร้อมใช้งานทางวิศวกรรมที่รับมือไม่ได้
และด้วยเหตุนี้เอง MiniCPM-o4.5 จึงถูกกำหนดให้เป็นโมเดลปลายทางตั้งแต่แรก และสอดคล้องอย่างสูงกับเส้นทางปลายทางที่ Mianbi ยึดถือมาโดยตลอด
Li Dahai ผู้ร่วมก่อตั้งและ CEO ของ Mianbi กล่าวในการสัมภาษณ์ว่า:
เป้าหมายของโมเดลปลายทาง ตั้งแต่แรกก็คือการเพิ่มขีดความสามารถให้อุปกรณ์ปลายทาง และการเพิ่มขีดความสามารถให้อุปกรณ์ปลายทางนั้น โดยธรรมชาติแล้วต้องผสานรวมกับชิปปลายทางให้ลึกซึ้งยิ่งขึ้น
据透露ว่า ในช่วงเกือบสองปีที่ผ่านมา Mianbi ได้ทำงานร่วมกับผู้ผลิตชิปหลายรายในรูปแบบที่มีการประสานงานสูง:
ชิปในขั้นตอนการออกแบบจะเปิดให้ฝั่งโมเดลเข้าถึง เพื่อตรวจสอบว่าโครงสร้างสอดคล้องกับความต้องการของโมเดลในอนาคตหรือไม่ การวิจัยและพัฒนาของโมเดลก็ป้อนข้อมูลย้อนกลับแบบ同步 กำหนดข้อกำหนดที่ชัดเจนสำหรับรูปแบบโอเปอเรเตอร์และความสามารถของฮาร์ดแวร์
การผสานรวมซอฟต์แวร์-ฮาร์ดแวร์และการเดินทางมาพบกันทั้งสองฝั่งแบบนี้ ได้กลายเป็นเงื่อนไขเบื้องต้นสำหรับวิวัฒนาการของโมเดลแล้ว
ในเส้นทางที่เฉพาะเจาะจง Lei Shengtao ผู้ร่วมก่อตั้งและ COO ของMianbi ได้ให้การวิเคราะห์ที่ชัดเจนยิ่งขึ้น:
- Edge-Native Model: ไม่ใช่การบีบอัดโมเดลคลาวด์แล้วย้ายไปยังปลายทาง แต่เป็นการออกแบบในขั้นตอนการฝึกโดยมีชิปปลายทางเป็นสภาพแวดล้อมเป้าหมาย ทำให้โมเดล “เกิดมาพร้อมที่จะรันบนปลายทาง”
- Infra Layer ที่ประสานงานซอฟต์แวร์-ฮาร์ดแวร์: ครอบคลุมเทคโนโลยีสำคัญ เช่น การควอนไทซ์ การบีบอัดความแม่นยำ และรับประกันว่าความสามารถของโมเดลหลังการบีบอัดจะไม่สูญเสีย เทคโนโลยีชั้นนี้มีความยากสูง ต้องอาศัยการสะสมประสบการณ์ในระยะยาว และเป็นกุญแจสำคัญในการสร้างกำแพงความสามารถหลัก
- Productization Delivery: บรรจุความสามารถข้างต้นเป็นโซลูชันที่ใช้งานได้โดยตรง ส่งมอบให้กับลูกค้าและพันธมิตร เพื่อให้สามารถทำงานบนอุปกรณ์ปลายทางประเภทต่างๆ ได้อย่างมีประสิทธิภาพ
ตัวอย่างเช่น Mianbi วางแผนจะเปิดตัวฮาร์ดแวร์ AI ชิ้นแรกPinea Pi (松果派) ในช่วงกลางปี ซึ่งมีเป้าหมายเพื่อสนับสนุนการพัฒนาฟูลสแต็กสำหรับฮาร์ดแวร์ และการนำไปปฏิบัติในด้านต่างๆ เช่น ห้องโดยสารอัจฉริยะในช่วง一年多ที่ผ่านมา ล้วนเป็นการแสดงให้เห็นถึงเส้นทางเทคโนโลยีการประสานงานซอฟต์แวร์-ฮาร์ดแวร์นี้
จากมุมมองนี้ MiniCPM-o4.5 เองก็สามารถถูกเข้าใจว่าเป็นโมเดลมัลติโมดัลเต็มรูปแบบแบบ Edge-Native
据面壁智能介绍,MiniCPM-o4.5 จะเปิดตัวคู่กับบอร์ดพัฒนา Edge AI แบบ Native
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/23039
