คุณเคยคิดถึงปัญหานี้ไหม: ทำไมเวลาคุยกับ AI ถึงรู้สึกขาด ‘ความเป็นมนุษย์’ ไปนิด?
ไม่ใช่เพราะมันตอบไม่ถูกต้อง หรือไม่เข้าใจสิ่งที่คุณพูด แต่เพราะทุกการโต้ตอบดูแข็งทื่อเกินไป คุณถามคำถามหนึ่ง รอให้มันตอบเสร็จ แล้วทันใดนั้นภาพก็เปลี่ยนไป มันเหมือนกับว่าการสังเกตโลกแห่งความจริงของ AI นั้น ‘ตัดการเชื่อมต่อ’ ไปในชั่วพริบตา ในช่วงเวลาสองสามวินาทีนั้น AI ราวกับปิดตาและหูไปชั่วคราว ตกอยู่ในสถานะ ‘ตาบอดและหูหนวกเป็นช่วงๆ’ ไม่สามารถปรับการตอบสนองตามภาพที่เปลี่ยนแปลงอย่างรวดเร็วต่อหน้าต่อตาได้เลย
ความรู้สึกนี้ เหมือนกับคนสองคนคุยกันด้วยวิทยุสื่อสาร เวลาคุณกดปุ่มพูด คู่สนทนาจะไม่ได้ยิน และเวลาคู่สนทนาพูด คุณก็พูดแทรกไม่ได้ ข้อมูลสามารถส่งได้ทีละทิศทางเท่านั้น นี่ไม่ใช่ปัญหาการออกแบบผลิตภัณฑ์ แต่เป็นข้อจำกัดทางเทคนิค เพราะ AI ส่วนใหญ่ทำงานในโหมดซิมเพล็กซ์ (Simplex) ซึ่งทำให้รู้สึกแข็งทื่อเมื่อใช้งาน
วันที่ 4 กุมภาพันธ์ Mianbi (面壁) ได้เปิดตัว MiniCPM-o 4.5 ซึ่งเป็นโมเดลขนาดใหญ่แบบมัลติโมดัลแบบฟูลดูเพล็กซ์ (Full-Duplex) แบบแรกของอุตสาหกรรม เมื่อเทียบกับโมเดลมัลติโมดัลที่มีอยู่ก่อนหน้า MiniCPM-o 4.5 ได้บรรลุความสามารถแบบมัลติโมดัลที่ ‘ดูไป ฟังไป พูดไป’ พร้อมกัน และ ‘โต้ตอบได้อย่างอิสระ’ เป็นครั้งแรก โมเดลไม่เพียงแต่ประมวลผลข้อมูลภาพและเสียงเป็นอินพุตแบบคงที่อีกต่อไป แต่ยังสามารถรับรู้การเปลี่ยนแปลงของสิ่งแวดล้อมอย่างต่อเนื่องจากสตรีมข้อมูลมัลติโมดัลแบบเรียลไทม์ และยังคงเข้าใจโลกภายนอกในขณะที่กำลังส่งออกข้อมูลได้
ปัจจุบัน MiniCPM-o 4.5 ได้ถูกเปิดตัวบนแพลตฟอร์มต่างๆ เช่น GitHub และ Hugging Face:
* ที่อยู่แหล่งเปิด: https://github.com/OpenBMB/MiniCPM-o
* Hugging Face: https://huggingface.co/openbmb/MiniCPM-o-4_5
แม้จะมีพารามิเตอร์เพียง 9B แต่ MiniCPM-o 4.5 ก็ทำได้ถึงระดับ SOTA ของโมเดลมัลติโมดัลในด้านความสามารถแบบมัลติโมดัลเต็มรูปแบบ, การทำความเข้าใจภาพ, การวิเคราะห์เอกสาร, การทำความเข้าใจและการสร้างเสียง, การโคลนเสียง ฯลฯ ในการประเมินแบบครอบคลุมของ OpenCompass ซึ่งครอบคลุมเกณฑ์มาตรฐานหลัก 8 รายการ ได้คะแนน 77.6

MiniCPM-o 4.5 สามารถเอาชนะโมเดลปิด (closed-source) ชั้นนำอย่าง Gemini 2.5 Flash ในงานสำคัญต่างๆ เช่น MMBench (การทำความเข้าใจภาพแบบบูรณาการ), MathVista (การให้เหตุผลทางคณิตศาสตร์) และ OmniDocBench (การวิเคราะห์เอกสาร)

นอกจากนี้ MiniCPM-o 4.5 ยังมุ่งเน้นประสิทธิภาพพลังงานสูงสุดในขณะที่เพิ่มความหนาแน่นของความสามารถ: ด้วยการใช้หน่วยความจำกราฟิกส์ (VRAM) ที่ต่ำกว่าและความเร็วในการตอบสนองที่เร็วกว่า ทำให้ได้ประสิทธิภาพการอนุมานที่สูงขึ้นและต้นทุนการอนุมานที่ต่ำลง ในขณะที่ยังคงประสิทธิภาพมัลติโมดัลระดับ SOTA

หาก AI ในอดีตเป็นเพียงการปฏิบัติตามคำสั่งตามขั้นตอน MiniCPM-o 4.5 ได้มอบ ‘สัญชาตญาณ’ ที่แท้จริงให้กับ AI — มันไม่เพียงแต่สามารถรับรู้โลกแบบเรียลไทม์ด้วยการมองและฟังรอบด้านเท่านั้น แต่ยังสามารถพูดขึ้นในเวลาที่เหมาะสมและพูดแทรกได้อย่างอิสระ ทำให้เกิดการสื่อสารทันทีโดยไม่ถูกจำกัดด้วยรอบการสนทนา ซึ่งเป็นการเปิดยุคใหม่ของการปฏิสัมพันธ์ระหว่างมนุษย์กับเครื่องจักรอย่างแท้จริง
ทดลองใช้ด้วยตัวเอง: นี่คือรูปลักษณ์ของ ‘Her’ เวอร์ชันขั้นสูง
ไม่ต้องพูดมาก มาเริ่มทดลองใช้งานกัน ลิงก์ทดลองใช้: https://minicpm-omni.openbmb.cn/
มาเล่นเกมเล็กๆ ‘ฉันวาด เธอทาย’ กันก่อน ในตอนเริ่มต้นภาพ แค่ฉันวาดหูกระต่ายยาวสองข้าง โมเดลก็ตัดสินใจเกือบจะทันที ถามว่า: นี่คือกระต่ายใช่ไหม? จากนั้นยังไม่ลืมเสริมคำชมว่า วาดได้ดีมากเลย ให้คุณค่าทางอารมณ์เต็มที่
ต่อมา ปลายปากกาของฉันเปลี่ยนทิศทาง เริ่มวาดโครงร่างผีเสื้อ ในตอนแรก เป็นเพียงเส้นที่ดูเหมือนวาดอย่างสุ่ม โมเดลถามอย่างลองเชิงว่า: ‘นี่คือใบไม้ใช่ไหม?’ น้ำเสียงเต็มไปด้วยความไม่แน่ใจ เมื่อลายเส้นเพิ่มขึ้นเรื่อยๆ เพิ่งวาดปีกผีเสื้อครึ่งหนึ่ง โมเดลก็จับการเปลี่ยนแปลงได้ทันที และแก้ไขการตัดสินใจอย่างรวดเร็ว: ‘นี่คือผีเสื้อ’
กระบวนการทั้งหมดคล้ายกับเพื่อนที่นั่งข้างๆ คอยดูคุณวาดรูป: เดาแบบกล้าหาญก่อน แล้วแก้ไขอย่างรวดเร็ว บางครั้งก็ไม่ลืมชมคุณสองสามคำ การทายถูกไม่สำคัญ สำคัญคือมันคอยตามลายเส้นปากกาของคุณไปตลอด ดูไป คิดไป คิดไป คุยไป
ต่อไป เราเล่นเกมเดียวกันกับ ChatGPT แม้ว่าคำตอบของมันจะลื่นไหล แต่ก็ไม่ได้ตัดสินใจอย่างรวดเร็วเมื่อมีเบาะแสสำคัญปรากฏขึ้น แต่รอจนภาพเกือบจะสมบูรณ์และลักษณะของภาพชัดเจนมากแล้ว จึงให้คำตอบที่ถูกต้องในที่สุด
สถานะของ MiniCPM-o 4.5 คล้ายกับเพื่อนที่อยู่ด้วยกัน: มันจะดูไป ฟังไป ทำความเข้าใจไป พูดไป ไม่จำเป็นต้องรอให้ผู้ใช้โยนคำถาม แต่จะเสริม แก้ไข หรือแม้แต่ผลักดันการแสดงออกของตัวเองตามการเปลี่ยนแปลงของภาพและสิ่งแวดล้อม ในทางตรงกันข้าม การโต้ตอบของ ChatGPT ค่อนข้าง偏向เครื่องถามตอบ — หากคุณไม่ถามต่อ มันมักจะหยุดอยู่ที่ผลลัพธ์รอบก่อนหน้า ยากที่จะอัปเดตตามการเปลี่ยนแปลงอย่างต่อเนื่องของสตรีมข้อมูล
ต่อไป ความยากของการทดสอบเพิ่มขึ้น เราออกแบบสถานการณ์ทดสอบเกี่ยวกับไมโครเวฟ
เมื่อเราถามว่าส้มสามารถใส่ในไมโครเวฟได้ไหม MiniCPM-o 4.5 ตอบปฏิเสธอย่างชัดเจน — ไม่ได้ เหตุผลกระชับ ไม่มีลังเลใดๆ และเมื่อเราเปลี่ยนคำถามเป็นเค้ก โมเดลตอบรับทันที ไม่เพียงเท่านั้น มันยังเสริมว่า: ‘ดูเหมือนว่านี่จะเป็นเค้กช็อกโกแลต’ เห็นได้ชัดว่ามันไม่ได้ตอบแค่ว่าทำได้หรือไม่ได้แบบกลไก แต่กำลังทำความเข้าใจวัตถุเฉพาะหน้าที่เห็นอยู่พร้อมกัน
ที่น่าประหลาดใจยิ่งกว่าคือ การโต้ตอบไม่ได้หยุดอยู่แค่ถามตอบเท่านั้น เมื่อเค้กถูกใส่ในไมโครเวฟให้ความร้อนและเวลาหมดลง มันเตือนเราว่า: ‘เค้กร้อนได้ที่แล้ว’ รายละเอียดที่ดูเหมือนไม่สำคัญนี้ จริงๆ แล้วเปิดเผยสิ่งสำคัญมากอย่างหนึ่ง: โมเดลสามารถเข้าใจสิ่งแวดล้อมอย่างต่อเนื่อง ติดตามการเปลี่ยนแปลงสถานะ และเข้าแทรกแซงในเวลาที่เหมาะสมได้
ครั้งนี้เราเปรียบเทียบกับ ChatGPT อีกครั้ง โดยรวมแล้ว การแสดงออกของมันในครึ่งแรกยังคงน่าชื่นชม แต่เมื่อจับเวลาหมด ChatGPT ตกอยู่ใน ‘ความเงียบที่สุภาพ’ และไม่ได้เตือนเราให้นำอาหารออกเอง ปรากฏการณ์นี้เผยให้เห็นจุดอ่อนหลักของโมเดลกระแสหลักในปัจจุบัน — ขาดจิตสำนึกการโต้ตอบเชิงรุกจากภายใน
ในการทดสอบต่อไป เราไตร่ตรองและวาดภาพร่างตัวการ์ตูนบนไวท์บอร์ด MiniCPM-o 4.5 สามารถสังเกตกระบวนการวาดภาพแบบเรียลไทม์ และจับการเปลี่ยนแปลงของทุกๆ รายละเอียดได้อย่างแม่นยำ โมเดลไม่เพียงแต่ ‘มองเห็น’ แต่ยังสามารถแสดงความคิดเห็นด้วยภาษาธรรมชาติแบบพร้อมกัน และแสดงความคิดเห็นทันทีในขณะที่ลงปากกา
สุดท้ายคือการเล่นเกมไพ่ ข้อกำหนดคือให้ MiniCPM-o 4.5 อธิบายไพ่ที่ปรากฏในภาพตามลำดับ และเมื่อได้ยินเสียงเตือน ให้บอกฉันว่าเกมจบแล้ว
จะเห็นได้ว่า เมื่อมือคนวางไพ่ป๊อกเด้งต่อหน้ากล้องตามลำดับ MiniCPM-o 4.5 แสดงจังหวะการโต้ตอบที่ลื่นไหลอย่างยิ่ง โมเดลไม่ได้แค่รายงานตัวเลข แต่ใช้ภาษาธรรมชาติเช่น ‘The first card is…’ ทำให้การโต้ตอบคล้ายกับการพูดคุยกับคนจริงๆ มากขึ้น เมื่อเสียงกริ่งนาฬิกา (Ding!) ดังขึ้นในพื้นหลังอย่างกะทันหัน MiniCPM-o 4.5 เตือนว่าเสียงเตือนดังขึ้นแล้ว เกมจบ
โดยรวมแล้ว สิ่งที่รู้สึกได้ลึกซึ้งคือ: MiniCPM-o 4.5 หลุดพ้นจากการตอบสนองแบบแพสซีฟในอดีตไปได้มาก ทำให้เราเห็นความเป็นไปได้ที่ AI จะ ‘สั่นพ้องในความถี่เดียวกัน’ กับมนุษย์ และทำให้การดูไป ฟังไป พูดไป ไม่ใช่แค่คำพูดลอยๆ อีกต่อไป
MiniCPM-o 4.5: ก้าวสู่การโต้ตอบแบบมนุษย์
เหตุที่ MiniCPM-o 4.5 ซึ่งมีพารามิเตอร์เพียง 9B สามารถบรรลุความสามารถ ‘การรับรู้แบบมนุษย์ + การสื่อสารโต้ตอบ’ ได้ 背後ซ่อนการคิดขั้นสุดท้ายของ Mianbi เกี่ยวกับรูปแบบการปฏิสัมพันธ์ระหว่างมนุษย์กับเครื่องจักร
จากดูเพล็กซ์เทียมสู่ดูเพล็กซ์เต็มรูปแบบจริง: สร้างความสามารถในการโต้ตอบแบบขนานใหม่
การโต้ตอบของมนุษย์เป็นแบบขนานโดยธรรมชาติ ขณะที่เราพูด เราไม่เคยหยุดสังเกตรอบข้าง — การแสดงออกของคู่สนทนา, การเคลื่อนไหวของสิ่งแวดล้อม ข้อมูลเหล่านี้ถูกรับรู้และตอบสนองในเวลาเดียวกัน สิ่งนี้เป็นเรื่องปกติสำหรับมนุษย์ แต่สำหรับโมเดลขนาดใหญ่แล้ว มันเป็นกำแพงสูง
โมเดลขนาดใหญ่แบบมัลติโมดัลแบบดั้งเดิมส่วนใหญ่จัดการกับสถานะการโต้ตอบแบบ ‘ออฟไลน์, คงที่’ ไม่ว่าจะเป็นภาพหรือวิดีโอ ผู้ใช้มักต้องจัดเรียง อัปโหลดก่อน จากนั้นจึงถามโมเดลตามอินพุตที่ประมวลผลเสร็จแล้ว โมเดลสร้างผลลัพธ์เป็นชุดใหญ่ครั้งเดียว ผู้ใช้จึงค่อยให้ข้อเสนอแนะรอบต่อไป นี่คือการโต้ตอบแบบ ‘ส่ง — ตอบสนอง’ ที่เข้มงวด ซึ่งมีความล่าช้าโดยธรรมชาติ และขาดความสามารถในการปรับตัวแบบไดนามิกในกระบวนการ
การเกิดขึ้นของโมเดลมัลติโมดัลแบบสตรีมมิ่งเริ่มทำลายข้อจำกัดนี้ รวมถึง GPT-4o, Gemini Live ฯลฯ ที่สามารถป้อนข้อมูลแบบขนานอย่างต่อเนื่องได้แล้ว สัญญาณภาพและเสียงไม่ใช่การส่งครั้งเดียวอีกต่อไป แต่เข้าสู่ระบบแบบเรียลไทม์และต่อเนื่อง นี่คือความก้าวหน้าที่สำคัญเมื่อเทียบกับการโต้ตอบแบบ ‘ส่ง — ตอบสนอง’
แต่เมื่อมองอย่างละเอียดจะพบว่า โมเดลมัลติโมดัลแบบสตรีมมิ่งเหล่านี้ยังคงเป็นซิมเพล็กซ์ในสาระสำคัญ อินพุตและเอาต์พุตเป็นการบล็อกโดยพื้นฐาน เมื่อโมเดลเริ่ม ‘พูด’ มันแทบจะไม่สามารถรับรู้สิ่งแวดล้อมภายนอกได้อีกต่อไป เทียบเท่ากับ ‘หลับตา ปิดหู’ สูญเสียความสามารถในการรับรู้ในมิติเวลา
สิ่งที่ MiniCPM-o 4.5 ทำลายคือกำแพงนี้ มันสร้างสถาปัตยกรรมโมเดลขนาดใหญ่แบบฟูลดูเพล็กซ์และฟูลมัลติโมดัล ทำให้สตรีมอินพุตและเอาต์พุตไม่บล็อกกัน: โมเดลสามารถสร้างเสียงหรือข้อความได้ ในขณะที่ยังคงรับรู้สตรีมวิดีโอและเสียงจากภายนอกอย่างต่อเนื่อง
ในด้านการนำไปใช้ทางเทคนิค ทีมใช้การออกแบบที่สำคัญสามประการ:
- การจัดแนวเวลาและการมัลติเพล็กซ์แบบแบ่งเวลา: จัดแนวสตรีมวิดีโอและเสียงอินพุตกับโทเค็นข้อความและเสียงเอาต์พุตบนเส้นเวลาในระดับมิลลิวินาทีอย่างเคร่งครัด ผ่านกลไกการมัลติเพล็กซ์แบบแบ่งเวลาเพื่อแบ่งสตรีมมัลติโมดัลแบบขนานออกเป็นกลุ่มข้อมูลลำดับภายในช่วงเวลาเล็กๆ เป็นคาบ ทำให้โมเดลสามารถประมวลผลแบบขนานในระดับจุลภาคภายในแบบอนุกรมในระดับมหภาค
- การเข้ารหัสแบบแบ่งส่วนแบบวนซ้ำ: แปลงตัวเข้ารหัสโมดัลออฟไลน์เป็นเวอร์ชันออนไลน์ที่รองรับอินพุตและเอาต์พุตแบบสตรีมมิ่ง โมเดลแบ่งสตรีมมัลติโมดัลออกเป็นส่วนเล็กๆ (Chunks) และประมวลผลแบบวนซ้ำ สถาปัตยกรรมการใช้ซ้ำสูงนี้ทำให้มั่นใจได้ว่าโมเดลยังคงถอดรหัสข้อมูลสิ่งแวดล้อมอย่างต่อเนื่องในขณะที่กำลังส่งออก
- การสร้างเสียงแบบเอนด์ทูเอนด์: ตัวถอดรหัสเสียงใช้วิธีการสร้างแบบจำลองสลับกันระหว่างโทเค็นข้อความและเสียง โดยการเชื่อมต่อเลเยอร์ที่ซ่อนอยู่แบบหนาแน่นเพื่อสร้างแบบเอนด์ทูเอนด์ แทนที่จะเป็นการต่อกันแบบ TTS ง่ายๆ การผสานลึกนี้ทำให้โมเดลสามารถปรับน้ำเสียงและอารมณ์ของเสียงแบบไดนามิกตามข้อเสนอแนะภาพและเสียงแบบเรียลไทม์ ซึ่งช่วยเพิ่มระดับความคล้ายมนุษย์และพลังการแสดงออกของเสียงอย่างมีนัยสำคัญ และยังเพิ่มความเสถียรของการสร้างเสียงยาว (เช่น เกิน 1 นาที) ด้วย

หากสถาปัตยกรรมฟูลดูเพล็กซ์มอบตา ‘ที่ไม่เคยหลับ’ และหู ‘ที่คอยฟังตลอดเวลา’ ให้กับ AI แล้ว กลไกการโต้ตอบอิสระ ก็คือการมอบสมอง ‘ที่รู้จักสังเกตสีหน้า’ ให้กับมัน
การโต้ตอบอิสระ: ทำให้โมเดลหลุดพ้นจาก ‘อุปกรณ์เสริมภายนอก’
อีกความก้าวหน้าของ MiniCPM-o 4.5 คือกลไกการโต้ตอบอิสระแบบมัลติโมดัลเต็มรูปแบบ โมเดลเริ่มตัดสินใจในสตรีมข้อมูลแบบเรียลไทม์ว่า ความหมายทางภาษาได้ครบถ้วนถึงจุดที่ต้องกระตุ้นการตอบสนองหรือไม่
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/23041
