สวัสดีทุกคน ผมคือ PaperAgent แต่ไม่ใช่ Agent!
สัปดาห์ที่แล้ว DeepSeek V4 เปิดตัวอย่างเป็นทางการ แต่ก็ทำให้หลายคนรู้สึกผิดหวังเล็กน้อย — มันไม่ใช่โมเดลหลายรูปแบบ (Multimodal) มีชาวเน็ตบางคนแซวว่า สามารถใช้โซลูชันหลายรูปแบบจากผู้ผลิตรายอื่นมาชดเชยได้
วันนี้ MiniCPM-o 4.5 เข้ามาเติมเต็มช่องว่างนี้พอดี ด้วยนวัตกรรมทางเทคโนโลยี มันใช้พารามิเตอร์เพียง 9B สร้างโมเดลขนาดใหญ่ แบบครบวงจร (End-to-End), ฟูลดูเพล็กซ์ (Full-Duplex), และหลายรูปแบบ (Omni-Modal) เป็นรายแรกในอุตสาหกรรม ทำให้ AI ฝั่งอุปกรณ์ (Edge AI) เข้าถึงได้ง่ายอย่างแท้จริง นับตั้งแต่เปิดตัวโมเดลในเดือนกุมภาพันธ์ 2026 ยอดดาวน์โหลดบน Hugging Face ทะลุ 250,000 ครั้งแล้ว
นี่คือแพ็คเกจติดตั้งแบบคลิกเดียวสำหรับ Windows/macOS ใช้ GPU แรมอย่างน้อย 12GB ก็รันได้
คุณเคยจินตนาการไหมว่า ไม่ต้องเชื่อมต่ออินเทอร์เน็ต ใช้การ์ดจอระดับผู้บริโภคเพียงใบเดียว ก็สามารถมีผู้ช่วย AI เหมือนมนุษย์ที่ “มองเห็น, ได้ยิน, พูดได้, และยังแจ้งเตือน主动ได้” บนพีซีส่วนตัวของคุณได้? มันสามารถรับรู้การเปลี่ยนแปลงของสภาพแวดล้อมรอบตัวแบบเรียลไทม์ เข้าใจความตั้งใจของคุณไปพร้อมกัน และปกป้องความเป็นส่วนตัวของคุณตลอดเวลา
MiniCPM-o 4.5 ทำได้!
➤ การสาธิตการใช้งานโมเดล:
https://openbmb.github.io/minicpm-o-4_5-omni/
➤ ทดลองใช้แบบออนไลน์ (ไม่ต้องสมัคร/ดาวน์โหลด):
https://minicpmo45.modelbest.cn/
วันนี้ ทาง ModelBest ร่วมกับชุมชนโอเพนซอร์ส OpenBMB, ห้องปฏิบัติการ THUNLP มหาวิทยาลัยชิงหัว และห้องปฏิบัติการ THUMAI ประกาศเปิดตัว รายงานทางเทคนิคของ MiniCPM-o 4.5 เป็นครั้งแรก โดยเปิดเผยเทคโนโลยีหลักของ ModelBest ในด้านการโต้ตอบแบบฟูลดูเพล็กซ์หลายรูปแบบ — กรอบงาน Omni-Flow แบบสตรีมหลายรูปแบบ
➤ รายงานทางเทคนิค:
https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf
พร้อมกับการเปิดตัวรายงานทางเทคนิค MiniCPM-o 4.5 ได้เปิดตัว Demo ทดลองใช้ออนไลน์, API แบบฟูลดูเพล็กซ์หลายรูปแบบ, แพ็คเกจติดตั้งฝั่งอุปกรณ์ Comni และคลัง Demo พร้อมกัน
Demo ทดลองใช้ออนไลน์
Demo ออนไลน์เป็นเว็บแอปพลิเคชันต้นแบบของ MiniCPM-o 4.5 ที่แสดงต้นแบบแอปพลิเคชันหลักสามประเภท ได้แก่ การโต้ตอบแบบรอบดั้งเดิม, การโต้ตอบแบบดูเพล็กซ์ด้วยเสียง, และการโต้ตอบแบบดูเพล็กซ์ด้วยวิดีโอ พร้อมเปิดเผยการกำหนดค่าทั้งหมดที่โมเดลรองรับอย่างสมบูรณ์ รวมถึงการตั้งค่า prompt และเสียงอ้างอิง
Demo สามารถเข้าถึงได้โดยตรงจากโทรศัพท์มือถือและคอมพิวเตอร์ และมีฟังก์ชันต่างๆ เช่น การต่อคิว, การบันทึก, การบันทึก, การแชร์, และการดูย้อนหลัง เพื่อเพิ่มประสบการณ์ผู้ใช้
➤ ทดลองใช้แบบออนไลน์ (แนะนำสำหรับมือถือ)
https://minicpmo45.modelbest.cn/mobile/
➤ ทดลองใช้แบบออนไลน์ (แนะนำสำหรับคอมพิวเตอร์)
https://minicpmo45.modelbest.cn/
API แบบฟูลดูเพล็กซ์หลายรูปแบบ
API ของ MiniCPM-o 4.5 ที่เปิดให้บริการพร้อมกันรองรับการโต้ตอบแบบเรียลไทม์ฟูลดูเพล็กซ์หลายรูปแบบ ในโหมดฟูลดูเพล็กซ์ไม่จำเป็นต้องใช้กลไก VAD เพื่อควบคุมรอบการสนทนา ซึ่งอำนวยความสะดวกอย่างมากสำหรับนักพัฒนาในการสร้างแอปพลิเคชันบนพื้นฐานของ MiniCPM-o 4.5
API ใช้ปลายทาง https://api.modelbest.cn/minicpmo45/v1/ ซึ่งขณะนี้เปิดให้บริการฟรีอย่างสมบูรณ์ โปรดดูเอกสาร API สำหรับวิธีการใช้งานโดยละเอียด
➤ เอกสาร API ของ MiniCPM-o 4.5:
https://api.modelbest.cn/minicpmo45/docs
แพ็คเกจติดตั้งฝั่งอุปกรณ์ Comni สำหรับ Windows / macOS
MiniCPM-o 4.5 ได้ทำการ量化โมเดลและปรับปรุงประสิทธิภาพการอนุมานบนพื้นฐานของ llama.cpp ในการทดสอบจริง ใช้ GPU แรมเพียง 12GB อย่าง RTX 5070 ก็สามารถรันโหมดฟูลดูเพล็กซ์ได้อย่างราบรื่น (RTF 0.4) ซึ่งช่วยลดอุปสรรคในการ部署ฝั่งอุปกรณ์ส่วนบุคคลได้อย่างมาก
เพื่อทำให้ขั้นตอนการ部署ฝั่งอุปกรณ์ง่ายขึ้นอีก ซอฟต์แวร์เดสก์ท็อป Comni ได้รวมความสามารถในการดาวน์โหลดโมเดล, ติดตั้งสภาพแวดล้อม, และรัน Demo โดยมีเวอร์ชันสำหรับ Windows และ macOS หลังจากเริ่มบริการในเครื่องบนคอมพิวเตอร์แล้ว นอกจากจะใช้ในเบราว์เซอร์ในเครื่องแล้ว ขอแนะนำอย่างยิ่งให้เชื่อมต่อผ่าน LAN กับโทรศัพท์มือถือเพื่อทำการสนทนาทางวิดีโอแบบฟูลดูเพล็กซ์ ลิงก์ดาวน์โหลดแพ็คเกจซอฟต์แวร์มีดังนี้:
| แพลตฟอร์ม | ลิงก์ดาวน์โหลด | ข้อกำหนดฮาร์ดแวร์ |
|---|---|---|
| Windows | GitHub: Comni-Setup-win64.exe ModelScope: Comni-Windows-x64.exe |
GPU แรม 12GB+ เช่น RTX 5070 / RTX 5080 / RTX 5090 / RTX 4090 |
| macOS | GitHub: Comni-macOS-arm64.dmg ModelScope: Comni-macOS-arm64.dmg |
M1-M5 Max / M5 Pro แนะนำ RAM 16GB ขึ้นไป |
(วิดีโอด้านบนแสดงกระบวนการ部署และรัน MiniCPM-o 4.5 บนแล็ปท็อปส่วนตัวอย่างสมบูรณ์ รวมถึงการสาธิตความสามารถต่างๆ เช่น การสนทนาด้วยเสียงแบบฟูลดูเพล็กซ์, การทำความเข้าใจภาพแบบเรียลไทม์, และการแจ้งเตือน主动)
โอเพนซอร์สคลัง Demo และการ部署บน Linux
ซอร์สโค้ดทั้งหมดของ Demo ข้างต้นได้เปิดเป็นโอเพนซอร์สแล้ว ผู้ใช้ Linux สามารถโคลนคลังโค้ดและ部署บริการ Demo ที่สมบูรณ์ได้ นี่เป็นหนึ่งในโครงการสาธิตการโต้ตอบแบบฟูลดูเพล็กซ์หลายรูปแบบชุดแรกที่สามารถ部署ในเครื่องได้
➤ คลัง GitHub Demo:
https://github.com/OpenBMB/MiniCPM-o-Demo
ทำไม ‘ฟูลดูเพล็กซ์’ ถึงเป็นก้าวต่อไปของการโต้ตอบ AI?
การสื่อสารของมนุษย์นั้นราบรื่นและขนานกัน เราฟังไปคิดไป และสามารถขัดจังหวะอีกฝ่ายได้
แต่ในอดีต รูปแบบการโต้ตอบระหว่าง AI กับมนุษย์เป็นแบบ ฮาล์ฟดูเพล็กซ์ (Half-Duplex) เหมือนการใช้วิทยุสื่อสาร: คุณพูดเสร็จ มันถึงจะประมวลผล; ขณะที่มันพูด มันก็ไม่ได้ยินคำสั่งใหม่ของคุณ
วิธีการสื่อสารที่ไม่ตรงจังหวะระหว่าง AI กับมนุษย์นี้ ทำให้ผู้ใช้ส่วนใหญ่ได้รับประสบการณ์ที่ไม่ดีเมื่อโต้ตอบกับผลิตภัณฑ์โมเดลขนาดใหญ่ หรือ甚至หมดความอดทนเนื่องจาก “ความแตกแยกของกาลอวกาศ” ในการสื่อสาร หากเป็นเช่นนี้ต่อไป การนำโมเดลขนาดใหญ่ไปใช้ในสถานการณ์หลายรูปแบบจะต้องเผชิญกับอุปสรรคใหญ่อย่างแน่นอน
ในขณะที่ MiniCPM-o 4.5 เป็นผู้บุกเบิกรูปแบบ “ฟูลดูเพล็กซ์หลายรูปแบบ” ทั่วโลก โมเดลสามารถคิดและตอบสนองไปพร้อมกับการรับรู้สภาพแวดล้อมอย่างต่อเนื่อง (ดูวิดีโอ, ฟังเสียง) ซึ่งทำให้ AI เปลี่ยนจากเครื่องมือแบบพาสซีฟเป็นผู้ช่วยที่แท้จริงที่สามารถช่วยเหลือมนุษย์ได้อย่าง主动
เบื้องหลังนี้离不开กรอบงาน Omni-Flow แบบสตรีมหลายรูปแบบ ที่พัฒนาโดย ModelBest ร่วมกับมหาวิทยาลัยชิงหัว รายงานทางเทคนิคครั้งนี้ยังเปิดเผยแกนหลักทางเทคนิคของ Omni-Flow เป็นครั้งแรก:
พูดง่ายๆ คือ มันสร้าง “เส้นเวลา” ที่ใช้ร่วมกัน โดยจัดแนวข้อมูลทั้งหมด เช่น ภาพ, เสียง, และภาษา ให้เป็นชิ้นเวลาระดับมิลลิวินาที โมเดลจะทำวงจร “รับรู้-คิด-ตอบสนอง” หนึ่งครั้งในแต่ละชิ้นเวลาที่เล็กมาก
กลไกนี้ทำให้โมเดลมีความสามารถในการรับรู้อย่างต่อเนื่องและตอบสนองทันทีจากพื้นฐาน ซึ่งเป็นรากฐานที่ทำให้ MiniCPM-o บรรลุฟูลดูเพล็กซ์
นอกจากนี้ การเปิดตัว MiniCPM-o 4.5 ครั้งนี้ ยึดมั่นในโอเพนซอร์ส และเปิดให้部署 Web Demo ในเครื่องได้ ซึ่งมีความหมายต่อนักพัฒนาและผู้ใช้ดังนี้:
ความเป็นส่วนตัวที่ปลอดภัยอย่างแท้จริง: AI แบบ陪伴ตลอด 24 ชั่วโมงจะ接触到ข้อมูลที่ละเอียดอ่อนจำนวนมาก การที่ข้อมูลไม่ออกจากเครื่องในพื้นที่ คือการปกป้องความเป็นส่วนตัวที่ดีที่สุด
ความน่าเชื่อถือที่ทำงานได้แม้ไม่มีอินเทอร์เน็ต: สามารถใช้งานได้แม้ไม่มีเครือข่าย แม้ในอุโมงค์หรือพื้นที่ห่างไกล ผู้ช่วย AI ของคุณก็จะไม่ “หลุดการเชื่อมต่อ”
สนามเด็กเล่นของนักพัฒนา: ซอร์สโค้ดทั้ง frontend และ backend ของ Demo ที่สมบูรณ์ได้เปิดเป็นโอเพนซอร์สแล้ว คุณสามารถสร้างแอปพลิเคชันหลายรูปแบบฟูลดูเพล็กซ์ของคุณเองได้อย่างรวดเร็วบนพื้นฐานนี้ ไม่ว่าจะเป็นสมาร์ทค็อกพิท, อุปกรณ์ช่วยเหลือผู้พิการ, หรือหุ่นยนต์ที่มีกายภาพ (Embodied AI) MiniCPM-o 4.5 สามารถเป็นตัวเร่งให้จินตนาการของคุณกลายเป็นความจริง
เจาะลึกรายงานทางเทคนิค: เปิดเผยเส้นทางสู่ความสำเร็จของ MiniCPM-o 4.5
MiniCPM-o 4.5 ใช้สถาปัตยกรรมหลายรูปแบบแบบครบวงจร (End-to-End) โดยมีพารามิเตอร์รวม 9B การออกแบบหลักประกอบด้วย:
สถาปัตยกรรมหลายรูปแบบแบบครบวงจร: ตัวเข้ารหัสหลายรูปแบบ/ตัวถอดรหัสเสียงเชื่อมต่ออย่างแน่นหนากับ LLM ผ่าน hidden state ทำให้สามารถรับรู้ภาพและเสียงทั่วไปและการสนทนาด้วยเสียงได้ภายใต้อัตราการบีบอัดสูง
กลไก Time-Division Multiplexing: แบ่งสตรีมหลายรูปแบบแบบขนานออกเป็นกลุ่มข้อมูลตามลำดับภายในชิ้นเวลาเป็นระยะ ทำให้สามารถประมวลผลแบบสตรีมได้อย่างมีประสิทธิภาพ
การสร้างแบบจำลองเสียงที่กำหนดค่าได้: รองรับ prompt ระบบคู่แบบข้อความ+เสียง สามารถโคลนเสียงและสวมบทบาทได้ผ่านเสียงอ้างอิงและคำแนะนำบทบาท
รองรับสองโหมด: โมเดลเดียวกันรองรับทั้งโหมดโต้ตอบแบบรอบดั้งเดิมและโหมดฟูลดูเพล็กซ์หลายรูปแบบ Omni-Flow
การโต้ตอบแบบเรียลไทม์: กรอบงาน Omni-Flow แบบสตรีมหลายรูปแบบ
โมเดลหลายรูปแบบแบบดั้งเดิมมองว่าการโต้ตอบเป็นชุดของรอบที่แยกจากกัน ในขณะที่ Omni-Flow ปรับเปลี่ยนให้เป็นกระบวนการต่อเนื่อง
รูปที่ 1: วิวัฒนาการของกระบวนทัศน์การโต้ตอบ MiniCPM-o 4.5 บรรลุการโต้ตอบแบบสตรีมฟูลดูเพล็กซ์ทางขวาสุด
ดังที่แสดงในรูป Omni-Flow จะจัดแนวสตรีมอินพุตภาพและเสียง รวมถึงสตรีมเอาต์พุตข้อความและเสียงของโมเดล ให้เป็นชิ้นเวลาที่แม่นยำและสอดคล้องกัน โมเดลจะไม่รอให้ผู้ใช้ป้อนข้อมูลเสร็จอย่างเฉื่อยชา แต่จะรีเฟรช “โลกทัศน์” ของตัวเองอย่างต่อเนื่องด้วยความถี่สูง (เช่น ครั้งต่อวินาที) และตัดสินใจเองว่าจะ介入 (พูดหรือแจ้งเตือน) ณ จุดเวลาใด
กลไกนี้รองรับพฤติกรรมการโต้ตอบขั้นสูง เช่น การขัดจังหวะและการสอดแทรกโดยธรรมชาติ กำจัดการพึ่งพาเครื่องมือเสริมภายนอก เช่น VAD (Voice Activity Detection) อย่างสิ้นเชิง
สถาปัตยกรรมแบบครบวงจร: โมเดล 9B ทำงานร่วมกันอย่างมีประสิทธิภาพได้อย่างไร?
เพื่อรองรับการทำงานของ Omni-Flow ทีมงาน ModelBest ได้ออกแบบชุดสถาปัตยกรรมระบบหลายรูปแบบแบบครบวงจรที่มีประสิทธิภาพ โดยมีพารามิเตอร์รวม 9B
องค์ประกอบโมดูลหลักมีดังนี้:
- ตัวเข้ารหัสภาพ (0.4B): ใช้ SigLIP-ViT 负责ประมวลผลอินพุตภาพ
- ตัวเข้ารหัสเสียง (0.3B): 基于 Whisper-Medium 负责รับสัญญาณเสียง
- ฐาน LLM (8B): ใช้ Qwen3-8B 承担งาน推理และทำความเข้าใจหลัก
- ตัวถอดรหัส Token เสียง (0.3B): ใช้สถาปัตยกรรม Llama แบบน้ำหนักเบา แปลง Token ข้อความที่ LLM ส่งออกเป็นหน่วยเสียง
- Vocoder: 负责สังเคราะห์หน่วยเสียงเป็นรูปคลื่นเสียงที่เล่นได้ในที่สุด
การออกแบบที่ชาญฉลาดที่สุดของสถาปัตยกรรมนี้คือ: ฐาน LLM สร้างเฉพาะ Token ข้อความ ในขณะที่ “outsource” งานสังเคราะห์เสียงเฉพาะทางให้กับตัวถอดรหัสเสียงที่เล็กกว่าและเชี่ยวชาญกว่า วิธีนี้หลีกเลี่ยงไม่ให้โมเดลขนาดใหญ่ต้องจัดการกับงานด้านเสียงที่ซับซ้อนโดยตรง จึงช่วยปกป้องความสามารถหลักด้านภาษาและการ推理ไม่ให้ถูกรบกวน ในขณะเดียวกัน การเชื่อมต่อแบบหนาแน่นระดับ Token ระหว่างแต่ละโมดูลช่วยให้มั่นใจได้ว่าโมเดลโดยรวมมีขีดความสามารถสูง
เกิดมาเพื่อการโต้ตอบแบบเรียลไทม์: แผนการสร้างเสียง TAIL
ปัญหาสำคัญอย่างหนึ่งของเสียงสตรีมคือความหน่วง (Latency) เพื่อให้เสียงฟังดูเป็นธรรมชาติและราบรื่น โมเดลมักต้อง “อ่านล่วงหน้า” ข้อความที่ค่อนข้างยาว แต่สิ่งนี้ทำให้เสียงที่ส่งออกล้าหลังอินพุตของผู้ใช้อย่างเห็นได้ชัด ในสถานการณ์ฟูลดูเพล็กซ์ที่ต้องการ “ขัดจังหวะทันที” ความหน่วงนี้เป็นอันตรายถึงชีวิต
ด้วยเหตุนี้ ทีมงาน ModelBest จึงเสนอ แผน TAIL (Time-Aligned Interleaving) ซึ่งช่วยให้การสร้างบล็อกเสียงแต่ละบล็อกเป็นไปตามบล็อกข้อความที่เกี่ยวข้องอย่างใกล้ชิด หลีกเลี่ยงไม่ให้ข้อความ “นำหน้า” มากเกินไป
นอกจากนี้ โดยการนำกลไก “pre-look” แบบน้ำหนักเบามาใช้ ก็สามารถแก้ปัญหาความต่อเนื่องของการออกเสียงข้ามคำได้อย่างมีประสิทธิภาพ ในที่สุด TAIL ช่วยให้มั่นใจได้ว่าเสียงมีความไพเราะและราบรื่น ในขณะที่ลดความหน่วงระหว่างการส่งออกเสียงกับการโต้ตอบที่เกิดขึ้นให้เหลือน้อยที่สุด
ประสิทธิภาพ: โมเดล 9B ท้าทายมาตรฐานระดับสูงสุดของอุตสาหกรรม
ขนาดพารามิเตอร์ที่เล็กไม่ได้หมายความว่าโมเดลมีความสามารถต่ำ MiniCPM-o 4.5 แสดงให้เห็นถึงความสามารถที่เทียบเทียมกับโมเดลขนาดใหญ่ SOTA ในการประเมินหลายรายการ
ประสิทธิภาพการ推理: ในด้านการใช้หน่วยความจำ เวอร์ชัน INT4 แบบ量化ของ MiniCPM-o 4.5 ใช้หน่วยความจำเพียง 11GB ในการรัน ซึ่งประมาณครึ่งหนึ่งของเวอร์ชัน INT4 ของ Qwen3-Omni ทำให้สามารถ部署ในเครื่องบนการ์ดจอระดับผู้บริโภคได้ ในด้านประสิทธิภาพ เวอร์ชัน INT4 มีความเร็วในการถอดรหัสถึง 212 tokens/s ซึ่งสูงกว่า Qwen3 มากกว่า 40% และมีความหน่วงในการตอบสนองต่ำกว่า
ความสามารถด้านภาพโดยรวม: ในการทดสอบเกณฑ์มาตรฐานภาพหลายรายการ เช่น OpenCompass, MMBench MiniCPM-o 4.5 ขนาด 9B มีประสิทธิภาพเทียบเท่ากับ Gemini 2.5 Flash
| Benchmark | MiniCPM-o 4.5 (9B) | Gemini 2.5 Flash | Qwen3-Omni-30B-A3B |
|---|---|---|---|
| OpenCompass | 77.6 | 78.5 | 75.7 |
| MMBench EN v1.1 | 87.6 | 86.6 | 84.9 |
| MathVista | 80.1 | 75.3 | 75.9 |
| HallusionBench | 63.2 | 59.1 | 59.7 |
การโต้ตอบหลายรูปแบบและฟูลดูเพล็กซ์: ในการทดสอบเกณฑ์มาตรฐานที่ต้องการความเข้าใจด้านเสียงและวิดีโอร่วมกัน MiniCPM-o 4.5 เหนือกว่า Gemini 2.5 Flash และ Qwen3-Omni อย่างสมบูรณ์ ในการทดสอบเกณฑ์มาตรฐานความเข้าใจวิดีโอฟูลดูเพล็กซ์ LiveSports-3K-CC อัตราชนะ (54.4%) สูงกว่าโมเดลวิดีโอสตรีมเฉพาะทางอย่างมาก
| Benchmark | MiniCPM-o 4.5 | Gemini-2.5-Flash | Qwen3-Omni-30B |
|---|---|---|---|
| Daily-Omni | 80.2 | 79.3 | 70.7 |
| Video-Holmes | 64.29 | 51.3 | 50.4 |
| LiveSports-3K-CC (Win Rate) | 54.4% | – | – |
การสร้างเสียง: ไม่ว่าจะเป็นภาษาจีนหรืออังกฤษ คุณภาพการสร้างเสียงของ MiniCPM-o 4.5 (อัตราข้อผิดพลาดตัวอักษร/คำต่ำกว่า) และความสามารถในการแสดงอารมณ์ดีกว่า Qwen3-Omni และ CosyVoice2 ที่เป็นผู้นำในอุตสาหกรรม
| Benchmark | MiniCPM-o 4.5 | CosyVoice2 | Qwen3-Omni-30B |
|---|---|---|---|
| SeedTTS Test-ZH (CER↓) | 0.86 | 1.45 | 1.41 |
| SeedTTS Test-EN (WER↓) | 2.38 | 2.57 | 3.39 |
| Expresso (Emotion↑) | 29.8 | 17.9 | – |
ฟูลดูเพล็กซ์ที่แท้จริง มีศักยภาพไร้ขีดจำกัด
โมเดลขนาดใหญ่แบบฟูลดูเพล็กซ์หลายรูปแบบไม่ใช่แนวคิดที่ไกลเกินเอื้อม มันจะก่อให้เกิดชุดสถานการณ์การใช้งานใหม่ๆ เช่น:
- คู่หูที่主动: ให้คำแนะนำและเตือนแบบเรียลไทม์ขณะที่คุณทำอาหาร, ซ่อมแซม, หรือออกกำลังกาย
- อุปกรณ์ช่วยเหลือผู้พิการ: ทำหน้าที่เป็น “ดวงตา” สำหรับผู้พิการทางสายตา สังเกตสภาพแวดล้อมรอบตัวอย่างต่อเนื่อง ประกาศข้อมูลสำคัญ เช่น ไฟเขียวติด, แก้วน้ำใกล้เต็ม อย่าง主动 เพื่อช่วยให้พวกเขาใช้ชีวิตอย่างปลอดภัย
- สมาร์ทค็อกพิท: ติดตามสภาพถนนและสถานะผู้ขับขี่อย่างต่อเนื่อง แจ้งเตือน主动ว่า “มีที่จอดรถว่างทางซ้าย” และนำทางให้จอด ให้การเตือนความปลอดภัยและช่วยเหลือการขับขี่ที่ชาญฉลาดและทันท่วงทียิ่งขึ้น
- หุ่นยนต์ที่มีกายภาพ (Embodied AI): ทำหน้าที่เป็น “สมอง” ของหุ่นยนต์ รับรู้สภาพแวดล้อมแบบไดนามิกอย่างต่อเนื่องและตัดสินใจเวลาที่จะโต้ตอบอย่าง自主
จุดร่วมของสถานการณ์เหล่านี้คือ: ความต้องการไม่ใช่การถามตอบครั้งเดียว แต่ต้องการให้ AI ทำหน้าที่เป็น “ผู้สังเกตการณ์เงียบ” และ “ผู้เตือน及时” ที่融入กระแสชีวิตแบบไดนามิก — ซึ่งเป็นสิ่งที่โมเดลการสนทนาแบบรอบดั้งเดิมไม่สามารถทำได้
MiniCPM-o 4.5 ในฐานะโมเดลฟูลดูเพล็กซ์ดั้งเดิม กำจัดการพึ่งพา VAD ซึ่งหมายความว่า: มันรองรับการรับรู้เสียงทั่วไป (รวมถึงเสียงรบกวนรอบข้าง, ดนตรี ฯลฯ ไม่จำกัดเฉพาะเสียงพูด); การติดตามการเปลี่ยนแปลงของภาพเร็วขึ้น (ฟูลดูเพล็กซ์ดั้งเดิม ไม่ต้องรอให้พูดจบ); ขณะที่ AI พูด สามารถถูก引导แบบเรียลไทม์ให้เปลี่ยนเนื้อหาได้
แน่นอนว่า MiniCPM-o 4.5 ยังมีพื้นที่ให้ปรับปรุง เช่น ความเสถียรในการโต้ตอบระยะยาว, ความหลากหลายของพฤติกรรม主动 เป็นต้น ขอบเขตถัดไปของปัญญาประดิษฐ์หลายรูปแบบ ไม่เพียงแต่ขยายความสามารถของโมเดล แต่ยังรวมถึงการคิดใหม่เกี่ยวกับกระบวนทัศน์การโต้ตอบของการแสดงออกทางปัญญา Omni-Flow และ MiniCPM-o 4.5 คือการสำรวจที่สำคัญของ ModelBest ในทิศทางนี้
การเปิดกว้างและความร่วมมือจะผลักดันวิวัฒนาการของการโต้ตอบระหว่างมนุษย์กับเครื่องจักรต่อไป ยินดีต้อนรับนักพัฒนาทุกคนทดลองใช้โมเดล, เข้าร่วมการอภิปราย, มีส่วนร่วมในโค้ด, และร่วมกันสำรวจอนาคตของการโต้ตอบระหว่างมนุษย์กับเครื่องจักร!
➤ รายงานทางเทคนิค PDF:
https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf
➤ ทดลองใช้แบบออนไลน์:
https://minicpmo45.modelbest.cn/
➤ ทดลองใช้แบบออนไลน์ (แนะนำสำหรับมือถือ):
https://minicpmo45.modelbest.cn/mobile/
➤ GitHub Demo (รวมแพ็คเกจติดตั้งในเครื่อง):
https://github.com/OpenBMB/MiniCPM-o-Demo
➤ ลิงก์ดาวน์โหลด Hugging Face:
https://huggingface.co/openbmb/MiniCPM-o-4_5
➤ ลิงก์ดาวน์โหลด ModelScope:
https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-4_5
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/32514
