เพียง 9B พารามิเตอร์ก็สามารถทำงานแบบฟูลดูเพล็กซ์และมัลติโมดัลได้! MiniCPM-o 4.5 ทำให้ AI ฝั่งอุปกรณ์เป็นประชาธิปไตย ใช้ VRAM แค่ 12GB ก็รันได้

2 hours ago • ข่าวสารอุตสาหกรรม AI • 7 views

สวัสดีทุกคน ผมคือ PaperAgent แต่ไม่ใช่ Agent!

สัปดาห์ที่แล้ว DeepSeek V4 เปิดตัวอย่างเป็นทางการ แต่ก็ทำให้หลายคนรู้สึกผิดหวังเล็กน้อย — มันไม่ใช่โมเดลหลายรูปแบบ (Multimodal) มีชาวเน็ตบางคนแซวว่า สามารถใช้โซลูชันหลายรูปแบบจากผู้ผลิตรายอื่นมาชดเชยได้

วันนี้ MiniCPM-o 4.5 เข้ามาเติมเต็มช่องว่างนี้พอดี ด้วยนวัตกรรมทางเทคโนโลยี มันใช้พารามิเตอร์เพียง 9B สร้างโมเดลขนาดใหญ่ แบบครบวงจร (End-to-End), ฟูลดูเพล็กซ์ (Full-Duplex), และหลายรูปแบบ (Omni-Modal) เป็นรายแรกในอุตสาหกรรม ทำให้ AI ฝั่งอุปกรณ์ (Edge AI) เข้าถึงได้ง่ายอย่างแท้จริง นับตั้งแต่เปิดตัวโมเดลในเดือนกุมภาพันธ์ 2026 ยอดดาวน์โหลดบน Hugging Face ทะลุ 250,000 ครั้งแล้ว

นี่คือแพ็คเกจติดตั้งแบบคลิกเดียวสำหรับ Windows/macOS ใช้ GPU แรมอย่างน้อย 12GB ก็รันได้

คุณเคยจินตนาการไหมว่า ไม่ต้องเชื่อมต่ออินเทอร์เน็ต ใช้การ์ดจอระดับผู้บริโภคเพียงใบเดียว ก็สามารถมีผู้ช่วย AI เหมือนมนุษย์ที่ “มองเห็น, ได้ยิน, พูดได้, และยังแจ้งเตือน主动ได้” บนพีซีส่วนตัวของคุณได้? มันสามารถรับรู้การเปลี่ยนแปลงของสภาพแวดล้อมรอบตัวแบบเรียลไทม์ เข้าใจความตั้งใจของคุณไปพร้อมกัน และปกป้องความเป็นส่วนตัวของคุณตลอดเวลา

MiniCPM-o 4.5 ทำได้!

➤ การสาธิตการใช้งานโมเดล:
https://openbmb.github.io/minicpm-o-4_5-omni/

➤ ทดลองใช้แบบออนไลน์ (ไม่ต้องสมัคร/ดาวน์โหลด):
https://minicpmo45.modelbest.cn/

วันนี้ ทาง ModelBest ร่วมกับชุมชนโอเพนซอร์ส OpenBMB, ห้องปฏิบัติการ THUNLP มหาวิทยาลัยชิงหัว และห้องปฏิบัติการ THUMAI ประกาศเปิดตัว รายงานทางเทคนิคของ MiniCPM-o 4.5 เป็นครั้งแรก โดยเปิดเผยเทคโนโลยีหลักของ ModelBest ในด้านการโต้ตอบแบบฟูลดูเพล็กซ์หลายรูปแบบ — กรอบงาน Omni-Flow แบบสตรีมหลายรูปแบบ

➤ รายงานทางเทคนิค:
https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf

พร้อมกับการเปิดตัวรายงานทางเทคนิค MiniCPM-o 4.5 ได้เปิดตัว Demo ทดลองใช้ออนไลน์, API แบบฟูลดูเพล็กซ์หลายรูปแบบ, แพ็คเกจติดตั้งฝั่งอุปกรณ์ Comni และคลัง Demo พร้อมกัน

Demo ทดลองใช้ออนไลน์

Demo ออนไลน์เป็นเว็บแอปพลิเคชันต้นแบบของ MiniCPM-o 4.5 ที่แสดงต้นแบบแอปพลิเคชันหลักสามประเภท ได้แก่ การโต้ตอบแบบรอบดั้งเดิม, การโต้ตอบแบบดูเพล็กซ์ด้วยเสียง, และการโต้ตอบแบบดูเพล็กซ์ด้วยวิดีโอ พร้อมเปิดเผยการกำหนดค่าทั้งหมดที่โมเดลรองรับอย่างสมบูรณ์ รวมถึงการตั้งค่า prompt และเสียงอ้างอิง

Demo สามารถเข้าถึงได้โดยตรงจากโทรศัพท์มือถือและคอมพิวเตอร์ และมีฟังก์ชันต่างๆ เช่น การต่อคิว, การบันทึก, การบันทึก, การแชร์, และการดูย้อนหลัง เพื่อเพิ่มประสบการณ์ผู้ใช้

➤ ทดลองใช้แบบออนไลน์ (แนะนำสำหรับมือถือ)
https://minicpmo45.modelbest.cn/mobile/

➤ ทดลองใช้แบบออนไลน์ (แนะนำสำหรับคอมพิวเตอร์)
https://minicpmo45.modelbest.cn/

API แบบฟูลดูเพล็กซ์หลายรูปแบบ

API ของ MiniCPM-o 4.5 ที่เปิดให้บริการพร้อมกันรองรับการโต้ตอบแบบเรียลไทม์ฟูลดูเพล็กซ์หลายรูปแบบ ในโหมดฟูลดูเพล็กซ์ไม่จำเป็นต้องใช้กลไก VAD เพื่อควบคุมรอบการสนทนา ซึ่งอำนวยความสะดวกอย่างมากสำหรับนักพัฒนาในการสร้างแอปพลิเคชันบนพื้นฐานของ MiniCPM-o 4.5

API ใช้ปลายทาง https://api.modelbest.cn/minicpmo45/v1/ ซึ่งขณะนี้เปิดให้บริการฟรีอย่างสมบูรณ์ โปรดดูเอกสาร API สำหรับวิธีการใช้งานโดยละเอียด

➤ เอกสาร API ของ MiniCPM-o 4.5:
https://api.modelbest.cn/minicpmo45/docs

แพ็คเกจติดตั้งฝั่งอุปกรณ์ Comni สำหรับ Windows / macOS

MiniCPM-o 4.5 ได้ทำการ量化โมเดลและปรับปรุงประสิทธิภาพการอนุมานบนพื้นฐานของ llama.cpp ในการทดสอบจริง ใช้ GPU แรมเพียง 12GB อย่าง RTX 5070 ก็สามารถรันโหมดฟูลดูเพล็กซ์ได้อย่างราบรื่น (RTF 0.4) ซึ่งช่วยลดอุปสรรคในการ部署ฝั่งอุปกรณ์ส่วนบุคคลได้อย่างมาก

เพื่อทำให้ขั้นตอนการ部署ฝั่งอุปกรณ์ง่ายขึ้นอีก ซอฟต์แวร์เดสก์ท็อป Comni ได้รวมความสามารถในการดาวน์โหลดโมเดล, ติดตั้งสภาพแวดล้อม, และรัน Demo โดยมีเวอร์ชันสำหรับ Windows และ macOS หลังจากเริ่มบริการในเครื่องบนคอมพิวเตอร์แล้ว นอกจากจะใช้ในเบราว์เซอร์ในเครื่องแล้ว ขอแนะนำอย่างยิ่งให้เชื่อมต่อผ่าน LAN กับโทรศัพท์มือถือเพื่อทำการสนทนาทางวิดีโอแบบฟูลดูเพล็กซ์ ลิงก์ดาวน์โหลดแพ็คเกจซอฟต์แวร์มีดังนี้:

แพลตฟอร์ม	ลิงก์ดาวน์โหลด	ข้อกำหนดฮาร์ดแวร์
Windows	GitHub: Comni-Setup-win64.exe ModelScope: Comni-Windows-x64.exe	GPU แรม 12GB+ เช่น RTX 5070 / RTX 5080 / RTX 5090 / RTX 4090
macOS	GitHub: Comni-macOS-arm64.dmg ModelScope: Comni-macOS-arm64.dmg	M1-M5 Max / M5 Pro แนะนำ RAM 16GB ขึ้นไป

(วิดีโอด้านบนแสดงกระบวนการ部署และรัน MiniCPM-o 4.5 บนแล็ปท็อปส่วนตัวอย่างสมบูรณ์ รวมถึงการสาธิตความสามารถต่างๆ เช่น การสนทนาด้วยเสียงแบบฟูลดูเพล็กซ์, การทำความเข้าใจภาพแบบเรียลไทม์, และการแจ้งเตือน主动)

โอเพนซอร์สคลัง Demo และการ部署บน Linux

ซอร์สโค้ดทั้งหมดของ Demo ข้างต้นได้เปิดเป็นโอเพนซอร์สแล้ว ผู้ใช้ Linux สามารถโคลนคลังโค้ดและ部署บริการ Demo ที่สมบูรณ์ได้ นี่เป็นหนึ่งในโครงการสาธิตการโต้ตอบแบบฟูลดูเพล็กซ์หลายรูปแบบชุดแรกที่สามารถ部署ในเครื่องได้

➤ คลัง GitHub Demo:
https://github.com/OpenBMB/MiniCPM-o-Demo

ทำไม ‘ฟูลดูเพล็กซ์’ ถึงเป็นก้าวต่อไปของการโต้ตอบ AI?

การสื่อสารของมนุษย์นั้นราบรื่นและขนานกัน เราฟังไปคิดไป และสามารถขัดจังหวะอีกฝ่ายได้

แต่ในอดีต รูปแบบการโต้ตอบระหว่าง AI กับมนุษย์เป็นแบบ ฮาล์ฟดูเพล็กซ์ (Half-Duplex) เหมือนการใช้วิทยุสื่อสาร: คุณพูดเสร็จ มันถึงจะประมวลผล; ขณะที่มันพูด มันก็ไม่ได้ยินคำสั่งใหม่ของคุณ

วิธีการสื่อสารที่ไม่ตรงจังหวะระหว่าง AI กับมนุษย์นี้ ทำให้ผู้ใช้ส่วนใหญ่ได้รับประสบการณ์ที่ไม่ดีเมื่อโต้ตอบกับผลิตภัณฑ์โมเดลขนาดใหญ่ หรือ甚至หมดความอดทนเนื่องจาก “ความแตกแยกของกาลอวกาศ” ในการสื่อสาร หากเป็นเช่นนี้ต่อไป การนำโมเดลขนาดใหญ่ไปใช้ในสถานการณ์หลายรูปแบบจะต้องเผชิญกับอุปสรรคใหญ่อย่างแน่นอน

ในขณะที่ MiniCPM-o 4.5 เป็นผู้บุกเบิกรูปแบบ “ฟูลดูเพล็กซ์หลายรูปแบบ” ทั่วโลก โมเดลสามารถคิดและตอบสนองไปพร้อมกับการรับรู้สภาพแวดล้อมอย่างต่อเนื่อง (ดูวิดีโอ, ฟังเสียง) ซึ่งทำให้ AI เปลี่ยนจากเครื่องมือแบบพาสซีฟเป็นผู้ช่วยที่แท้จริงที่สามารถช่วยเหลือมนุษย์ได้อย่าง主动

เบื้องหลังนี้离不开กรอบงาน Omni-Flow แบบสตรีมหลายรูปแบบ ที่พัฒนาโดย ModelBest ร่วมกับมหาวิทยาลัยชิงหัว รายงานทางเทคนิคครั้งนี้ยังเปิดเผยแกนหลักทางเทคนิคของ Omni-Flow เป็นครั้งแรก:

พูดง่ายๆ คือ มันสร้าง “เส้นเวลา” ที่ใช้ร่วมกัน โดยจัดแนวข้อมูลทั้งหมด เช่น ภาพ, เสียง, และภาษา ให้เป็นชิ้นเวลาระดับมิลลิวินาที โมเดลจะทำวงจร “รับรู้-คิด-ตอบสนอง” หนึ่งครั้งในแต่ละชิ้นเวลาที่เล็กมาก

กลไกนี้ทำให้โมเดลมีความสามารถในการรับรู้อย่างต่อเนื่องและตอบสนองทันทีจากพื้นฐาน ซึ่งเป็นรากฐานที่ทำให้ MiniCPM-o บรรลุฟูลดูเพล็กซ์

นอกจากนี้ การเปิดตัว MiniCPM-o 4.5 ครั้งนี้ ยึดมั่นในโอเพนซอร์ส และเปิดให้部署 Web Demo ในเครื่องได้ ซึ่งมีความหมายต่อนักพัฒนาและผู้ใช้ดังนี้:

ความเป็นส่วนตัวที่ปลอดภัยอย่างแท้จริง: AI แบบ陪伴ตลอด 24 ชั่วโมงจะ接触到ข้อมูลที่ละเอียดอ่อนจำนวนมาก การที่ข้อมูลไม่ออกจากเครื่องในพื้นที่ คือการปกป้องความเป็นส่วนตัวที่ดีที่สุด

ความน่าเชื่อถือที่ทำงานได้แม้ไม่มีอินเทอร์เน็ต: สามารถใช้งานได้แม้ไม่มีเครือข่าย แม้ในอุโมงค์หรือพื้นที่ห่างไกล ผู้ช่วย AI ของคุณก็จะไม่ “หลุดการเชื่อมต่อ”

สนามเด็กเล่นของนักพัฒนา: ซอร์สโค้ดทั้ง frontend และ backend ของ Demo ที่สมบูรณ์ได้เปิดเป็นโอเพนซอร์สแล้ว คุณสามารถสร้างแอปพลิเคชันหลายรูปแบบฟูลดูเพล็กซ์ของคุณเองได้อย่างรวดเร็วบนพื้นฐานนี้ ไม่ว่าจะเป็นสมาร์ทค็อกพิท, อุปกรณ์ช่วยเหลือผู้พิการ, หรือหุ่นยนต์ที่มีกายภาพ (Embodied AI) MiniCPM-o 4.5 สามารถเป็นตัวเร่งให้จินตนาการของคุณกลายเป็นความจริง

เจาะลึกรายงานทางเทคนิค: เปิดเผยเส้นทางสู่ความสำเร็จของ MiniCPM-o 4.5

MiniCPM-o 4.5 ใช้สถาปัตยกรรมหลายรูปแบบแบบครบวงจร (End-to-End) โดยมีพารามิเตอร์รวม 9B การออกแบบหลักประกอบด้วย:

สถาปัตยกรรมหลายรูปแบบแบบครบวงจร: ตัวเข้ารหัสหลายรูปแบบ/ตัวถอดรหัสเสียงเชื่อมต่ออย่างแน่นหนากับ LLM ผ่าน hidden state ทำให้สามารถรับรู้ภาพและเสียงทั่วไปและการสนทนาด้วยเสียงได้ภายใต้อัตราการบีบอัดสูง

กลไก Time-Division Multiplexing: แบ่งสตรีมหลายรูปแบบแบบขนานออกเป็นกลุ่มข้อมูลตามลำดับภายในชิ้นเวลาเป็นระยะ ทำให้สามารถประมวลผลแบบสตรีมได้อย่างมีประสิทธิภาพ

การสร้างแบบจำลองเสียงที่กำหนดค่าได้: รองรับ prompt ระบบคู่แบบข้อความ+เสียง สามารถโคลนเสียงและสวมบทบาทได้ผ่านเสียงอ้างอิงและคำแนะนำบทบาท

รองรับสองโหมด: โมเดลเดียวกันรองรับทั้งโหมดโต้ตอบแบบรอบดั้งเดิมและโหมดฟูลดูเพล็กซ์หลายรูปแบบ Omni-Flow

การโต้ตอบแบบเรียลไทม์: กรอบงาน Omni-Flow แบบสตรีมหลายรูปแบบ

โมเดลหลายรูปแบบแบบดั้งเดิมมองว่าการโต้ตอบเป็นชุดของรอบที่แยกจากกัน ในขณะที่ Omni-Flow ปรับเปลี่ยนให้เป็นกระบวนการต่อเนื่อง

รูปที่ 1: วิวัฒนาการของกระบวนทัศน์การโต้ตอบ MiniCPM-o 4.5 บรรลุการโต้ตอบแบบสตรีมฟูลดูเพล็กซ์ทางขวาสุด

ดังที่แสดงในรูป Omni-Flow จะจัดแนวสตรีมอินพุตภาพและเสียง รวมถึงสตรีมเอาต์พุตข้อความและเสียงของโมเดล ให้เป็นชิ้นเวลาที่แม่นยำและสอดคล้องกัน โมเดลจะไม่รอให้ผู้ใช้ป้อนข้อมูลเสร็จอย่างเฉื่อยชา แต่จะรีเฟรช “โลกทัศน์” ของตัวเองอย่างต่อเนื่องด้วยความถี่สูง (เช่น ครั้งต่อวินาที) และตัดสินใจเองว่าจะ介入 (พูดหรือแจ้งเตือน) ณ จุดเวลาใด

กลไกนี้รองรับพฤติกรรมการโต้ตอบขั้นสูง เช่น การขัดจังหวะและการสอดแทรกโดยธรรมชาติ กำจัดการพึ่งพาเครื่องมือเสริมภายนอก เช่น VAD (Voice Activity Detection) อย่างสิ้นเชิง

สถาปัตยกรรมแบบครบวงจร: โมเดล 9B ทำงานร่วมกันอย่างมีประสิทธิภาพได้อย่างไร?

เพื่อรองรับการทำงานของ Omni-Flow ทีมงาน ModelBest ได้ออกแบบชุดสถาปัตยกรรมระบบหลายรูปแบบแบบครบวงจรที่มีประสิทธิภาพ โดยมีพารามิเตอร์รวม 9B

องค์ประกอบโมดูลหลักมีดังนี้:

ตัวเข้ารหัสภาพ (0.4B): ใช้ SigLIP-ViT 负责ประมวลผลอินพุตภาพ
ตัวเข้ารหัสเสียง (0.3B): 基于 Whisper-Medium 负责รับสัญญาณเสียง
ฐาน LLM (8B): ใช้ Qwen3-8B 承担งาน推理และทำความเข้าใจหลัก
ตัวถอดรหัส Token เสียง (0.3B): ใช้สถาปัตยกรรม Llama แบบน้ำหนักเบา แปลง Token ข้อความที่ LLM ส่งออกเป็นหน่วยเสียง
Vocoder: 负责สังเคราะห์หน่วยเสียงเป็นรูปคลื่นเสียงที่เล่นได้ในที่สุด

การออกแบบที่ชาญฉลาดที่สุดของสถาปัตยกรรมนี้คือ: ฐาน LLM สร้างเฉพาะ Token ข้อความ ในขณะที่ “outsource” งานสังเคราะห์เสียงเฉพาะทางให้กับตัวถอดรหัสเสียงที่เล็กกว่าและเชี่ยวชาญกว่า วิธีนี้หลีกเลี่ยงไม่ให้โมเดลขนาดใหญ่ต้องจัดการกับงานด้านเสียงที่ซับซ้อนโดยตรง จึงช่วยปกป้องความสามารถหลักด้านภาษาและการ推理ไม่ให้ถูกรบกวน ในขณะเดียวกัน การเชื่อมต่อแบบหนาแน่นระดับ Token ระหว่างแต่ละโมดูลช่วยให้มั่นใจได้ว่าโมเดลโดยรวมมีขีดความสามารถสูง

เกิดมาเพื่อการโต้ตอบแบบเรียลไทม์: แผนการสร้างเสียง TAIL

ปัญหาสำคัญอย่างหนึ่งของเสียงสตรีมคือความหน่วง (Latency) เพื่อให้เสียงฟังดูเป็นธรรมชาติและราบรื่น โมเดลมักต้อง “อ่านล่วงหน้า” ข้อความที่ค่อนข้างยาว แต่สิ่งนี้ทำให้เสียงที่ส่งออกล้าหลังอินพุตของผู้ใช้อย่างเห็นได้ชัด ในสถานการณ์ฟูลดูเพล็กซ์ที่ต้องการ “ขัดจังหวะทันที” ความหน่วงนี้เป็นอันตรายถึงชีวิต

ด้วยเหตุนี้ ทีมงาน ModelBest จึงเสนอ แผน TAIL (Time-Aligned Interleaving) ซึ่งช่วยให้การสร้างบล็อกเสียงแต่ละบล็อกเป็นไปตามบล็อกข้อความที่เกี่ยวข้องอย่างใกล้ชิด หลีกเลี่ยงไม่ให้ข้อความ “นำหน้า” มากเกินไป

นอกจากนี้ โดยการนำกลไก “pre-look” แบบน้ำหนักเบามาใช้ ก็สามารถแก้ปัญหาความต่อเนื่องของการออกเสียงข้ามคำได้อย่างมีประสิทธิภาพ ในที่สุด TAIL ช่วยให้มั่นใจได้ว่าเสียงมีความไพเราะและราบรื่น ในขณะที่ลดความหน่วงระหว่างการส่งออกเสียงกับการโต้ตอบที่เกิดขึ้นให้เหลือน้อยที่สุด

ประสิทธิภาพ: โมเดล 9B ท้าทายมาตรฐานระดับสูงสุดของอุตสาหกรรม

ขนาดพารามิเตอร์ที่เล็กไม่ได้หมายความว่าโมเดลมีความสามารถต่ำ MiniCPM-o 4.5 แสดงให้เห็นถึงความสามารถที่เทียบเทียมกับโมเดลขนาดใหญ่ SOTA ในการประเมินหลายรายการ

ประสิทธิภาพการ推理: ในด้านการใช้หน่วยความจำ เวอร์ชัน INT4 แบบ量化ของ MiniCPM-o 4.5 ใช้หน่วยความจำเพียง 11GB ในการรัน ซึ่งประมาณครึ่งหนึ่งของเวอร์ชัน INT4 ของ Qwen3-Omni ทำให้สามารถ部署ในเครื่องบนการ์ดจอระดับผู้บริโภคได้ ในด้านประสิทธิภาพ เวอร์ชัน INT4 มีความเร็วในการถอดรหัสถึง 212 tokens/s ซึ่งสูงกว่า Qwen3 มากกว่า 40% และมีความหน่วงในการตอบสนองต่ำกว่า

ความสามารถด้านภาพโดยรวม: ในการทดสอบเกณฑ์มาตรฐานภาพหลายรายการ เช่น OpenCompass, MMBench MiniCPM-o 4.5 ขนาด 9B มีประสิทธิภาพเทียบเท่ากับ Gemini 2.5 Flash

Benchmark	MiniCPM-o 4.5 (9B)	Gemini 2.5 Flash	Qwen3-Omni-30B-A3B
OpenCompass	77.6	78.5	75.7
MMBench EN v1.1	87.6	86.6	84.9
MathVista	80.1	75.3	75.9
HallusionBench	63.2	59.1	59.7

การโต้ตอบหลายรูปแบบและฟูลดูเพล็กซ์: ในการทดสอบเกณฑ์มาตรฐานที่ต้องการความเข้าใจด้านเสียงและวิดีโอร่วมกัน MiniCPM-o 4.5 เหนือกว่า Gemini 2.5 Flash และ Qwen3-Omni อย่างสมบูรณ์ ในการทดสอบเกณฑ์มาตรฐานความเข้าใจวิดีโอฟูลดูเพล็กซ์ LiveSports-3K-CC อัตราชนะ (54.4%) สูงกว่าโมเดลวิดีโอสตรีมเฉพาะทางอย่างมาก

Benchmark	MiniCPM-o 4.5	Gemini-2.5-Flash	Qwen3-Omni-30B
Daily-Omni	80.2	79.3	70.7
Video-Holmes	64.29	51.3	50.4
LiveSports-3K-CC (Win Rate)	54.4%	–	–

การสร้างเสียง: ไม่ว่าจะเป็นภาษาจีนหรืออังกฤษ คุณภาพการสร้างเสียงของ MiniCPM-o 4.5 (อัตราข้อผิดพลาดตัวอักษร/คำต่ำกว่า) และความสามารถในการแสดงอารมณ์ดีกว่า Qwen3-Omni และ CosyVoice2 ที่เป็นผู้นำในอุตสาหกรรม

Benchmark	MiniCPM-o 4.5	CosyVoice2	Qwen3-Omni-30B
SeedTTS Test-ZH (CER↓)	0.86	1.45	1.41
SeedTTS Test-EN (WER↓)	2.38	2.57	3.39
Expresso (Emotion↑)	29.8	17.9	–

ฟูลดูเพล็กซ์ที่แท้จริง มีศักยภาพไร้ขีดจำกัด

โมเดลขนาดใหญ่แบบฟูลดูเพล็กซ์หลายรูปแบบไม่ใช่แนวคิดที่ไกลเกินเอื้อม มันจะก่อให้เกิดชุดสถานการณ์การใช้งานใหม่ๆ เช่น:

คู่หูที่主动: ให้คำแนะนำและเตือนแบบเรียลไทม์ขณะที่คุณทำอาหาร, ซ่อมแซม, หรือออกกำลังกาย
อุปกรณ์ช่วยเหลือผู้พิการ: ทำหน้าที่เป็น “ดวงตา” สำหรับผู้พิการทางสายตา สังเกตสภาพแวดล้อมรอบตัวอย่างต่อเนื่อง ประกาศข้อมูลสำคัญ เช่น ไฟเขียวติด, แก้วน้ำใกล้เต็ม อย่าง主动 เพื่อช่วยให้พวกเขาใช้ชีวิตอย่างปลอดภัย
สมาร์ทค็อกพิท: ติดตามสภาพถนนและสถานะผู้ขับขี่อย่างต่อเนื่อง แจ้งเตือน主动ว่า “มีที่จอดรถว่างทางซ้าย” และนำทางให้จอด ให้การเตือนความปลอดภัยและช่วยเหลือการขับขี่ที่ชาญฉลาดและทันท่วงทียิ่งขึ้น
หุ่นยนต์ที่มีกายภาพ (Embodied AI): ทำหน้าที่เป็น “สมอง” ของหุ่นยนต์ รับรู้สภาพแวดล้อมแบบไดนามิกอย่างต่อเนื่องและตัดสินใจเวลาที่จะโต้ตอบอย่าง自主

จุดร่วมของสถานการณ์เหล่านี้คือ: ความต้องการไม่ใช่การถามตอบครั้งเดียว แต่ต้องการให้ AI ทำหน้าที่เป็น “ผู้สังเกตการณ์เงียบ” และ “ผู้เตือน及时” ที่融入กระแสชีวิตแบบไดนามิก — ซึ่งเป็นสิ่งที่โมเดลการสนทนาแบบรอบดั้งเดิมไม่สามารถทำได้

MiniCPM-o 4.5 ในฐานะโมเดลฟูลดูเพล็กซ์ดั้งเดิม กำจัดการพึ่งพา VAD ซึ่งหมายความว่า: มันรองรับการรับรู้เสียงทั่วไป (รวมถึงเสียงรบกวนรอบข้าง, ดนตรี ฯลฯ ไม่จำกัดเฉพาะเสียงพูด); การติดตามการเปลี่ยนแปลงของภาพเร็วขึ้น (ฟูลดูเพล็กซ์ดั้งเดิม ไม่ต้องรอให้พูดจบ); ขณะที่ AI พูด สามารถถูก引导แบบเรียลไทม์ให้เปลี่ยนเนื้อหาได้

แน่นอนว่า MiniCPM-o 4.5 ยังมีพื้นที่ให้ปรับปรุง เช่น ความเสถียรในการโต้ตอบระยะยาว, ความหลากหลายของพฤติกรรม主动 เป็นต้น ขอบเขตถัดไปของปัญญาประดิษฐ์หลายรูปแบบ ไม่เพียงแต่ขยายความสามารถของโมเดล แต่ยังรวมถึงการคิดใหม่เกี่ยวกับกระบวนทัศน์การโต้ตอบของการแสดงออกทางปัญญา Omni-Flow และ MiniCPM-o 4.5 คือการสำรวจที่สำคัญของ ModelBest ในทิศทางนี้

การเปิดกว้างและความร่วมมือจะผลักดันวิวัฒนาการของการโต้ตอบระหว่างมนุษย์กับเครื่องจักรต่อไป ยินดีต้อนรับนักพัฒนาทุกคนทดลองใช้โมเดล, เข้าร่วมการอภิปราย, มีส่วนร่วมในโค้ด, และร่วมกันสำรวจอนาคตของการโต้ตอบระหว่างมนุษย์กับเครื่องจักร!

➤ รายงานทางเทคนิค PDF:
https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf

➤ ทดลองใช้แบบออนไลน์:
https://minicpmo45.modelbest.cn/

➤ ทดลองใช้แบบออนไลน์ (แนะนำสำหรับมือถือ):
https://minicpmo45.modelbest.cn/mobile/

➤ GitHub Demo (รวมแพ็คเกจติดตั้งในเครื่อง):
https://github.com/OpenBMB/MiniCPM-o-Demo

➤ ลิงก์ดาวน์โหลด Hugging Face:
https://huggingface.co/openbmb/MiniCPM-o-4_5

➤ ลิงก์ดาวน์โหลด ModelScope:
https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-4_5

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/32514

Like (0)

0 0

Xiaomi AI สร้าง macOS ด้วยมือใน 4 ชั่วโมง! เอเจนต์จีน MiMo-V2.5 Pro เปิดซอร์สโค้ด ทำงานระยะยาวเหนือกว่า GPT-5.4

Previous 2 hours ago

หุ่นยนต์มนุษย์จัดงานแถลงข่าวด้วยตัวเอง โดยไม่มีมนุษย์ร่วมตลอดทั้งงาน ความเหมือนมนุษย์สูง+ความฉลาดสูง จะกลายเป็นจริงได้หรือไม่?

Next 2 hours ago

ข่าวสารอุตสาหกรรม AI

ข่าวด่วน! NeurIPS ห้ามสถาบันจีน 873 แห่ง รวมถึง Huawei ส่งบทความ ชุมชนวิชาการ AI ตื่นตระหนก ICML และ ICLR อาจดำเนินการตาม

นโยบายการรับบทความสำหรับการประชุม NeurIPS 2026 มีการเปลี่ยนแปลงครั้งสำคัญ จากเอกสารทางการ ‘MainTrackHandbook’ ที่เผยแพร่ NeurIPS จะไม่รับบทความวิจัยจากสถาบันที่อยู่ในบั…

2026年3月25日
208000
ข่าวสารอุตสาหกรรม AI

คลื่น AI ปลดคนงานมาแล้ว: ยักษ์ใหญ่เทคโนโลยีใช้เครื่องจักรแทนมนุษย์ในปี 2026, Oracle, Amazon, Block ปลดพนักงานนับหมื่น, AI เขียนสูตรการจ้างงานใหม่ให้บริษัท

รายงานโดย XinZhiYuanบรรณาธิการ: KingHZ 【บทนำ XinZhiYuan】 คลื่นการปลดพนักงานต้นปี 2026 มีรากเหง้าไม่ใช่จากวัฏจักรเศรษฐกิจหรือตลาดที่ชะลอตัว แต่เป็นการเปลี่ยนแปลงที่พื้นฐานกว่านั้น: …

2026年3月25日
198000
ข่าวสารอุตสาหกรรม AI

Anthropic ปรับราคา Claude Code อย่างเงียบ ๆ นักพัฒนาโวย “รีดไถเงิน”

ทุกคนเตรียมใจไว้ได้เลย การขึ้นราคาครั้งใหญ่จะมาแน่นอน George Pu บล็อกเกอร์ด้านเทคโนโลยีชื่อดัง โพสต์ว่า Anthropic ได้แก้ไขหน้าราคาอย่างเงียบๆ โดยถอด Claude Code ซึ่งเป็นตัวช่วยเขีย…

6 days ago
110000
ข่าวสารอุตสาหกรรม AI

การประเมินโมเดล GLM-OCR แบบโอเพนซอร์สของ Zhipu AI: พารามิเตอร์ 0.9B ต่อกร GPT5.2 และ Gemini-3-Pro ได้อย่างไร?

GLM-OCR โมเดลประเมิน: การรู้จำข้อความและการวิเคราะห์ตารางในทางปฏิบัติด้วยพารามิเตอร์ 0.9B เทคโนโลยี OCR (การรู้จำอักขระด้วยแสง) กำลังพัฒนาอย่างต่อเนื่อง ล่าสุด Zhipu AI ได้เปิดตัวโ…

2026年2月11日
273000
ข่าวสารอุตสาหกรรม AI

OpenAI ซื้อกิจการพอดแคสต์เทคโนโลยี TBPN: เร่งการแลกเปลี่ยน AI ทั่วโลก พอดแคสต์ที่ผู้บริหารซิลิคอนวัลเลย์ชื่นชอบ

OpenAI ซื้อกิจการพอดแคสต์เทคโนโลยี TBPN เพื่อสร้างแพลตฟอร์มใหม่สำหรับการอภิปราย AI เมื่อไม่นานมานี้ OpenAI ประกาศเข้าซื้อกิจการพอดแคสต์เทคโนโลยี TBPN โดยมีเป้าหมายเพื่อเร่งการแลกเป…

2026年4月3日
119000