MinCPM-V 4.6 โมเดลมัลติโมดัลขนาด 1.3B จากบริษัท 面壁智能 เปิดตัวแล้ว ประสิทธิภาพเหนือกว่า Qwen และ Gemma สามารถรันบนสมาร์ทโฟนทุกเครื่อง

3 hours ago • คลังสินค้า AI • 11 views

โมเดลมัลติโมดัล MiniCPM-V 4.6 โอเพนซอร์สล่าสุดจาก FaceWall Intelligence มีพารามิเตอร์เพียง 1.3B แต่สามารถทำงานได้อย่างราบรื่นบนสมาร์ทโฟนทุกเครื่อง

นี่คือโมเดลที่มีพารามิเตอร์น้อยที่สุดในประวัติศาสตร์ของซีรีส์ MiniCPM-V โดยมีเพียง 1.3B

แต่ในด้านความสามารถมัลติโมดัลโดยรวม มันเหนือกว่า Qwen3.5-0.8B ของ Alibaba และ Gemma4-E2B-it ของ Google

พารามิเตอร์น้อยกว่า ความสามารถมากกว่า และความเร็วยังมากกว่าอีกด้วย

MinCPM-V 4.6 โมเดลมัลติโมดัลขนาด 1.3B จากบริษัท 面壁智能 เปิดตัวแล้ว ประสิทธิภาพเหนือกว่า Qwen และ Gemma สามารถรันบนสมาร์ทโฟนทุกเครื่อง

มาดูประสิทธิภาพบนมือถือกันก่อน ลองใช้โมเดล MiniCPM-V 4.6 ล่าสุดบนสมาร์ทโฟนของคุณเอง มันเร็วมาก เร็วจนหยุดไม่อยู่ ช่องป้อนข้อมูลบนมือถือของฉันยังไม่หดตัวลงด้วยซ้ำ ผลลัพธ์ก็แสดงออกมาเรียบร้อยแล้ว

มาดูผลลัพธ์กันก่อน

MiniCPM-V 4.6 มีให้เลือกสองเวอร์ชัน: Instruct (ตอบตรง) และ Thinking (อนุมานเชิงลึก)

ด้านล่างนี้คือประสิทธิภาพของทั้งสองเวอร์ชันในงานต่างๆ

มาดูข้อมูลเปรียบเทียบโดยตรง

ความสามารถโดยรวม: ในงานทำความเข้าใจข้อความและรูปภาพส่วนใหญ่ 4.6 เหนือกว่า Qwen3.5-0.8B และ Gemma4-E2B-it ไม่ใช่แค่ด้านใดด้านหนึ่งที่แข็งแกร่ง แต่เป็นความสามารถโดยรวมที่แข็งแกร่ง

ความหนาแน่นของปัญญา: เวอร์ชันที่ไม่ใช่การอนุมานของ 4.6 ใช้เพียง 5.4M token ในขณะที่เวอร์ชันที่ไม่ใช่การอนุมานของ Qwen3.5-0.8B ใช้ 101M ซึ่งน้อยกว่า 1/19

ความแตกต่างของเวอร์ชันการอนุมานยิ่งมากขึ้น เวอร์ชันการอนุมานของ Qwen3.5-0.8B ใช้ 233M token ในขณะที่ 4.6 ใช้เพียง 1/43 ของจำนวนนั้น

การใช้ token เพียง 2.5% ก็เหนือกว่า Qwen3.5-0.8B แล้ว ความแตกต่างของประสิทธิภาพนี้ถือว่าน่าทึ่งมาก

ประสิทธิภาพการอนุมาน:

ปริมาณงาน token ตาม vLLM สูงกว่า Qwen3.5-0.8B 1.5 เท่า ปริมาณงานต่อการ์ดเดียว 2624 token/s ประมวลผลภาพ 1344² ได้ 14.3 ภาพต่อวินาที (เมื่อส่งออก 200 token) ซึ่งสูงกว่า Qwen3.5-0.8B 1.4 เท่า การ์ดจอเดียวกันสามารถรองรับปริมาณการใช้งานออนไลน์ได้หลายเท่า

ความหน่วงในการตอบสนองครั้งแรก (TTFT):

การประมวลผลภาพความละเอียดสูง 3136² 4.6 ใช้เวลาเพียง 75.7ms เร็วกว่า Qwen3.5-0.8B 2.2 เท่า ที่น่าทึ่งที่สุดคือ เมื่อความละเอียดเพิ่มขึ้นจากต่ำไปสูง เส้นโค้งความหน่วงเกือบจะราบเรียบ ความละเอียดเพิ่มขึ้นเป็นสองเท่า แต่ความหน่วงแทบไม่เพิ่มขึ้น

ทำไมถึงเร็วขนาดนี้

ประสิทธิภาพสูงสุดของ MiniCPM-V 4.6 มาจากนวัตกรรมทางเทคนิคที่สำคัญสองประการ

LLaVA-UHD v4: ประสิทธิภาพการเข้ารหัสภาพเพิ่มขึ้นเป็นสองเท่า

เมื่อประมวลผลภาพความละเอียดสูง การใช้ทรัพยากรการคำนวณของโซลูชันแบบดั้งเดิมจะเพิ่มขึ้นเป็นกำลังสองตามความละเอียด

ยิ่งภาพใหญ่ ปริมาณการคำนวณก็ยิ่งเพิ่มขึ้นเร็วขึ้น

โซลูชันที่มีอยู่ในปัจจุบันคือการบีบอัด Token หลังจาก ViT แต่สิ่งนี้ช่วยลดภาระของ LLM ปลายน้ำเท่านั้น ปริมาณการคำนวณภายในตัวเข้ารหัสภาพไม่ได้ลดลงเลย

แนวคิดของ LLaVA-UHD v4 คือ: ย้ายการบีบอัด Token ไปยังชั้นตื้นภายใน ViT ยิ่งบีบอัดเร็วเท่าไหร่ Token ที่ต้องประมวลผลในภายหลังก็ยิ่งน้อยลง ปริมาณการคำนวณโดยรวมก็ยิ่งต่ำลง

แต่มีจุดยากทางเทคนิคอยู่ตรงนี้

ชั้นตื้นของ ViT ได้เรียนรู้การแสดงภาพจำนวนมากแล้ว การแทรกโมดูลดาวน์แซมปลิงที่เริ่มต้นแบบสุ่มโดยตรงจะทำลายการแสดงเหล่านี้ และทำให้เกิดค่าใช้จ่ายในการฝึกอบรมเพิ่มเติมที่สูง

สามารถดูเอกสารต้นฉบับได้โดยตรง: https://huggingface.co/papers/2605.08985

โซลูชันของ LLaVA-UHD v4 นั้นชาญฉลาดมาก:

ก่อนการรวม Token ให้ใช้ Window Attention เพื่อเพิ่มปฏิสัมพันธ์บริบทของ Token ที่อยู่ใกล้เคียง นำพารามิเตอร์ของชั้น ViT ที่ได้รับการฝึกอบรมล่วงหน้าที่อยู่ติดกันมาใช้ซ้ำ เพื่อลดการรบกวนต่อการแสดงภาพ

ผลลัพธ์คือปริมาณการดำเนินการจุดลอยตัวในขั้นตอนการเข้ารหัสภาพลดลง 55.8% โดยประสิทธิภาพไม่ลดลง เมื่อเทียบกับ ViT แบบดั้งเดิม ประหยัดค่าใช้จ่ายในการเข้ารหัสภาพได้ประมาณครึ่งหนึ่ง

การบีบอัดแบบผสม 4 เท่า/16 เท่า: เมื่อก่อนต้องเลือกอย่างใดอย่างหนึ่ง ตอนนี้ได้ทั้งสองอย่าง

อัตราการบีบอัด Token ภาพส่งผลโดยตรงต่อตัวบ่งชี้สำคัญ เช่น การใช้หน่วยความจำ ความหน่วงในการตอบสนองครั้งแรก ปริมาณงานการอนุมาน และการใช้พลังงาน

โมเดลส่วนใหญ่ในท้องตลาดรองรับเฉพาะการบีบอัด 4 เท่าเท่านั้น

FaceWall เริ่มทำการบีบอัด 16 เท่าตั้งแต่ปี 2024 แต่ก่อนหน้านี้ทำได้เพียงเลือกอย่างใดอย่างหนึ่งระหว่าง 4 เท่าและ 16 เท่า

MiniCPM-V 4.6 รวมทั้งสองอย่างนี้เข้าไว้ด้วยกัน

ใช้การบีบอัด 4 เท่าเพื่อความแม่นยำ ใช้การบีบอัด 16 เท่าเพื่อความเร็ว

โมเดลเดียว สองโหมด บนคลาวด์ก็สามารถรองรับปริมาณการใช้งานที่สูงพร้อมกันได้ด้วยต้นทุนที่ต่ำมาก

การบีบอัด 16 เท่าไม่ใช่แค่การโปรโมท Kuaishou ใช้ในสภาพแวดล้อมการผลิตแล้ว

โมเดลแนะนำขนาดใหญ่ OneRec ที่ Kuaishou เปิดตัวในปี 2025 ใช้ MiniCPM-V-8B เพื่อประมวลผลการแสดงมัลติโมดัล เช่น คำบรรยาย แท็ก ASR OCR และภาพปกของวิดีโอ รองรับ 25% ของคำขอในสถานการณ์หลักของการแนะนำวิดีโอสั้นของ Kuaishou

ผลิตภัณฑ์ที่มีผู้ใช้งานรายวันหลายร้อยล้านคน การบีบอัด 16 เท่าสามารถรองรับได้

ลดเกณฑ์การเข้าถึง

พารามิเตอร์ 1.3B หมายความว่าอุปกรณ์ส่วนตัวเกือบทั้งหมดสามารถทำงานได้ สมาร์ทโฟน คอมพิวเตอร์ ระบบรถยนต์ เฟอร์นิเจอร์อัจฉริยะ ไม่จำเป็นต้องใช้ชิประดับสูง

เกณฑ์การปรับแต่งละเอียดต่ำมาก

การ์ดจอระดับผู้บริโภคอย่าง RTX 4090 สามารถรันกระบวนการปรับแต่งละเอียดทั้งหมดได้อย่างเต็มรูปแบบ นักพัฒนาอิสระ ทีมมหาวิทยาลัย และสตาร์ทอัพ ไม่จำเป็นต้องเช่าคลัสเตอร์การคำนวณเพื่อทำการปรับแต่งเฉพาะทางแนวตั้ง

และระบบนิเวศเชื่อมต่อกันอย่างสมบูรณ์:

เฟรมเวิร์กการปรับแต่งละเอียด: ms-swift, LLaMA-Factory
การปรับใช้การอนุมาน: vLLM, SGLang, llama.cpp, Ollama

ครอบคลุมเฟรมเวิร์กหลักทั้งหมด ไม่ต้องตั้งค่าสภาพแวดล้อมเอง เตรียมข้อมูล แก้ไขการกำหนดค่าสองสามบรรทัด กดปุ่มเดียวเพื่อเริ่มการฝึก

คู่มือการปรับใช้ฝั่งอุปกรณ์:

ภาษาอังกฤษ: https://github.com/OpenBMB/MiniCPM-V-Apps/blob/main/README.md
ภาษาไทย: https://github.com/OpenBMB/MiniCPM-V-Apps/blob/main/README_zh.md
เดโม: https://huggingface.co/spaces/openbmb/MiniCPM-V-4.6-Demo

ลองดูเส้นทางวิวัฒนาการของซีรีส์ MiniCPM-V:

MiniCPM-V 2.0: พารามิเตอร์ 2.8B (เมษายน 2024)
MiniCPM-V 2.5: พารามิเตอร์ 8B (พฤษภาคม 2024)
MiniCPM-V 2.6: พารามิเตอร์ 8B (สิงหาคม 2024)
MiniCPM-V 4.0: พารามิเตอร์ 4.1B (สิงหาคม 2025)
MiniCPM-V 4.5: พารามิเตอร์ 8B (สิงหาคม 2025)
MiniCPM-V 4.6: พารามิเตอร์ 1.3B (พฤษภาคม 2026)

ไม่ได้ใหญ่ขึ้นเรื่อยๆ แต่หนาแน่นขึ้นเรื่อยๆ

FaceWall เสนอ “กฎแห่งความหนาแน่น” ในปี 2024 ไม่ใช่ยิ่งโมเดลใหญ่ยิ่งดี แต่ยิ่งความหนาแน่นของปัญญาสูงยิ่งดี

ผลการวิจัยนี้ได้รับการตีพิมพ์ในวารสาร Nature ฉบับย่อย

MiniCPM-V 4.6 เป็นการยืนยันกฎแห่งความหนาแน่นอีกครั้ง: พารามิเตอร์ 1.3B บรรลุความหนาแน่นของปัญญาสูงสุดในขนาดเดียวกัน

ณ เดือนมีนาคม 2026 ซีรีส์ MiniCPM-V มียอดดาวน์โหลดสะสมในชุมชนโอเพนซอร์สเกือบ 30 ล้านครั้ง

FaceWall Intelligence ดำเนินตามเส้นทางฝั่งอุปกรณ์ตั้งแต่วันแรก

การทำให้โมเดลเล็กลงไม่ใช่เพื่อความเล็ก แต่เพื่อให้ AI ตกไปอยู่ในทุกอุปกรณ์

ที่อยู่ Hugging Face: https://huggingface.co/openbmb/MiniCPM-V-4.6
ที่อยู่ GitHub: https://github.com/OpenBMB/MiniCPM-V
ที่อยู่ Modelscope: https://modelscope.cn/models/OpenBMB/MiniCPM-V-4.6
ที่อยู่ Web Demo: https://huggingface.co/spaces/openbmb/MiniCPM-V-4.6-Demo
ที่อยู่ App Demo: https://github.com/OpenBMB/MiniCPM-V-Apps

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง