โมเดลมัลติโมดัล MiniCPM-V 4.6 โอเพนซอร์สล่าสุดจาก FaceWall Intelligence มีพารามิเตอร์เพียง 1.3B แต่สามารถทำงานได้อย่างราบรื่นบนสมาร์ทโฟนทุกเครื่อง
นี่คือโมเดลที่มีพารามิเตอร์น้อยที่สุดในประวัติศาสตร์ของซีรีส์ MiniCPM-V โดยมีเพียง 1.3B
แต่ในด้านความสามารถมัลติโมดัลโดยรวม มันเหนือกว่า Qwen3.5-0.8B ของ Alibaba และ Gemma4-E2B-it ของ Google
พารามิเตอร์น้อยกว่า ความสามารถมากกว่า และความเร็วยังมากกว่าอีกด้วย

มาดูประสิทธิภาพบนมือถือกันก่อน ลองใช้โมเดล MiniCPM-V 4.6 ล่าสุดบนสมาร์ทโฟนของคุณเอง มันเร็วมาก เร็วจนหยุดไม่อยู่ ช่องป้อนข้อมูลบนมือถือของฉันยังไม่หดตัวลงด้วยซ้ำ ผลลัพธ์ก็แสดงออกมาเรียบร้อยแล้ว
01
มาดูผลลัพธ์กันก่อน
MiniCPM-V 4.6 มีให้เลือกสองเวอร์ชัน: Instruct (ตอบตรง) และ Thinking (อนุมานเชิงลึก)
ด้านล่างนี้คือประสิทธิภาพของทั้งสองเวอร์ชันในงานต่างๆ


มาดูข้อมูลเปรียบเทียบโดยตรง
ความสามารถโดยรวม: ในงานทำความเข้าใจข้อความและรูปภาพส่วนใหญ่ 4.6 เหนือกว่า Qwen3.5-0.8B และ Gemma4-E2B-it ไม่ใช่แค่ด้านใดด้านหนึ่งที่แข็งแกร่ง แต่เป็นความสามารถโดยรวมที่แข็งแกร่ง
ความหนาแน่นของปัญญา: เวอร์ชันที่ไม่ใช่การอนุมานของ 4.6 ใช้เพียง 5.4M token ในขณะที่เวอร์ชันที่ไม่ใช่การอนุมานของ Qwen3.5-0.8B ใช้ 101M ซึ่งน้อยกว่า 1/19
ความแตกต่างของเวอร์ชันการอนุมานยิ่งมากขึ้น เวอร์ชันการอนุมานของ Qwen3.5-0.8B ใช้ 233M token ในขณะที่ 4.6 ใช้เพียง 1/43 ของจำนวนนั้น
การใช้ token เพียง 2.5% ก็เหนือกว่า Qwen3.5-0.8B แล้ว ความแตกต่างของประสิทธิภาพนี้ถือว่าน่าทึ่งมาก

ประสิทธิภาพการอนุมาน:
ปริมาณงาน token ตาม vLLM สูงกว่า Qwen3.5-0.8B 1.5 เท่า ปริมาณงานต่อการ์ดเดียว 2624 token/s ประมวลผลภาพ 1344² ได้ 14.3 ภาพต่อวินาที (เมื่อส่งออก 200 token) ซึ่งสูงกว่า Qwen3.5-0.8B 1.4 เท่า การ์ดจอเดียวกันสามารถรองรับปริมาณการใช้งานออนไลน์ได้หลายเท่า

ความหน่วงในการตอบสนองครั้งแรก (TTFT):
การประมวลผลภาพความละเอียดสูง 3136² 4.6 ใช้เวลาเพียง 75.7ms เร็วกว่า Qwen3.5-0.8B 2.2 เท่า ที่น่าทึ่งที่สุดคือ เมื่อความละเอียดเพิ่มขึ้นจากต่ำไปสูง เส้นโค้งความหน่วงเกือบจะราบเรียบ ความละเอียดเพิ่มขึ้นเป็นสองเท่า แต่ความหน่วงแทบไม่เพิ่มขึ้น

02
ทำไมถึงเร็วขนาดนี้
ประสิทธิภาพสูงสุดของ MiniCPM-V 4.6 มาจากนวัตกรรมทางเทคนิคที่สำคัญสองประการ
LLaVA-UHD v4: ประสิทธิภาพการเข้ารหัสภาพเพิ่มขึ้นเป็นสองเท่า

เมื่อประมวลผลภาพความละเอียดสูง การใช้ทรัพยากรการคำนวณของโซลูชันแบบดั้งเดิมจะเพิ่มขึ้นเป็นกำลังสองตามความละเอียด
ยิ่งภาพใหญ่ ปริมาณการคำนวณก็ยิ่งเพิ่มขึ้นเร็วขึ้น
โซลูชันที่มีอยู่ในปัจจุบันคือการบีบอัด Token หลังจาก ViT แต่สิ่งนี้ช่วยลดภาระของ LLM ปลายน้ำเท่านั้น ปริมาณการคำนวณภายในตัวเข้ารหัสภาพไม่ได้ลดลงเลย
แนวคิดของ LLaVA-UHD v4 คือ: ย้ายการบีบอัด Token ไปยังชั้นตื้นภายใน ViT ยิ่งบีบอัดเร็วเท่าไหร่ Token ที่ต้องประมวลผลในภายหลังก็ยิ่งน้อยลง ปริมาณการคำนวณโดยรวมก็ยิ่งต่ำลง
แต่มีจุดยากทางเทคนิคอยู่ตรงนี้
ชั้นตื้นของ ViT ได้เรียนรู้การแสดงภาพจำนวนมากแล้ว การแทรกโมดูลดาวน์แซมปลิงที่เริ่มต้นแบบสุ่มโดยตรงจะทำลายการแสดงเหล่านี้ และทำให้เกิดค่าใช้จ่ายในการฝึกอบรมเพิ่มเติมที่สูง
สามารถดูเอกสารต้นฉบับได้โดยตรง: https://huggingface.co/papers/2605.08985
โซลูชันของ LLaVA-UHD v4 นั้นชาญฉลาดมาก:

ก่อนการรวม Token ให้ใช้ Window Attention เพื่อเพิ่มปฏิสัมพันธ์บริบทของ Token ที่อยู่ใกล้เคียง นำพารามิเตอร์ของชั้น ViT ที่ได้รับการฝึกอบรมล่วงหน้าที่อยู่ติดกันมาใช้ซ้ำ เพื่อลดการรบกวนต่อการแสดงภาพ
ผลลัพธ์คือปริมาณการดำเนินการจุดลอยตัวในขั้นตอนการเข้ารหัสภาพลดลง 55.8% โดยประสิทธิภาพไม่ลดลง เมื่อเทียบกับ ViT แบบดั้งเดิม ประหยัดค่าใช้จ่ายในการเข้ารหัสภาพได้ประมาณครึ่งหนึ่ง
การบีบอัดแบบผสม 4 เท่า/16 เท่า: เมื่อก่อนต้องเลือกอย่างใดอย่างหนึ่ง ตอนนี้ได้ทั้งสองอย่าง
อัตราการบีบอัด Token ภาพส่งผลโดยตรงต่อตัวบ่งชี้สำคัญ เช่น การใช้หน่วยความจำ ความหน่วงในการตอบสนองครั้งแรก ปริมาณงานการอนุมาน และการใช้พลังงาน
โมเดลส่วนใหญ่ในท้องตลาดรองรับเฉพาะการบีบอัด 4 เท่าเท่านั้น
FaceWall เริ่มทำการบีบอัด 16 เท่าตั้งแต่ปี 2024 แต่ก่อนหน้านี้ทำได้เพียงเลือกอย่างใดอย่างหนึ่งระหว่าง 4 เท่าและ 16 เท่า
MiniCPM-V 4.6 รวมทั้งสองอย่างนี้เข้าไว้ด้วยกัน
ใช้การบีบอัด 4 เท่าเพื่อความแม่นยำ ใช้การบีบอัด 16 เท่าเพื่อความเร็ว
โมเดลเดียว สองโหมด บนคลาวด์ก็สามารถรองรับปริมาณการใช้งานที่สูงพร้อมกันได้ด้วยต้นทุนที่ต่ำมาก
การบีบอัด 16 เท่าไม่ใช่แค่การโปรโมท Kuaishou ใช้ในสภาพแวดล้อมการผลิตแล้ว
โมเดลแนะนำขนาดใหญ่ OneRec ที่ Kuaishou เปิดตัวในปี 2025 ใช้ MiniCPM-V-8B เพื่อประมวลผลการแสดงมัลติโมดัล เช่น คำบรรยาย แท็ก ASR OCR และภาพปกของวิดีโอ รองรับ 25% ของคำขอในสถานการณ์หลักของการแนะนำวิดีโอสั้นของ Kuaishou
ผลิตภัณฑ์ที่มีผู้ใช้งานรายวันหลายร้อยล้านคน การบีบอัด 16 เท่าสามารถรองรับได้

03
ลดเกณฑ์การเข้าถึง
พารามิเตอร์ 1.3B หมายความว่าอุปกรณ์ส่วนตัวเกือบทั้งหมดสามารถทำงานได้ สมาร์ทโฟน คอมพิวเตอร์ ระบบรถยนต์ เฟอร์นิเจอร์อัจฉริยะ ไม่จำเป็นต้องใช้ชิประดับสูง
เกณฑ์การปรับแต่งละเอียดต่ำมาก
การ์ดจอระดับผู้บริโภคอย่าง RTX 4090 สามารถรันกระบวนการปรับแต่งละเอียดทั้งหมดได้อย่างเต็มรูปแบบ นักพัฒนาอิสระ ทีมมหาวิทยาลัย และสตาร์ทอัพ ไม่จำเป็นต้องเช่าคลัสเตอร์การคำนวณเพื่อทำการปรับแต่งเฉพาะทางแนวตั้ง
และระบบนิเวศเชื่อมต่อกันอย่างสมบูรณ์:
- เฟรมเวิร์กการปรับแต่งละเอียด: ms-swift, LLaMA-Factory
- การปรับใช้การอนุมาน: vLLM, SGLang, llama.cpp, Ollama


ครอบคลุมเฟรมเวิร์กหลักทั้งหมด ไม่ต้องตั้งค่าสภาพแวดล้อมเอง เตรียมข้อมูล แก้ไขการกำหนดค่าสองสามบรรทัด กดปุ่มเดียวเพื่อเริ่มการฝึก
คู่มือการปรับใช้ฝั่งอุปกรณ์:
ภาษาอังกฤษ: https://github.com/OpenBMB/MiniCPM-V-Apps/blob/main/README.md
ภาษาไทย: https://github.com/OpenBMB/MiniCPM-V-Apps/blob/main/README_zh.md
เดโม: https://huggingface.co/spaces/openbmb/MiniCPM-V-4.6-Demo
ลองดูเส้นทางวิวัฒนาการของซีรีส์ MiniCPM-V:
- MiniCPM-V 2.0: พารามิเตอร์ 2.8B (เมษายน 2024)
- MiniCPM-V 2.5: พารามิเตอร์ 8B (พฤษภาคม 2024)
- MiniCPM-V 2.6: พารามิเตอร์ 8B (สิงหาคม 2024)
- MiniCPM-V 4.0: พารามิเตอร์ 4.1B (สิงหาคม 2025)
- MiniCPM-V 4.5: พารามิเตอร์ 8B (สิงหาคม 2025)
- MiniCPM-V 4.6: พารามิเตอร์ 1.3B (พฤษภาคม 2026)
ไม่ได้ใหญ่ขึ้นเรื่อยๆ แต่หนาแน่นขึ้นเรื่อยๆ
FaceWall เสนอ “กฎแห่งความหนาแน่น” ในปี 2024 ไม่ใช่ยิ่งโมเดลใหญ่ยิ่งดี แต่ยิ่งความหนาแน่นของปัญญาสูงยิ่งดี
ผลการวิจัยนี้ได้รับการตีพิมพ์ในวารสาร Nature ฉบับย่อย
MiniCPM-V 4.6 เป็นการยืนยันกฎแห่งความหนาแน่นอีกครั้ง: พารามิเตอร์ 1.3B บรรลุความหนาแน่นของปัญญาสูงสุดในขนาดเดียวกัน
ณ เดือนมีนาคม 2026 ซีรีส์ MiniCPM-V มียอดดาวน์โหลดสะสมในชุมชนโอเพนซอร์สเกือบ 30 ล้านครั้ง
FaceWall Intelligence ดำเนินตามเส้นทางฝั่งอุปกรณ์ตั้งแต่วันแรก
การทำให้โมเดลเล็กลงไม่ใช่เพื่อความเล็ก แต่เพื่อให้ AI ตกไปอยู่ในทุกอุปกรณ์
ที่อยู่ Hugging Face: https://huggingface.co/openbmb/MiniCPM-V-4.6
ที่อยู่ GitHub: https://github.com/OpenBMB/MiniCPM-V
ที่อยู่ Modelscope: https://modelscope.cn/models/OpenBMB/MiniCPM-V-4.6
ที่อยู่ Web Demo: https://huggingface.co/spaces/openbmb/MiniCPM-V-4.6-Demo
ที่อยู่ App Demo: https://github.com/OpenBMB/MiniCPM-V-Apps
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/34479
