ตรงกันข้ามกับความเชื่อทั่วไป! โมเดลขนาดเล็ก 1B เอาชนะโมเดลใหญ่ระดับหมื่นล้านได้ AI บนอุปกรณ์กำลังจะระเบิดศักยภาพ

ตรงกันข้ามกับความเชื่อทั่วไป! โมเดลขนาดเล็ก 1B เอาชนะโมเดลใหญ่ระดับหมื่นล้านได้ AI บนอุปกรณ์กำลังจะระเบิดศักยภาพ

ในช่วงไม่กี่ปีที่ผ่านมา Scaling Law ถูกยกให้เป็นหลักการสำคัญของวงการ AI ทั้งหมด อุตสาหกรรมโดยทั่วไปเชื่อว่ายิ่งโมเดลมีขนาดใหญ่และมีพารามิเตอร์มากเท่าไร ความสามารถในการใช้เหตุผลเชิงตรรกะและคลังความรู้โลกที่เกิดขึ้นก็จะยิ่งทรงพลังมากขึ้นเท่านั้น

อย่างไรก็ตาม ต้นทุนการอนุมานที่สูงของโมเดลขนาดใหญ่ ความหน่วงของเครือข่ายที่ควบคุมไม่ได้ และความเสี่ยงด้านความเป็นส่วนตัวของข้อมูลที่เข้มงวด ทำให้การทำให้ AI เข้าถึงได้อย่างแท้จริงกลายเป็นเรื่องเท็จ ประสิทธิภาพ ความทันเวลา และการทำงานพร้อมกัน รวมกันเป็น “สามเหลี่ยมที่เป็นไปไม่ได้” ที่โมเดลขนาดใหญ่ไม่สามารถเอาชนะได้ในกระบวนการนำไปใช้งานจริง

ปีนี้เป็นปีแรกของการนำแอปพลิเคชัน AI ไปใช้ในวงกว้าง เมื่อเราพิจารณาความต้องการที่แท้จริงของการทำให้ AI เข้าถึงได้อย่างแท้จริง เราจะพบแนวโน้มวิวัฒนาการที่ขัดกับสัญชาตญาณ: ในบางมิติ โมเดลที่มีขนาดพารามิเตอร์เล็กกว่ากลับสามารถระเบิดประสิทธิภาพที่สูงกว่า และแสดงข้อได้เปรียบด้านประสิทธิภาพในสถานการณ์เฉพาะได้

ในความเป็นจริง มีผู้ผลิตบางรายที่รับรู้ถึงความต้องการที่แท้จริงของการปรับใช้ฝั่งอุปกรณ์และการลดต้นทุนบนคลาวด์อย่างเฉียบแหลม และกำลังวางตำแหน่งอย่างเงียบๆ ใน赛道โมเดลฝั่งอุปกรณ์ที่มีขนาดต่ำกว่า 1B (พันล้าน) พารามิเตอร์

บางคนอาจตั้งคำถาม: โมเดลเล็กขนาดนี้จะมีประโยชน์อะไร?

ในสถานการณ์ทางธุรกิจจริง โมเดลฝั่งอุปกรณ์เหล่านี้กำลังรับภาระงานพื้นฐานที่สุด แต่มีประโยชน์และเป็นแกนหลักที่สุด

พวกมันมีขนาดเล็ก สามารถทำงานแบบออฟไลน์ระดับมิลลิวินาทีบนมือถือ ปกป้องความเป็นส่วนตัวของผู้ใช้อย่างเคร่งครัด และยังสามารถทนต่อการจดจำเจตนาที่มีความหน่วงต่ำภายใต้การทำงานพร้อมกันหลายสิบล้านครั้ง ในระบบ RAG พวกมันทำหน้าที่เป็นเราเตอร์อัจฉริยะและพนักงานทำความสะอาดข้อมูล แยกคำขอสนทนาทั่วไป และลดต้นทุนการเรียกใช้โมเดลขนาดใหญ่ เมื่อทำงานร่วมกับโมเดลขนาดใหญ่มหึมา พวกมันใช้เทคนิคการสุ่มตัวอย่างแบบเก็งกำไรเพื่อเพิ่มความเร็วในการทำนาย 2 ถึง 3 เท่า ที่สำคัญกว่านั้น ในงานที่แคบ เช่น การสกัดข้อมูลและการแปลงรูปแบบ โมเดลฝั่งอุปกรณ์ที่ผ่านการปรับแต่งอย่างละเอียดแทบจะไม่มีภาพหลอนเลย ความแม่นยำ甚至超过โมเดลขนาดใหญ่ระดับหมื่นล้านพารามิเตอร์ — ในแง่ของความเชี่ยวชาญเฉพาะจุด โมเดลขนาดใหญ่บนคลาวด์อาจไม่ใช่คู่ต่อสู้ของพวกมัน

จาก Qwen3.5-0.8B ของ Alibaba ไปจนถึง Gemma 4 E2B-it ที่ Google เปิดตัวสำหรับมือถือ LLM แบบน้ำหนักเบากำลังเข้ามารับงานเสริมที่ต้องการความรวดเร็ว เสถียร และประหยัดทรัพยากรอย่างรวดเร็ว

เมื่อวันที่ 11 พฤษภาคม 面壁智能 ได้เปิดตัวและปล่อยโอเพนซอร์สโมเดลพื้นฐานรุ่นใหม่ของซีรีส์ MiniCPM-V อย่างเป็นทางการ — MiniCPM-V 4.6 โมเดลนี้มีขนาดพารามิเตอร์โดยรวมเพียงประมาณ 1B (1.3B) ซึ่งเป็นเวอร์ชันที่มีขนาดพารามิเตอร์เล็กที่สุดในประวัติศาสตร์ของซีรีส์นี้ แต่ในด้านความสามารถ multimodal โดยรวม มันประสบความสำเร็จในการเอาชนะ Qwen3.5-0.8B ของ Alibaba และ Gemma 4 E2B-it ของ Google ซึ่งถือเป็นมาตรฐาน ทำให้บรรลุ “ขนาดเล็กกว่า ประสิทธิภาพสูงกว่า และประสิทธิภาพดีกว่า” อย่างแท้จริง

ตรงกันข้ามกับความเชื่อทั่วไป! โมเดลขนาดเล็ก 1B เอาชนะโมเดลใหญ่ระดับหมื่นล้านได้ AI บนอุปกรณ์กำลังจะระเบิดศักยภาพ

🤗 Hugging Face: https://huggingface.co/openbmb/MiniCPM-V-4.6
💻 GitHub: https://github.com/OpenBMB/MiniCPM-V
🔭 Modelscope: https://modelscope.cn/models/OpenBMB/MiniCPM-V-4.6
🌐 Web Demo: https://huggingface.co/spaces/openbmb/MiniCPM-V-4.6-Demo
📱 App Demo: https://github.com/OpenBMB/MiniCPM-V-Apps

นับตั้งแต่เปิดตัวอย่างน่าทึ่งครั้งแรกในต้นเดือนเมษายน 2024 MiniCPM-V ได้บรรลุการนำไปใช้ในเชิงพาณิชย์อย่างกว้างขวางในสถานการณ์ปลายทาง เช่น รถยนต์ พีซี มือถือ และสมาร์ทโฮม

การเปิดตัว MiniCPM-V 4.6 ในครั้งนี้ ไม่เพียงแต่ทำให้เกิดการปรับปรุงที่สำคัญในหลายมิติ เช่น ขนาดพารามิเตอร์ ความเร็วในการอนุมาน และต้นทุนการคำนวณ แต่ยังทำให้ 面壁智能 ยืนหยัดอย่างมั่นคงในด้านโอเพนซอร์ส multimodal ฝั่งอุปกรณ์ นี่เป็นก้าวที่มั่นคงอีกก้าวหนึ่งสู่วิสัยทัศน์ของ 面壁智能 ในการ “รู้ทุกสิ่ง”

ทำไม MiniCPM-4.6 ขนาด 1B ถึงถูกเรียกว่า “อันดับหนึ่งฝั่งอุปกรณ์”?

การประเมินโมเดลฝั่งอุปกรณ์ ไม่สามารถดูแค่ขนาดพารามิเตอร์เท่านั้น แต่ต้องดูว่ามันสามารถระเบิด “ความหนาแน่นของความฉลาด” ได้มากเพียงใดภายใต้สภาพแวดล้อมการคำนวณที่จำกัดอย่างรุนแรง โมเดลที่มีขนาดต่างกันมีเกณฑ์การทำงานที่แตกต่างกันโดยสิ้นเชิง: ยิ่งพารามิเตอร์เล็กเท่าไร เกณฑ์การทำงานก็ยิ่งต่ำและเร็วขึ้นเท่านั้น ทำให้สามารถปรับให้เข้ากับชิปและสภาพแวดล้อมการคำนวณที่หลากหลายได้อย่างสมบูรณ์แบบ

“อันดับหนึ่งฝั่งอุปกรณ์” ของ MiniCPM-V 4.6 ได้รับการยืนยันผ่านการตรวจสอบสองเท่าทั้งจากความสามารถ multimodal โดยรวมที่แท้จริงและประสิทธิภาพการอนุมานที่ยอดเยี่ยม

ในเกณฑ์มาตรฐานหลักที่เป็นที่ยอมรับในอุตสาหกรรมหลายแห่ง MiniCPM-V 4.6 แสดงให้เห็นถึงความสามารถโดยรวมที่เหนือกว่าขนาดของมันอย่างมาก ตามข้อมูลการประเมินล่าสุด ความหนาแน่นของความฉลาดในกลุ่มโมเดลขนาดเดียวกันนั้นสูงที่สุด

ตรงกันข้ามกับความเชื่อทั่วไป! โมเดลขนาดเล็ก 1B เอาชนะโมเดลใหญ่ระดับหมื่นล้านได้ AI บนอุปกรณ์กำลังจะระเบิดศักยภาพ

  • เอาชนะ Qwen3.5-0.8B อย่างครอบคลุม: ปัจจุบัน มาตรฐาน multimodal ขนาดประมาณ 1B ล่าสุดในอุตสาหกรรมคือ Qwen3.5-0.8B ในขณะที่ MiniCPM-4.6 เวอร์ชันนี้สามารถเอาชนะในงานพื้นฐาน เช่น งานทำความเข้าใจข้อความและรูปภาพส่วนใหญ่ได้

ตรงกันข้ามกับความเชื่อทั่วไป! โมเดลขนาดเล็ก 1B เอาชนะโมเดลใหญ่ระดับหมื่นล้านได้ AI บนอุปกรณ์กำลังจะระเบิดศักยภาพ

  • การใช้งาน Token ที่ยอดเยี่ยม: ในระบบประเมิน Artificial Analysis ที่เชื่อถือได้ MiniCPM-V 4.6 ใช้ปริมาณ Token เพียง 2.5% ของ Qwen3.5-0.8B เพื่อให้ได้ผลลัพธ์ที่เหนือกว่า การใช้บริบทอย่างมีประสิทธิภาพนี้เป็นคุณสมบัติที่โมเดลฝั่งอุปกรณ์ให้ความสำคัญอย่างมาก

สำหรับสถานการณ์อุตสาหกรรมคลาวด์ที่มี “การทำงานพร้อมกันสูง” และฮาร์ดแวร์ปลายทางที่จำกัดด้านพลังงานการคำนวณ ความเร็วในการอนุมานและปริมาณงานเป็นตัวชี้วัดหลัก ด้วยเทคโนโลยีหลักของการบีบอัด Visual Token 16 เท่า มาดูผลการทดสอบจริงของ MiniCPM-V 4.6 ในสภาพแวดล้อมการอนุมาน RTX 4090 + vLLM ซึ่งสร้างข้อได้เปรียบที่สำคัญในสองมิติหลักพร้อมกัน:

ประการแรก ในด้านความหน่วงตอบสนองคำแรก (TTFT) แบบเดี่ยว MiniCPM-V 4.6 แสดงความเสถียรสูงมาก มันเกือบจะทำให้เส้นโค้ง “ความละเอียด-ความหน่วง” ราบเรียบ เมื่อประมวลผลภาพความละเอียดสูงพิเศษ 3136² การตอบสนองครั้งแรกใช้เวลาเพียง 75.7 มิลลิวินาที ซึ่งเร็วกว่า Qwen3.5-0.8B ที่มีขนาดฐานเดียวกัน 2.2 เท่า ซึ่งหมายความว่าเมื่อผู้ใช้โหลดภาพถ่ายระดับ 4K บนการ์ดจอ 4090 เพื่อถามคำถาม โมเดลแทบจะสามารถ “ตอบกลับทันที”

ตรงกันข้ามกับความเชื่อทั่วไป! โมเดลขนาดเล็ก 1B เอาชนะโมเดลใหญ่ระดับหมื่นล้านได้ AI บนอุปกรณ์กำลังจะระเบิดศักยภาพ

ประการที่สอง ข้อได้เปรียบในด้านปริมาณงานพร้อมกันสูงก็โดดเด่นเช่นกัน ภายใต้การตั้งค่าความยาวเอาต์พุต 200 token ปริมาณงานของการ์ดจอ RTX 4090 ตัวเดียวในการประมวลผลภาพความละเอียด 1344² สามารถสูงถึง 2624 token/s ซึ่งหมายถึงการประมวลผล 14.3 ภาพต่อวินาที ซึ่งเป็น 1.4 เท่าของ Qwen3.5-0.8B ซึ่งหมายความว่าการปรับใช้ MiniCPM-V 4.6 บนฮาร์ดแวร์เดียวกันสามารถรองรับปริมาณการรับส่งข้อมูลทางธุรกิจออนไลน์ได้หลายเท่า

ตรงกันข้ามกับความเชื่อทั่วไป! โมเดลขนาดเล็ก 1B เอาชนะโมเดลใหญ่ระดับหมื่นล้านได้ AI บนอุปกรณ์กำลังจะระเบิดศักยภาพ

สองมิตินี้ชี้ไปที่ข้อสรุปเดียวกัน — MiniCPM-V 4.6 ใช้ลำดับภาพที่สั้นกว่าและการใช้ KV-Cache ที่น้อยกว่า เพื่อผลักดันทั้งความรู้สึกฝั่งอุปกรณ์และ ROI (ผลตอบแทนจากการลงทุน) ฝั่งคลาวด์ของการอนุมาน multimodal ไปสู่ระดับใหม่พร้อมกัน

เพื่อให้เห็นภาพ直观 มาดูผลการทำงานจริงของ MiniCPM-V 4.6 บนอุปกรณ์มือถือ (iPhone 17) กัน

  • ให้ AI สังเกตรูปภาพเพื่อระบุวัตถุ

เราให้ MiniCPM-V 4.6 ดูภาพอาหารจริงความละเอียด 3024×3024 (เกือบ 10 ล้านพิกเซล) หลังจากประมวลผลล่วงหน้า ดังที่ข้อมูลก่อนหน้านี้ยืนยัน เนื่องจากการใช้ KV-Cache ที่น้อยมากของโมเดล เมื่อผ่านเกณฑ์การประมวลผลล่วงหน้าที่ใช้เวลามากที่สุดไปแล้ว ลำดับภาพที่精简อย่างมากจะถูกส่งต่อไปยังฐานภาษา 1B และความเร็วในการสร้างข้อความก็พุ่งสูงขึ้นทันที เมื่อเราถามคำถามติดตามตามรายละเอียดของภาพ ไม่จำเป็นต้องผ่านกระบวนการอ่านภาพที่ยาวนานอีกครั้ง ทำให้สามารถตอบกลับได้ทันทีแบบ “ไม่ต้องอุ่นเครื่อง” อย่างแท้จริง บรรลุการถอดรหัสต่อเนื่องระดับมิลลิวินาทีอย่างแท้จริง

  • การจดจำข้อความที่ซับซ้อน

มาดูงานประเภทข้อความกัน หลังจากประมวลผลล่วงหน้า ไม่ว่าจะเป็นการสกัดข้อความหรือการแปลเป็นหลายภาษา ประสิทธิภาพของ MiniCPM-V 4.6 สามารถอธิบายได้ด้วยคำว่า “รวดเร็วดั่งสายฟ้า” ในขณะที่กดปุ่มส่ง สายอักขระก็ไหลออกมาอย่างต่อเนื่อง ความสามารถในการวิเคราะห์ภาพและข้อความที่แม่นยำและความหน่วงในการตอบคำถามแรกที่ต่ำมาก ทำให้รู้สึกได้อย่างแท้จริงว่า AI ได้หลอมรวมเข้ากับ “สายเลือด” ของอุปกรณ์แล้ว ไม่ใช่แค่อินเทอร์เฟซบนคลาวด์ที่อยู่ห่างไกล

เจาะลึกบทความ ดูตรรกะทางเทคนิคของ MiniCPM-V 4.6

ทำไมเมื่อมีพารามิเตอร์น้อยมาก (เพียง 1B) และแม้จะใกล้เคียงกับคู่แข่ง MiniCPM-V 4.6 ถึงสามารถระเบิดประสิทธิภาพการอนุมานและความคุ้มค่าด้านการคำนวณที่น่าทึ่งออกมาได้? และยังบรรลุ “ปาฏิหาริย์” ที่มีพารามิเตอร์มากกว่าเล็กน้อย แต่ประสิทธิภาพกลับแซงหน้าอย่างมาก?

คำตอบซ่อนอยู่ในสถาปัตยกรรม LLaMA-UHD (v4) รุ่นที่สี่ที่พัฒนาโดย 面壁智能 ร่วมกับทีมงานมหาวิทยาลัยชิงหัว ซึ่งมุ่งเน้นไปที่ปัญหาประสิทธิภาพการเข้ารหัสภาพในกระบวนการภาพความละเอียดสูง ทีมวิจัยได้ทำการปรับปรุงทางเทคนิคที่สำคัญสองประการ

นวัตกรรมที่หนึ่ง: การบีบอัด Visual Token ภายใน ViT ก่อนกำหนด

การเข้ารหัสแบบ切片: แก้ปัญหาการระเบิดของการคำนวณจากโครงสร้าง

ปัจจุบัน เมื่อประมวลผลภาพความละเอียดสูง วิธีการหลักในอุตสาหกรรมคือ Global Encoding ซึ่งคงความละเอียดดั้งเดิมและส่งภาพทั้งหมดเข้าไปในตัวเข้ารหัสภาพโดยตรง อย่างไรก็ตาม วิธีนี้ทำให้การคำนวณของกลไก Attention เพิ่มขึ้นในระดับกำลังสองตามความละเอียดที่เพิ่มขึ้น ทำให้เกิดการระเบิดของการคำนวณอย่างรุนแรง

ตรงกันข้ามกับความเชื่อทั่วไป! โมเดลขนาดเล็ก 1B เอาชนะโมเดลใหญ่ระดับหมื่นล้านได้ AI บนอุปกรณ์กำลังจะระเบิดศักยภาพ

LLaMA-UHD v4 เป็นรายแรกที่นำเสนอกลยุทธ์การเข้ารหัสแบบ切片 โดยแบ่งภาพขนาดใหญ่ออกเป็นชิ้นเล็กๆ เพื่อประมวลผลแยกกัน ซึ่งหลีกเลี่ยงปัญหาการขยายตัวของการคำนวณแบบกำลังสองได้อย่างสิ้นเชิง ข้อมูลการทดลองแสดงให้เห็นว่าการเข้ารหัสแบบ切片ไม่เพียงแต่หลีกเลี่ยงคอขวดในการคำนวณ แต่ยังให้การแสดงคุณลักษณะที่สมบูรณ์กว่า Global Encoding ซึ่งนำไปสู่ประสิทธิภาพที่ดีกว่าในงานปลายน้ำ

อย่างไรก็ตาม แม้ว่าการเข้ารหัสแบบ切片จะแก้ปัญหาการระเบิดของการคำนวณของ Global Attention แต่ภาพความละเอียดสูงยังคงสร้างลำดับ Visual Token ที่ใหญ่โตมาก ซึ่งสร้างภาระการอนุมานที่หนักหน่วงให้กับโมเดลภาษาส่วนหลัง โซลูชันการปรับให้เหมาะสมหลักในปัจจุบันส่วนใหญ่จะทำการบีบอัด Token หลังจากที่ ViT สกัดคุณลักษณะทั้งหมดแล้ว วิธีนี้เป็นการแก้ที่ปลายเหตุ ไม่ได้ลดภาระของ LLM อย่างแท้จริง และไม่ได้ลดปริมาณการคำนวณภายในตัวเข้ารหัสภาพขนาดใหญ่เลย

วิธีแก้ของ 面壁智能 คือ: การ “ย้าย” การบีบอัดไปข้างหน้า

เพื่อให้บรรลุประสิทธิภาพสูงสุด LLaMA-UHD v4 ได้ออกแบบโมดูลการบีบอัดภายใน ViT ในช่วงต้น โดยสัญชาตญาณแล้ว ยิ่งบีบอัดเร็วเท่าไร Token ที่ชั้น ViT ส่วนใหญ่ที่เหลือต้องประมวลผลก็ยิ่งน้อยลง ปริมาณการคำนวณก็ลดลงอย่างมากตามธรรมชาติ แต่ความยากอยู่ที่ว่า หากใส่โมดูล downsampling ที่สุ่มเริ่มต้นอย่างหยาบๆ ในชั้นตื้นของ ViT จะทำลายการแสดงภาพที่เรียนรู้อย่างยากลำบากในระหว่างการฝึกก่อนการฝึกอย่างรุนแรง ไม่เพียงแต่ต้นทุนการฝึกจะสูงมาก แต่ยังทำให้โมเดล “โง่ลง”

ด้วยเหตุนี้ ทีมวิจัยจึงแนะนำกลไก Window Attention อย่างชาญฉลาด เพื่อเพิ่มปฏิสัมพันธ์ของบริบทระหว่าง Token ใกล้เคียงก่อนการรวม Token ในเวลาเดียวกัน โดยการใช้พารามิเตอร์ของชั้น ViT ที่อยู่ติดกันซึ่งผ่านการฝึกก่อนการฝึกซ้ำ ทำให้สามารถเริ่มต้นพารามิเตอร์ได้อย่างราบรื่น ลดการรบกวนต่อการแสดงภาพให้น้อยที่สุด

นวัตกรรมทางสถาปัตยกรรมนี้ทำให้การบีบอัด Visual Token สามารถย้ายไปยังชั้นตื้นของ ViT ได้อย่างเสถียร ในขณะที่รักษาประสิทธิภาพของงานปลายน้ำไม่ให้ลดลงเลย ปริมาณการดำเนินการจุดลอยตัวในขั้นตอนการเข้ารหัสภาพลดลงถึง 55.8% (ประหยัดค่าใช้จ่ายในการเข้ารหัสภาพได้ประมาณครึ่งหนึ่ง) นี่คือสาเหตุที่ MiniCPM-V 4.6 สามารถประมวลผลภาพความละเอียดสูงได้ ไม่เพียงแต่มองเห็นชัดเจน แต่ยังทำงานได้รวดเร็ว

นวัตกรรมที่สอง: อัตราการบีบอัด Visual Token แบบผสม 4 เท่า / 16 เท่า

อัตราการบีบอัด Visual Token ส่งผลโดยตรงต่อตัวชี้วัดสำคัญ เช่น การใช้หน่วยความจำ ความหน่วงตอบสนองครั้งแรก ปริมาณงานอนุมาน และการใช้พลังงาน ปัจจุบัน โมเดล multimodal ในตลาดส่วนใหญ่สามารถทำอัตราการบีบอัดได้เพียง 4 เท่า

ซีรีส์ MiniCPM-V ของ 面壁智能 เริ่มต้นการมุ่งมั่นกับอัตราการบีบอัด 16 เท่าตั้งแต่ต้นปี 2024 ในเวอร์ชันก่อนหน้านี้ นักพัฒนาสามารถเลือกได้เพียงระหว่าง “4 เท่า” และ “16 เท่า” เท่านั้น แต่ใน MiniCPM-V 4.6 面壁智能 บรรลุ “ได้ทั้งสองอย่าง”:

  • โหมดบีบอัด 4 เท่า: ประสิทธิภาพเต็มที่ ความแม่นยำสูงมาก เหมาะสำหรับสถานการณ์ที่ต้องการการวิเคราะห์ภาพแบบละเอียด
  • โหมดบีบอัด 16 เท่า: ความเร็วพุ่งสูง ปริมาณงานทะลุทะลวง ไม่เพียงแต่เอื้อต่อการปรับใช้บนฮาร์ดแวร์ปลายทางที่จำกัดด้านการคำนวณ แต่ยังสามารถรองรับปริมาณการรับส่งข้อมูลทางธุรกิจบนคลาวด์ขนาดใหญ่ด้วยต้นทุนที่ต่ำมาก ตอบสนองความต้องการ “การทำงานพร้อมกันสูง” ในระดับอุตสาหกรรม

อัตราการบีบอัด 16 เท่ามีมูลค่าสูงแค่ไหน? เราสามารถดูกรณีอุตสาหกรรมจริงของอัลกอริทึมการแนะนำของ快手ได้

ตรงกันข้ามกับความเชื่อทั่วไป! โมเดลขนาดเล็ก 1B เอาชนะโมเดลใหญ่ระดับหมื่นล้านได้ AI บนอุปกรณ์กำลังจะระเบิดศักยภาพ

ในโมเดลการแนะนำขนาดใหญ่ OneRec ที่快手เปิดตัวในปี 2025 ระบบจำเป็นต้องประมวลผลข้อมูล multimodal จำนวนมหาศาล เช่น คำบรรยายวิดีโอสั้น แท็ก ASR OCR และภาพปก เนื่องจากฐานผู้ใช้มีขนาดใหญ่และปริมาณคำขอพร้อมกันสูงมาก ในที่สุด快手จึงเลือกใช้ MiniCPM-V-8B เพื่อจัดการการสกัดคุณลักษณะข้อมูล multimodal ในระดับพื้นฐาน ซึ่งรองรับคำขอมากถึง 25% ของสถานการณ์หลักในการแนะนำวิดีโอสั้นของ快手 กรณีนี้แสดงให้เห็นว่าซีรีส์ MiniCPM-V มีความพร้อมใช้งานและข้อได้เปรียบด้านต้นทุนในสถานการณ์อุตสาหกรรมที่มีการทำงานพร้อมกันสูง ซึ่งได้รับการพิสูจน์แล้วในทางปฏิบัติ

ฐาน “ระดับ保姆” ที่สามารถปรับแต่งได้ด้วยการ์ดจอ 4090 เพียงใบเดียว

การตัดสินความมีชีวิตชีวาของโมเดลโอเพนซอร์ส ไม่เพียงแต่ต้องดูว่ามันครองอันดับในลีดเดอร์บอร์ดได้อย่างไร แต่ยังต้องดูว่ามันสามารถลงสู่คลังโค้ดของนักพัฒนาและทำงานบนเซิร์ฟเวอร์ทางธุรกิจได้อย่างรวดเร็วหรือไม่

ในการเปิดตัวครั้งนี้ 面壁智能 ไม่เพียงแต่นำเสนอโมเดล 1B ที่แข็งแกร่งอย่างยิ่ง แต่ยังเตรียมชุดรากฐานการพัฒนารอง “ระดับ保姆” ที่พร้อมใช้งานทันทีตั้งแต่การปรับแต่งอย่างละเอียด (Fine-tuning) ไปจนถึงการปรับใช้ (Deployment) สำหรับนักพัฒนาในชุมชน ทีมวิจัยในมหาวิทยาลัย และบริษัทสตาร์ทอัพ มันเกิดมาเพื่อถูก “ปรับแต่งอย่างหนัก” โดยธรรมชาติ

ทำลายกำแพงด้านการคำนวณ: เริ่มทำงานได้ทันทีด้วยการ์ดจอสำหรับผู้บริโภค

การปรับแต่งโมเดลขนาดใหญ่อย่างละเอียดมักทำให้เรานึกถึงคลัสเตอร์การคำนวณ A100/H100 ที่มีราคาแพง ซึ่งทำให้นักพัฒนาอิสระและวิสาหกิจขนาดกลางและขนาดย่อมจำนวนมากลังเล แต่ MiniCPM-V 4.6 ได้รับประโยชน์จากขนาดพารามิเตอร์ 1B ที่精简อย่างมาก ทำให้เกณฑ์การปรับแต่งแบบกำหนดเองลดลงอย่างมาก

นักพัฒนาสามารถใช้การ์ดจอสำหรับผู้บริโภค เช่น RTX 4090 เพียงใบเดียว เพื่อดำเนินการปรับแต่งอย่างละเอียดให้เสร็จสมบูรณ์ ซึ่งหมายความว่าการตรวจสอบแนวคิด การปรับแต่งโมเดลสถานการณ์แนวตั้ง (เช่น การตรวจจับข้อบกพร่องในสายการผลิตอุตสาหกรรม การวิเคราะห์รายงานทางการเงินที่ซับซ้อน) ไม่จำเป็นต้องขออนุมัติงบประมาณการคำนวณจำนวนมาก สามารถทำได้บนพีซีในเครื่อง

โอบรับระบบนิเวศหลัก: เชื่อมต่อห่วงโซ่การปรับแต่งและการอนุมานอย่างสมบูรณ์

“ใช้งานง่าย” เป็นแกนหลักของระบบนิเวศโอเพนซอร์ส เพื่อให้นักพัฒนาหลุดพ้นจาก “ความทุกข์ทรมาน” ในการปรับสภาพแวดล้อมจน崩溃 MiniCPM-V 4.6 บรรลุการเชื่อมต่อที่ราบรื่นและครอบคลุมกับชุดเครื่องมือโอเพนซอร์สหลักในปัจจุบัน:

  • รองรับเฟรมเวิร์กการปรับแต่งอย่างละเอียดแบบเนทีฟอย่างครอบคลุม: ปรับให้เข้ากับเฟรมเวิร์กการปรับแต่งที่ได้รับความนิยมมากที่สุดในอุตสาหกรรม เช่น ms-swift และ LLaMA-Factory อย่างลึกซึ้ง ไม่ว่าคุณจะชอบโค้ดหรือการทำงานแบบภาพ เพียงเตรียมข้อมูลสถานการณ์ของคุณเอง แก้ไขไฟล์การกำหนดค่าสองสามบรรทัด ก็สามารถเริ่มการฝึกโมเดลเฉพาะได้ด้วยคลิกเดียว 官方ยังมีคู่มือ CookBook สองภาษาอย่างจีนและอังกฤษให้อย่างเอาใจใส่

  • รองรับเฟรมเวิร์กการอนุมานแบบครอบครัว: ในด้านการปรับใช้โมเดล 官方ได้ปรับให้เข้ากับเฟรมเวิร์กการอนุมานประสิทธิภาพสูงชั้นนำในปัจจุบันพร้อมกัน: vLLM, SGLang, llama.cpp และ Ollama

หากคุณต้องการการทำงานพร้อมกันสูงสุดบนคลาวด์ คุณสามารถใช้ vLLM หรือ SGLang หากคุณต้องการอนุมานบน CPU/ฝั่งอุปกรณ์บนแล็ปท็อปที่ไม่มีกราฟิกการ์ดแยก Mac หรือแม้แต่มือถือ llama.cpp และ Ollama จะช่วยให้คุณปรับใช้ได้อย่างมีประสิทธิภาพ

การใช้หน่วยความจำที่ต่ำมาก ปริมาณงานพร้อมกันที่สูงมาก และห่วงโซ่เครื่องมือต้นน้ำและปลายน้ำที่สมบูรณ์ ทำให้ MiniCPM-V 4.6 กลายเป็นตัวเลือกที่คุ้มค่าที่สุดสำหรับการสร้างแอปพลิเคชัน multimodal ที่มีการทำงานพร้อมกันสูงและตอบสนองรวดเร็ว

ไม่ใช่แค่ 1B: “ลัทธิระยะยาว” ฝั่งอุปกรณ์ของ 面壁智能

ผลงานของ MiniCPM-V 4.6 ในครั้งนี้ เบื้องหลังคือการสะสมอย่างต่อเนื่องหลายปีของ 面壁智能 ในด้าน multimodal ฝั่งอุปกรณ์ ย้อนดูเส้นทางการพัฒนาของซีรีส์ MiniCPM-V จะเห็นเส้นทางที่ชัดเจนซึ่งมี “ความหนาแน่นของความฉลาด” เป็นแกนหลัก:

  • MiniCPM-V 2.0 (2.8B, เมษายน 2024): สร้างแนวทาง “เล็กแต่ชนะใหญ่” อยู่ในอันดับต้นๆ ในกลุ่มโมเดลต่ำกว่า 7B บรรลุระดับโอเพนซอร์สที่ดีที่สุดบน OCRBench แสดงความสามารถในการวิเคราะห์ภาพความละเอียดสูงและความสามารถในการป้องกันภาพหลอนที่แข็งแกร่ง

  • MiniCPM-V 2.5 (8B, พฤษภาคม 2024): รองรับมากกว่า 30 ภาษา คะแนน OCR ถึงระดับ SOTA ประสิทธิภาพโดยรวมเหนือกว่าโมเดลเชิงพาณิชย์ เช่น GPT-4V และ Gemini Pro Vision

  • MiniCPM-V 2.6 (8B, สิงหาคม 2024): เป็นครั้งแรกที่รองรับการทำความเข้าใจภาพเดี่ยว ภาพหลายภาพร่วมกัน และการอนุมานวิดีโอแบบเรียลไทม์บนฝั่งอุปกรณ์ หลังจาก量化 ใช้หน่วยความจำเพียง 6G บรรลุการโต้ตอบระดับ GPT-4V บนมือถือและ iPad หลัก

  • MiniCPM-V 4.0 (4.1B, 2025): พารามิเตอร์ลดลงครึ่งหนึ่งแต่ประสิทธิภาพดีขึ้น ออกแบบมาเพื่อมือถือโดยเฉพาะ บรรลุการโต้ตอบความหน่วงต่ำบนโทรศัพท์รุ่นใหม่ อยู่ในระดับ SOTA เดียวกันในลีดเดอร์บอร์ด เช่น OpenCompass

  • MiniCPM-V 4.5 (8B, 2025): โมเดล multimodal ตัวแรกในอุตสาหกรรมที่มีความสามารถในการทำความเข้าใจวิดีโอด้วยอัตราเฟรมที่ค่อนข้างสูง สถาปัตยกรรม 3D-Resampler ที่เป็นเอกลักษณ์รองรับการวิเคราะห์วิดีโอความยาวสูงสุด 10 FPS พร้อมอัตราการบีบอัด Video Token 96 เท่า ความสามารถโดยรวมเหนือกว่าโมเดลโอเพนซอร์ส 72B และเหนือกว่า GPT-4o-latest

จาก 2.0 ถึง 4.6 ซีรีส์ MiniCPM-V ได้ขยายขอบเขตความสามารถของโมเดลฝั่งอุปกรณ์ทีละขั้น: การวิเคราะห์เอกสารความละเอียดสูงพิเศษ การทำความเข้าใจวิดีโอต่อเนื่อง การอนุมานภาพหลายภาพร่วมกัน การสกัดข้อความความหนาแน่นสูง งานเหล่านี้ค่อยๆ เป็นไปได้บนโมเดลฝั่งอุปกรณ์ สิ่งนี้ยังทำให้ซีรีส์นี้ถูกนำไปใช้ในธุรกิจจริงของบริษัทต่างๆ เช่น Lenovo, Geely, SAIC Volkswagen, GAC เป็นต้น

ที่น่าตื่นเต้นยิ่งกว่านั้นคือ เส้นทาง multimodal ฝั่งอุปกรณ์ของ 面壁智能 ได้รับการยอมรับจากชุมชนวิชาการระดับนานาชาติชั้นนำมานานแล้ว ผลงานที่เกี่ยวข้องกับ “กฎความหนาแน่น” ได้รับการตีพิมพ์ในวารสารวิชาการระดับนานาชาติชั้นนำ Nature Communications

ในเดือนมิถุนายน 2024 ทีมวิจัยจากมหาวิทยาลัย Stanford ถูกพบว่านำผลงานของ MiniCPM-V 2.5 มาใช้ซ้ำโดยตรง และต่อมาได้ขอโทษต่อสาธารณะ เหตุการณ์นี้ยืนยันจากอีกด้านว่าจีนได้ก้าวเข้าสู่แถวหน้าของชุมชนโอเพนซอร์สระดับโลกในด้านโมเดล multimodal ขนาดใหญ่ ไม่ได้พึ่งพาการพัฒนาต่อยอดผลงานของผู้อื่นอีกต่อไป

บทสรุป

กลับมาที่คำถามที่ยกขึ้นในตอนต้นของบทความ: โมเดลฝั่งอุปกรณ์ที่มีพารามิเตอร์ต่ำกว่า 1B สามารถมีบทบาทในทางปฏิบัติอะไรได้บ้าง?

เมื่อเราถูก冲击ด้วยการเปิดตัวสัตว์ประหลาดพารามิเตอร์หลายแสนล้านบนคลาวด์อยู่ตลอดเวลา เรามักจะตกอยู่ในกับดักความคิดที่ยึดติดกับพารามิเตอร์เท่านั้น อย่างไรก็ตาม เป้าหมายสูงสุดของ AI ไม่ใช่การอวดฝีมือในห้องเซิร์ฟเวอร์ แต่เป็นการซึมซาบเข้าสู่ทุกแง่มุมของชีวิตมนุษย์

MiniCPM-V 4.6 ให้คำตอบที่เป็นรูปธรรม: คุณค่าของโมเดลฝั่งอุปกรณ์อยู่ที่การฝังความสามารถในการทำความเข้าใจภาพและการใช้เหตุผลเชิงความรู้ความเข้าใจลงในอุปกรณ์ต่างๆ เช่น มือถือ คอมพิวเตอร์ รถยนต์ และเครื่องใช้ไฟฟ้าอัจฉริยะ ด้วยต้นทุนที่ต่ำกว่า ความเร็วที่เร็วกว่า และการปกป้องความเป็นส่วนตัวที่แข็งแกร่งกว่า

เมื่อโมเดลที่มีพารามิเตอร์เพียง 1B ผ่านการปรับ优化ทางสถาปัตยกรรมและเทคโนโลยีการบีบอัด Token แบบผสม สามารถเอาชนะผลิตภัณฑ์同类ในด้านประสิทธิภาพ บรรลุปริมาณงานหลายพัน Token ต่อวินาทีด้วยการ์ดจอเพียงใบเดียวในด้านความเร็ว และช่วยให้นักพัฒนาปรับแต่งได้อย่างง่ายดายด้วยการ์ดจอสำหรับผู้บริโภค มันก็ไม่ใช่แค่ “ต้นแบบทางเทคนิค” ที่เรียบง่ายอีกต่อไป แต่เป็นตัวเร่งปฏิกิริยาที่ทรงพลังที่ผลักดันให้ระบบนิเวศ Edge Computing ทั้งหมดระเบิดอย่างเต็มรูปแบบ

บริษัทใหญ่ๆ ต่างวางตำแหน่งในโมเดลฝั่งอุปกรณ์ เพราะอนาคตเป็นของ Edge Computing และ 面壁智能 พร้อมด้วยซีรีส์ MiniCPM-V กำลังสลักรอยประทับของสถาปัตยกรรมจีนบนเส้นทางสู่ “การรู้ทุกสิ่ง” นี้


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/34613

Like (0)
Previous 3 hours ago
Next 3 hours ago

相关推荐