Alibaba Qwen3.5 มินิโมเดลเปิดตัวอย่างน่าตื่นเต้น: พารามิเตอร์เพียง 0.8B ก็สามารถประมวลผลวิดีโอได้ ยุค AI ขอบอุปกรณ์เริ่มต้นอย่างเป็นทางการแล้ว!

1 day ago • ข่าวสารอุตสาหกรรม AI • 21 views

อาลีถงอี้เฉียนเวิ่นเปิดตัวโมเดลขนาดพารามิเตอร์เล็กซีรีส์ Qwen3.5 ทั้งหมด 4 รุ่น ได้แก่ 0.8B, 2B, 4B และ 9B แกนหลักนวัตกรรมของซีรีส์นี้อยู่ที่การนำกลไกความสนใจแบบผสม Gated DeltaNet มาใช้ ซึ่งเทคโนโลยีนี้ได้รับการดัดแปลงมาจากโมเดลขนาดใหญ่ที่มีพารามิเตอร์ 397B ของตน

สถาปัตยกรรมนี้ใช้การออกแบบที่มีชั้นความสนใจเชิงเส้นสามชั้นคู่กับชั้นความสนใจแบบเต็มหนึ่งชั้น ชั้นเชิงเส้นรับผิดชอบการคำนวณทั่วไป โดยการใช้หน่วยความจำคงที่ ส่วนชั้นความสนใจแบบเต็มจะถูกกระตุ้นเฉพาะเมื่อต้องการการคำนวณที่แม่นยำ อัตราส่วน 3:1 นี้ทำให้โมเดลสามารถควบคุมการเติบโตของหน่วยความจำได้อย่างมีประสิทธิภาพในขณะที่ยังคงรักษาคุณภาพสูงไว้ได้ ดังนั้นแม้แต่โมเดล 0.8B ก็สามารถรองรับหน้าต่างบริบทได้สูงถึง 262,000 โทเค็น

Alibaba Qwen3.5 มินิโมเดลเปิดตัวอย่างน่าตื่นเต้น: พารามิเตอร์เพียง 0.8B ก็สามารถประมวลผลวิดีโอได้ ยุค AI ขอบอุปกรณ์เริ่มต้นอย่างเป็นทางการแล้ว!

ความก้าวหน้าทางเทคนิค: การออกแบบมัลติโมดัลแบบเนทีฟ

ซีรีส์ Qwen3.5 ใช้โทเค็นมัลติโมดัลสำหรับการผสานตั้งแต่เริ่มต้นในระหว่างการฝึกฝน ตัวเข้ารหัสภาพของมันใช้คอนโวลูชัน 3 มิติเพื่อจับข้อมูลลำดับเวลาและการเคลื่อนไหวในวิดีโอ ต้องขอบคุณการออกแบบนี้ โมเดล 4B และ 9B สามารถเข้าใจอินเทอร์เฟซผู้ใช้ นับวัตถุในวิดีโอได้ ซึ่งความสามารถเหล่านี้โดยปกติแล้วในอดีตมักต้องการโมเดลที่มีขนาดพารามิเตอร์ใหญ่กว่าหนึ่งลำดับความสำคัญ

สถาปัตยกรรมแบบผสมช่วยบรรเทาปัญหา “กำแพงหน่วยความจำ” ที่โมเดลขนาดเล็กต้องเผชิญได้อย่างมีประสิทธิภาพ โดยผ่าน Gated DeltaNet ทำให้ได้ปริมาณงานที่สูงขึ้นและความล่าช้าในการอนุมานลดลงอย่างเห็นได้ชัด

ประสิทธิภาพ: โมเดลเล็กแซงโมเดลใหญ่

ในการทดสอบมาตรฐานการให้เหตุผลด้วยภาพ MMMU-Pro โมเดล 9B ได้คะแนน 70.1 คะแนน แซงหน้าคะแนน 59.7 ของ Gemini 2.5 Flash-Lite ในการทดสอบมาตรฐาน GPQA Diamond โมเดล 9B ได้คะแนน 81.7 คะแนน เกินคะแนน 80.1 ของโมเดล GPT-OSS-120B ที่มีพารามิเตอร์มากกว่ามันสิบเท่า

ในด้านความเข้าใจวิดีโอ ในการทดสอบมาตรฐาน Video-MME โมเดล 9B ได้คะแนน 84.5 โมเดล 4B ได้คะแนน 83.5 นำหน้า Gemini 2.5 Flash-Lite ที่ได้ 74.6 คะแนนอย่างมีนัยสำคัญ สำหรับความสามารถทางคณิตศาสตร์ ในการประเมินการแข่งขันคณิตศาสตร์ฮาร์วาร์ด-MIT โมเดล 9B ได้คะแนน 83.2 และรุ่นปรับแต่ง 4B ได้คะแนน 74.0

เสียงตอบรับจากนักพัฒนา

การเปิดตัวโมเดลขนาดเล็กครั้งนี้ได้รับความสนใจอย่างกระตือรือร้นจากชุมชนนักพัฒนา มีนักพัฒนาคนหนึ่งแสดงความคิดเห็นว่า “ความสามารถของรุ่น 4B เกือบจะเทียบเท่ากับโมเดล 80B ในอดีต ส่วนประสิทธิภาพของรุ่น 9B สามารถเทียบเคียงกับ GPT OSS 120B ได้ แต่มีพารามิเตอร์น้อยกว่า 13 เท่า! มันสามารถทำงานบนแล็ปท็อปใดก็ได้ ในขณะที่รุ่น 0.8B และ 2B เหมาะสำหรับการปรับใช้แบบออฟไลน์และโอเพ่นซอร์สบนโทรศัพท์มือถือ”

นักพัฒนา Karan Kendre กล่าวว่า “โมเดลเหล่านี้สามารถทำงานในเครื่องของฉัน (M1 MacBook Air) แบบโลคอลและฟรีได้” Xenova นักพัฒนาจาก Hugging Face ชี้ให้เห็นว่าโมเดลใหม่นี้สามารถทำงานโดยตรงในเว็บเบราว์เซอร์ของผู้ใช้ได้ แม้กระทั่งงานที่ซับซ้อนเช่นการวิเคราะห์วิดีโอ

สถานการณ์การใช้งานจริง

ระบบอัตโนมัติของเวิร์กโฟลว์ภาพ: ด้วยความสามารถ “การระบุตำแหน่งระดับพิกเซล” โมเดลเหล่านี้สามารถนำทาง UI บนเดสก์ท็อปหรือมือถือ กรอกแบบฟอร์มอัตโนมัติ และจัดระเบียบไฟล์ตามคำสั่งภาษาธรรมชาติ

การแยกวิเคราะห์เอกสาร: ได้คะแนนเกิน 90% ในการทดสอบมาตรฐานความเข้าใจเอกสาร สามารถแทนที่กระบวนการ OCR และการวิเคราะห์เลย์เอาต์แบบแยกส่วน เพื่อดึงข้อมูลที่มีโครงสร้างจากแบบฟอร์มและแผนภูมิประเภทต่างๆ

การประมวลผลโค้ด: องค์กรสามารถป้อนโค้ดเบสทั้งหมด (ประมาณ 400,000 บรรทัดมากสุด) เข้าไปในหน้าต่างบริบท 1 ล้านโทเค็นของมัน เพื่อทำการปรับโครงสร้างโค้ดที่พร้อมสำหรับการผลิตหรือการดีบักอัตโนมัติ

การวิเคราะห์แบบเอดจ์: โมเดล 0.8B และ 2B ออกแบบมาสำหรับอุปกรณ์มือถือโดยเฉพาะ สามารถสรุปวิดีโอแบบออฟไลน์ได้ (ยาวสุด 60 วินาที, 8 FPS) และให้เหตุผลเชิงพื้นที่ โดยมีผลกระทบต่ออายุการใช้งานแบตเตอรี่ของอุปกรณ์น้อย

ปัญหาที่ต้องระวัง

ห่วงโซ่ภาพลวงตา: ในเวิร์กโฟลว์หลายขั้นตอน ข้อผิดพลาดเล็กน้อยในขั้นตอนแรกเริ่มอาจนำไปสู่ความล้มเหลวแบบ “ต่อเนื่อง” ในขั้นตอนต่อมา ทำให้เอเจนต์ดำเนินแผนการที่ผิดพลาดหรือไร้ความหมาย

ข้อจำกัดในการดีบัก: โมเดลเหล่านี้เก่งในการเขียนโค้ดใหม่ แต่อาจประสบปัญหาเมื่อต้องดีบักหรือแก้ไขระบบเดิมที่ซับซ้อนที่มีอยู่

ความต้องการฮาร์ดแวร์: แม้แต่โมเดล “เล็ก” (เช่นรุ่น 9B) ยังต้องการหน่วยความจำกราฟิกส์ที่ค่อนข้างมากเมื่อทำการอนุมานปริมาณงานสูง จำนวนพารามิเตอร์ทั้งหมดของมันยังคงใช้ทรัพยากร GPU ในระดับหนึ่ง

สรุป

ซีรีส์ Qwen3.5 ผ่านสถาปัตยกรรม Gated DeltaNet และการออกแบบมัลติโมดัลแบบเนทีฟ ทำให้โมเดลพารามิเตอร์เล็กได้รับความสามารถที่เคยมีเฉพาะในโมเดลขนาดใหญ่เท่านั้น โมเดล 0.8B สามารถประมวลผลวิดีโอบนโทรศัพท์มือถือได้แล้ว ในขณะที่โมเดล 9B แซงหน้าคู่แข่งที่มีพารามิเตอร์ใหญ่กว่ามากในหลายการทดสอบมาตรฐาน

หนึ่งปีก่อน การรันโมเดลมัลติโมดัลแบบโลคอลมักต้องการพารามิเตอร์มากกว่า 13B และ GPU ระดับสูง แต่ปัจจุบัน โมเดล 4B พร้อมหน้าต่างบริบท 262,000 โทเค็น สามารถประมวลผลข้อความ ภาพ และวิดีโอบนฮาร์ดแวร์ระดับผู้บริโภคทั่วไปได้แล้ว ซีรีส์โมเดลนี้ได้รับการสนับสนุนจากเครื่องมือเช่น Ollama และ Unsloth และได้เปิดตัวบนแพลตฟอร์ม Hugging Face และ ModelScope แล้ว

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/23675