หลังจากเปิดตัวโมเดลแรกของซีรีส์ Qwen3.5 คือ Qwen3.5-Plus แล้ว อาลีบาบาก็ได้เปิดตัวซีรีส์โมเดลขนาดกลางหลังเทศกาลตรุษจีน Qwen3.5-27B เป็นโมเดลแบบหนาแน่น (Dense Model) ในซีรีส์นี้ โดยพารามิเตอร์ทั้งหมด 27 พันล้านตัวจะถูกเปิดใช้งานทุกครั้งที่ทำการอนุมาน และไม่ได้ใช้กลไก MoE โมเดลนี้ยังคงใช้สถาปัตยกรรมความสนใจแบบผสม (Hybrid Attention) ของ Qwen3.5 โดยใช้ชั้นความสนใจเชิงเส้น Gated DeltaNet และชั้นความสนใจแบบโกลบอลมาตรฐานสลับกันในอัตราส่วน 3:1 รองรับหน้าต่างบริบทสูงสุดตั้งแต่ 262K ถึง 1M และเป็นโอเพนซอร์สภายใต้สัญญาอนุญาต Apache 2.0
เราได้ทำการประเมินแบบครอบคลุม โดยเน้นที่ประสิทธิภาพในตัวชี้วัดสำคัญ เช่น ความแม่นยำ เวลาตอบสนอง การใช้โทเคน และต้นทุน การประเมินครั้งนี้มุ่งเน้นที่ความสามารถรอบด้านในบริบทภาษาจีน โดยมิติต่างๆ เช่น ความเข้าใจหลายรูปแบบดั้งเดิม (Native Multimodal Understanding) ของ Qwen3.5-27B ยังไม่ได้รับการครอบคลุมอย่างสมบูรณ์
ข้อมูลหลักจากการประเมินเวอร์ชัน Qwen3.5-27B:
* จำนวนข้อทดสอบ: ประมาณ 15,000 ข้อ
* คะแนนรวม (ความแม่นยำ): 72.4%
* เวลาเฉลี่ย (ต่อการเรียกใช้): 310 วินาที
* โทเคนเฉลี่ย (ใช้ต่อการเรียกใช้): 5423
* ค่าใช้จ่ายเฉลี่ย (ต่อการเรียกใช้หนึ่งพันครั้ง): 25 หยวน
1. ใช้เล็กสู้ใหญ่
การทดสอบมาตรฐานอย่างเป็นทางการของ Qwen3.5-27B ใช้ Qwen3-235B-A22B รุ่นก่อนหน้าเป็นเป้าหมายหลักในการเปรียบเทียบ แม้ว่าขนาดพารามิเตอร์ (27 พันล้าน vs. 235 พันล้าน) จะดูแตกต่างกันมาก แต่ประเด็นสำคัญคือ: Qwen3-235B-A22B ในฐานะโมเดล MoE จะเปิดใช้งานพารามิเตอร์เพียงประมาณ 22 พันล้านตัวต่อการอนุมานแต่ละครั้ง ในขณะที่ Qwen3.5-27B ในฐานะโมเดลหนาแน่น พารามิเตอร์ทั้งหมด 27 พันล้านตัวจะเข้าร่วมการคำนวณพร้อมกัน “พลังการคำนวณที่ใช้งานจริง” ของทั้งสองค่อนข้างใกล้เคกัน ช่องว่างที่แท้จริงมาจากวิวัฒนาการของสถาปัตยกรรมระหว่างรุ่นและการอัปเกรดกลยุทธ์การฝึกอบรม

แหล่งข้อมูล: การประเมิน ReLE โดย Non-linear Intelligence
- ประสิทธิภาพโดยรวมเพิ่มขึ้นอย่างมีนัยสำคัญ อันดับกระโดดขึ้นสูง: ความแม่นยำของโมเดลใหม่เพิ่มขึ้นจาก 65.5% เป็น 72.4% เพิ่มขึ้น 6.9 จุดเปอร์เซ็นต์ อันดับกระโดดจากอันดับที่ 51 ขึ้นสู่อันดับที่ 8 ในฐานะโมเดลโอเพนซอร์สขนาด 27 พันล้านพารามิเตอร์ ที่สามารถติดอันดับท็อป 10 ของรายการโดยรวมได้ ถือเป็นผลงานที่น่าสนใจ
- ความสามารถเฉพาะด้านเพิ่มขึ้นหลายมิติ แต่มีการแลกเปลี่ยน:
- กฎหมายและงานราชการ: เพิ่มจาก 78.3% เป็น 83.7% (+5.4%) ก้าวหน้าได้น่าพอใจ
- การศึกษา: เพิ่มขึ้นเล็กน้อยจาก 57.2% เป็น 57.9% (+0.7%) ไม่เปลี่ยนแปลงมากนัก ค่าที่แท้จริงยังมีพื้นที่ให้ปรับปรุงอีกมาก
- การแพทย์และสุขภาพจิต: ลดลงเล็กน้อยจาก 79.5% เป็น 79.4% (-0.1%) คงที่โดยพื้นฐาน
- การเงิน: ลดลงจาก 79.6% เป็น 75.9% (-3.7%) เป็นสาขาเดียวที่ลดลงอย่างเห็นได้ชัด แสดงให้เห็นว่าโมเดลมีการแลกเปลี่ยนในการปรับความสามารถ
- การให้เหตุผลและการคำนวณทางคณิตศาสตร์เพิ่มขึ้นอย่างชัดเจน: เพิ่มจาก 72.0% เป็น 83.2% (+11.2%) แสดงให้เห็นถึงข้อได้เปรียบของสถาปัตยกรรมแบบหนาแน่นในการให้เหตุผลทางคณิตศาสตร์
- Agent และการเรียกใช้เครื่องมือเพิ่มขึ้นอย่างมีนัยสำคัญ: กระโดดจาก 47.4% เป็น 63.9% (+16.5%) สอดคล้องกับตำแหน่งของซีรีส์ Qwen3.5 ที่เน้น “ยุคเอเจนต์อัจฉริยะดั้งเดิม”
- ต้นทุนลดลงอย่างมาก: ค่าใช้จ่ายต่อการเรียกใช้หนึ่งพันครั้งลดลงจาก 61.2 หยวนเหลือ 25 หยวน ต้นทุนลดลงประมาณ 59% ข้อดีนี้มาจากข้อได้เปรียบโดยธรรมชาติของโมเดลหนาแน่นในการปรับใช้และการอนุมาน – ไม่ต้องแบกรับขนาดใหญ่ของพารามิเตอร์ 235 พันล้านตัว ต้นทุนการให้บริการจึงลดลงอย่างเห็นได้ชัด
- เวลาตอบสนองยาวขึ้นอย่างเห็นได้ชัด: เวลาเฉลี่ยเพิ่มจาก 143 วินาทีเป็น 310 วินาที เพิ่มขึ้นประมาณ 117% การใช้โทเคนก็เพิ่มจาก 3422 เป็น 5423 เพิ่มขึ้น 58% เวลาตอบสนองที่ยาวขึ้นและการใช้โทเคนที่สูงขึ้น อาจหมายความว่าโมเดลได้นำโซ่การให้เหตุผลที่ลึกซึ้งยิ่งขึ้นเข้ามาภายใน เพื่อแลกเปลี่ยนผลลัพธ์คุณภาพสูงด้วย “การคิดช้า”
2. การเปรียบเทียบในแนวนอน
ในสถานการณ์การแข่งขันของโมเดลใหญ่หลักในปัจจุบัน Qwen3.5-27B ในฐานะโมเดลหนาแน่นขนาด 27 พันล้านพารามิเตอร์ที่บุกเข้ามาอยู่ในท็อป 10 มีความสามารถในการแข่งขันอย่างไร? เราวิเคราะห์เปรียบเทียบในแนวนอนจากสามมิติ:

แหล่งข้อมูล: การประเมิน ReLE โดย Non-linear Intelligence
เปรียบเทียบกับกลุ่มต้นทุนเดียวกัน
* ในช่วงต้นทุน 20-30 หยวน/พันครั้ง Qwen3.5-27B ด้วยความแม่นยำ 72.4% และต้นทุน 25 หยวน อยู่ในตำแหน่งกลางถึงบนของกลุ่มนี้ Doubao-Seed-2.0-pro (76.5%, 22.5 หยวน) และ qwen3.5-plus (74.6%, 22.9 หยวน) ในกลุ่มเดียวกันนำหน้าโดยมีข้อได้เปรียบสูงกว่า 4.1 และ 2.2 จุดเปอร์เซ็นต์ตามลำดับ และมีต้นทุนที่ต่ำกว่า สำหรับสถานการณ์ที่เน้นอัตราส่วนประสิทธิภาพต้นทุน ทั้งสองยังคงเป็นตัวเลือกที่ดีกว่า
* อย่างไรก็ตาม เมื่อเทียบกับโมเดลอื่นในกลุ่มเดียวกัน Qwen3.5-27B มีข้อได้เปรียบชัดเจน เมื่อเทียบกับ DeepSeek-V3.1-Think (67.7%, 24.8 หยวน), qwen-plus-think-2025-07-28 (67.5%, 26 หยวน) และ MiniMax-M2.5 (65.7%, 26.3 หยวน) ความแม่นยำสูงกว่าตามลำดับ 4.7, 4.9 และ 6.7 จุดเปอร์เซ็นต์ และต้นทุนก็ใกล้เคียงกันหรือต่ำกว่า
เปรียบเทียบโมเดลใหม่และเก่า
* โมเดลรุ่นใหม่ยังคงครองตำแหน่งสูงสุดของรายการ: แปดอันดับแรกล้วนเป็นโมเดลใหม่ที่เปิดตัวล่าสุด Qwen3.5-27B ด้วยอันดับที่ 8 สามารถแทรกตัวเข้าไปในกลุ่มโมเดลใหม่นี้ได้ แสดงให้เห็นถึงความสามารถในการแข่งขันระหว่างรุ่นที่ค่อนข้างแข็งแกร่ง
* ภายในตระกูล Qwen3.5 ของอาลีบาบามีลำดับชั้นชัดเจน: qwen3.5-plus (74.6%, อันดับที่ 3) นำหน้า, Qwen3.5-122B-A10B (74.0%, อันดับที่ 4) ตามมา, Qwen3.5-27B (72.4%, อันดับที่ 8) อยู่ในกลุ่มที่สาม, qwen3.5-flash (70.8%, อันดับที่ 19) ให้ตัวเลือกที่เบากว่า โมเดลทั้งสี่รุ่นครอบคลุมสายผลิตภัณฑ์ที่สมบูรณ์ตั้งแต่ระดับเรือธงไปจนถึงระดับเบา
โอเพนซอร์ส VS ระบบปิด
* ค่ายโอเพนซอร์สมีกำลังแข็งแกร่ง: ในบรรดาโมเดลโอเพนซอร์ส Qwen3.5-27B อยู่ในอันดับที่ 3 รองจากพี่น้องในตระกูลเดียวกันคือ qwen3.5-plus (74.6%) และ Qwen3.5-122B-A10B (74.0%) ตามมาด้วยโมเดลต่างๆ เช่น GLM-4.7 (71.5%), Kimi-K2.5-Thinking (71.3%) และ GLM-5 (71.0%)
* โมเดลโอเพนซอร์สกดดันค่ายระบบปิดเป็นกลุ่ม: ในรายการครั้งนี้ โมเดลโอเพนซอร์สมีผลงานโดดเด่น โมเดลโอเพนซอร์สทั้งสามรุ่นของซีรีส์ Qwen3.5 ติดท็อป 10 ทั้งหมด รวมกับโมเดลอื่นๆ เช่น qwen3.5-flash (70.8%, อันดับที่ 19) และ DeepSeek-V3.2-Think (70.9%, อันดับที่ 18) ทำให้พลังโอเพนซอร์สมีบทบาทเพิ่มขึ้นอย่างต่อเนื่องในส่วนกลางถึงบนของรายการ
* คุณค่าที่เป็นเอกลักษณ์ของพารามิเตอร์ 27B: เมื่อเทียบกับ qwen3.5-plus และ Qwen3.5-122B-A10B ข้อได้เปรียบสูงสุดของ Qwen3.5-27B อยู่ที่เกณฑ์การปรับใช้ – ในฐานะโมเดลหนาแน่น หลังการควอนไทซ์สามารถทำงานบนการ์ดจอระดับผู้บริโภคเพียงใบเดียวได้ สำหรับนักพัฒนาและองค์กรที่ต้องการปรับใช้ในเครื่องท้องถิ่นแทนการพึ่งพา API นี่เป็นข้อได้เปรียบที่ยากจะแทนที่
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/23352
