Ali Qwen3.5-122B-A10B ทดสอบจริง: โมเดลโอเพ่นซอร์ส 122 พันล้านพารามิเตอร์ ประสิทธิภาพเหนือกว่า Qwen3-Max ต้นทุนต่ำกว่า

2026年2月26日 pm12:40 • การประเมินโมเดลขนาดใหญ่ • 349 views

Qwen3.5-122B-A10B เป็นโมเดลโอเพนซอร์สในซีรีส์ Qwen3.5 Medium ของ Alibaba โดยมีพารามิเตอร์ทั้งหมด 122 พันล้านตัว ใช้สถาปัตยกรรม Sparse Mixture of Experts (MoE) ที่มีผู้เชี่ยวชาญ 256 คน โดยแต่ละการส่งต่อหน้า (forward pass) จะเปิดใช้งานพารามิเตอร์ประมาณ 10 พันล้านตัวเท่านั้น โมเดลนี้ใช้สถาปัตยกรรมผสมระหว่าง Gated Delta Networks และ Sparse MoE รองรับการป้อนข้อมูลทั้งข้อความ ภาพ และวิดีโอ ทางผู้พัฒนาอ้างว่าสามารถทำงานด้านข้อความล้วนได้ดีเทียบเท่ากับโมเดลเรือธงรุ่นก่อนอย่าง Qwen3-Max ในขณะที่มีต้นทุนต่ำกว่า นอกจากนี้ความสามารถด้านมัลติโมดัลยังได้รับการพัฒนาอย่างมีนัยสำคัญเมื่อเทียบกับซีรีส์ Qwen3-VL

เราได้ทำการประเมิน Qwen3.5-122B-A10B อย่างครอบคลุม โดยเน้นที่ตัวชี้วัดสำคัญในบริบทภาษาจีน เช่น ความแม่นยำ เวลาตอบสนอง การใช้ Token และต้นทุน ควรชี้แจงว่าการประเมินครั้งนี้มุ่งเน้นที่ความสามารถด้านข้อความเป็นหลัก ความสามารถล้ำสมัยดั้งเดิมของโมเดล เช่น ความเข้าใจมัลติโมดัล การดำเนินการ Agent ด้านภาพ (GUI Automation) Agent ด้านการเขียนโปรแกรม และ Agent ด้านการค้นหา ยังไม่ได้รับการทดสอบอย่างเต็มที่ในครั้งนี้ (การประเมินมัลติโมดัลจะอัปเดตในภายหลัง) ผู้อ่านสามารถดูผลการประเมินอย่างเป็นทางการในท้ายบทความเพื่อทำความเข้าใจประสิทธิภาพของโมเดลในด้านเหล่านี้

ภาพรวมข้อมูลการประเมิน Qwen3.5-122B-A10B:
* จำนวนข้อทดสอบ: ประมาณ 15,000 ข้อ
* คะแนนรวม (ความแม่นยำ): 74.0%
* เวลาเฉลี่ย (ต่อการเรียกใช้): 338 วินาที
* การใช้ Token เฉลี่ย (ต่อการเรียกใช้): 5262
* ค่าใช้จ่ายเฉลี่ย (ต่อการเรียกใช้หนึ่งพันครั้ง): 32.3 หยวน

1. เปรียบเทียบกับ Qwen3-Max

ผู้พัฒนาอ้างว่าสามารถทำงานด้านข้อความล้วนได้ดีเทียบเท่า Qwen3-Max ดังนั้นเราเลือก qwen3-max-think-2026-01-23 เป็นตัวเปรียบเทียบ ควรทราบว่าทั้งคู่ไม่ได้อยู่ในสายผลิตภัณฑ์เดียวกัน: Qwen3-Max เป็นโมเดลเชิงพาณิชย์ระดับเรือธงรุ่นก่อน ในขณะที่ Qwen3.5-122B-A10B เป็นโมเดลโอเพนซอร์สระดับ Medium รุ่นใหม่

Ali Qwen3.5-122B-A10B ทดสอบจริง: โมเดลโอเพ่นซอร์ส 122 พันล้านพารามิเตอร์ ประสิทธิภาพเหนือกว่า Qwen3-Max ต้นทุนต่ำกว่า

แหล่งข้อมูล: การประเมิน ReLE โดย Non-linear Intelligence (https://github.com/jeinlee1991/chinese-llm-benchmark)
หน่วยราคาเอาต์พุต: หยวน/ล้าน Token

เปรียบเทียบคะแนนรวม: Qwen3.5-122B-A10B มีความแม่นยำ 74.0% สูงกว่า qwen3-max-think-2026-01-23 ที่ 72.8% สูงขึ้น 1.2 จุดเปอร์เซ็นต์ อันดับจากที่ 6 ขึ้นมาอยู่ที่ 4 ในการประเมินภาษาจีนของเรา ตำแหน่งทางการที่ว่า “โมเดลเล็กเทียบเท่าโมเดลใหญ่” ได้รับการยืนยันเป็นหลัก และอาจจะดีกว่าเล็กน้อย
ความสามารถด้านการให้เหตุผลและการคำนวณทางคณิตศาสตร์พัฒนาขึ้นอย่างมีนัยสำคัญ: นี่คือมิติที่ทั้งคู่แตกต่างกันมากที่สุด Qwen3.5-122B-A10B ทำได้ 85.5% ในขณะที่ qwen3-max-think-2026-01-23 ทำได้ 79.9% นำหน้า 5.6 จุดเปอร์เซ็นต์ สอดคล้องกับผลคะแนนสูงของทางการใน GPQA Diamond (86.6) และการแข่งขันคณิตศาสตร์ HMMT (91.4)
โดดเด่นในด้านกฎหมายและงานราชการ: Qwen3.5-122B-A10B ทำได้ 84.7% ในขณะที่ qwen3-max-think-2026-01-23 ทำได้ 80.3% นำหน้า 4.4 จุดเปอร์เซ็นต์
ด้านการศึกษามีการพัฒนาขึ้น: Qwen3.5-122B-A10B ทำได้ 59.1% ในขณะที่ qwen3-max-think-2026-01-23 ทำได้ 54.4% สูงขึ้น 4.7 จุดเปอร์เซ็นต์ แต่ด้านนี้ยังคงเป็นจุดอ่อนที่ค่อนข้างมากเมื่อเทียบกับมิติอื่นๆ
ด้านการแพทย์และสุขภาพจิตใกล้เคียงกัน: Qwen3.5-122B-A10B ทำได้ 84.8% ในขณะที่ qwen3-max-think-2026-01-23 ทำได้ 84.3% ต่างกันเพียง 0.5 จุดเปอร์เซ็นต์ แสดงผลที่มั่นคง
บางด้านมีการลดลงเล็กน้อย:
- ด้านการเงิน qwen3-max-think-2026-01-23 (85.6%) ดีกว่า Qwen3.5-122B-A10B (83.4%) เล็กน้อย ต่างกัน 2.2 จุดเปอร์เซ็นต์
- มิติ Agent และการเรียกใช้เครื่องมือก็เช่นกัน qwen3-max-think-2026-01-23 (68.6%) สูงกว่า Qwen3.5-122B-A10B (65.0%) ต่างกัน 3.6 จุดเปอร์เซ็นต์ ควรทราบว่า Qwen3.5-122B-A10B มีผลการประเมิน Agent มาตรฐานของทางการที่ดีเยี่ยม ความแตกต่างที่นี้อาจเกี่ยวข้องกับการออกแบบสถานการณ์ทดสอบภาษาจีนของเรา
ด้านภาษาและการปฏิบัติตามคำสั่งใกล้เคียงกัน: Qwen3.5-122B-A10B ทำได้ 66.2% ในขณะที่ qwen3-max-think-2026-01-23 ทำได้ 65.5% ต่างกัน 0.7 จุดเปอร์เซ็นต์
ความเร็วในการตอบสนองค่อนข้างช้า: Qwen3.5-122B-A10B ใช้เวลาเฉลี่ย 338 วินาที ในขณะที่ qwen3-max-think-2026-01-23 ใช้เวลา 214 วินาที อาจเกี่ยวข้องกับการกำหนดค่าสภาพแวดล้อมการติดตั้งโมเดลและความลึกของการอนุมาน

2. เปรียบเทียบกับโมเดลใหม่อื่นๆ

ในสภาพการแข่งขันของโมเดลขนาดใหญ่หลักในปัจจุบัน Qwen3.5-122B-A10B มีประสิทธิภาพอย่างไร? เราเลือกโมเดลที่เป็นตัวแทนมาเปรียบเทียบและวิเคราะห์ในแนวนอน

แหล่งข้อมูล: การประเมิน ReLE โดย Non-linear Intelligence (https://github.com/jeinlee1991/chinese-llm-benchmark)

เปรียบเทียบในระดับต้นทุนเดียวกัน:
* ในช่วง 30-35 หยวน/พันครั้ง Qwen3.5-122B-A10B ด้วยความแม่นยำ 74.0% และต้นทุน 32.3 หยวน อยู่ในตำแหน่งนำของช่วงนี้ gemini-3.1-pro-preview ที่มีคะแนนรวมใกล้เคียงกัน (74.8%) อยู่ในอันดับที่ 2 แต่มีต้นทุนสูงถึง 250.5 หยวน ทั้งคู่มีความแตกต่างของต้นทุนในบริบทภาษาจีนอย่างชัดเจน
* เมื่อขยายไปยังช่วง 20-35 หยวน qwen3.5-plus (74.6%, 22.9 หยวน) บรรลุความแม่นยำที่สูงขึ้นด้วยต้นทุนที่ต่ำกว่า Doubao-Seed-2.0-pro (76.5%, 22.5 หยวน) ก็มีความสามารถในการแข่งขันที่แข็งแกร่งเช่นกัน Qwen3.5-27B (72.4%, 25 หยวน) มีต้นทุนใกล้เคียงแต่ความแม่นยำต่ำกว่า 1.6 จุดเปอร์เซ็นต์

เปรียบเทียบโมเดลใหม่และเก่า:
* ภายในซีรีส์ Qwen3.5: qwen3.5-plus (74.6%, อันดับที่ 3) > Qwen3.5-122B-A10B (74.0%, อันดับที่ 4) > Qwen3.5-27B (72.4%, อันดับที่ 8) > qwen3.5-flash (70.8%, อันดับที่ 19) จากขนาดใหญ่ไปขนาดเล็ก แสดงให้เห็นการไล่ระดับของประสิทธิภาพอย่างมั่นคง การวางแผนสายผลิตภัณฑ์สมเหตุสมผล
* เปรียบเทียบกับโมเดลใหม่ของผู้พัฒนารายอื่น: Qwen3.5-122B-A10B (74.0%) ดีกว่าโมเดลหลักในรายการ เช่น GLM-4.7 (71.5%, อันดับที่ 13), GLM-5 (71.0%, อันดับที่ 16), ERNIE-5.0 (70.9%, อันดับที่ 17), DeepSeek-V3.2-Think (70.9%, อันดับที่ 18) เป็นอย่างมาก มีความสามารถในการแข่งขันสูง
* เปรียบเทียบกับผลิตภัณฑ์รุ่นก่อนของ Alibaba: เมื่อเทียบกับ qwen3-max-2025-09-23 (66.8%, อันดับที่ 43) และ qwen3-235b-a22b-thinking-2507 (65.5%, อันดับที่ 51) Qwen3.5-122B-A10B นำหน้า 7.2 และ 8.5 จุดเปอร์เซ็นต์ตามลำดับ แสดงให้เห็นความก้าวหน้าทางรุ่นอย่างมีนัยสำคัญ

เปรียบเทียบโอเพนซอร์ส VS ปลิด:
* แถวหน้าของฝ่ายโอเพนซอร์ส: จากคะแนนรวม Qwen3.5-122B-A10B ในโมเดลโอเพนซอร์สอยู่ในอันดับที่ 2 รองจาก qwen3.5-plus (74.6%) ดีกว่าโมเดลโอเพนซอร์สอื่นๆ เช่น GLM-4.7 (71.5%), Kimi-K2.5-Thinking (71.3%), GLM-5 (71.0%), DeepSeek-V3.2-Think (70.9%)
* เปรียบเทียบกับโมเดลปลิด: ในบริบทภาษาจีน คะแนนรวมของมันดีกว่าโมเดลปลิดหลายรุ่น เช่น gemini-3-pro-preview (72.5%, เชิงพาณิชย์), claude-opus-4.6 (70.5%, เชิงพาณิชย์), gpt-5.1-high (69.7%, เชิงพาณิชย์) ในฐานะโมเดล MoE โอเพนซอร์สที่เปิดใช้งานพารามิเตอร์เพียง 10 พันล้านตัว อยู่ในอันดับที่ 4 ในการจัดอันดับโดยรวม สะท้อนให้เห็นถึงความก้าวหน้าด้านประสิทธิภาพสถาปัตยกรรมของซีรีส์ Qwen3.5

3. การประเมินอย่างเป็นทางการ

ตามข้อมูลของ Qwen อย่างเป็นทางการ (https://modelscope.cn/models/Qwen/Qwen3.5-122B-A10B) Qwen3.5-122B-A10B แสดงให้เห็นประสิทธิภาพที่ใกล้เคียงหรือดีกว่าโมเดลเรือธงรุ่นก่อนและคู่แข่งระดับเดียวกันในเกณฑ์มาตรฐานหลายด้าน โมเดลเปรียบเทียบรวมถึง GPT-5-mini, GPT-OSS-120B, Qwen3-235B-A22B เป็นต้น

โดดเด่นด้านความรู้และความสามารถในการให้เหตุผล: MMLU-Pro 86.7, GPQA Diamond 86.6 ดีกว่า GPT-5-mini และ Qwen3-235B-A22B; การแข่งขันคณิตศาสตร์ HMMT Feb 2025 91.4 สูงที่สุดในบรรดาโมเดลเปรียบเทียบทั้งหมด
โดดเด่นด้านความสามารถในการเขียนโปรแกรมและ Agent: ใน SWE-bench Verified ทำได้ 72.0 (เท่ากับ GPT-5-mini) ใน Terminal Bench 2 ทำได้ 49.4 (นำหน้า GPT-5-mini ที่ 31.9 อย่างมีนัยสำคัญ); ความสามารถในการเรียกใช้ฟังก์ชัน BFCL-V4 72.2, ความสามารถ Agent ด้านการค้นหา BrowseComp 63.8 ทั้งคู่อยู่ในตำแหน่งนำในโมเดลระดับเดียวกัน
มั่นคงด้านการปฏิบัติตามคำสั่งและความสามารถหลายภาษา: IFBench 76.1, MMMLU 86.7 อยู่ในอันดับต้นๆ ของโมเดลเปรียบเทียบทั้งหมด

ความสามารถด้านความเข้าใจภาพมัลติโมดัลแข็งแกร่ง: ใน MMMU-Pro ทำได้ 76.9, OmniDocBench v1.5 ทำได้ 89.8, OCRBench ทำได้ 92.1, MathVision ทำได้ 86.2 อยู่ในตำแหน่งนำในโมเดลระดับ Medium บางตัวชี้วัดดีกว่าโมเดลเรือธงรุ่นก่อน Qwen3-VL-235B-A22B
ความสามารถด้าน Agent ภาพน่าสนใจ: ใน ScreenSpot Pro ทำได้ 70.4, OSWorld-Verified ทำได้ 58.0 แสดงให้เห็นถึงความสามารถในการดำเนินการอัตโนมัติของอินเทอร์เฟซผู้ใช้แบบกราฟิก (GUI) ที่แข็งแกร่ง

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง