Ali Qwen3.5-Plus ทดสอบจริง: โมเดล 397 พันล้านพารามิเตอร์ประสิทธิภาพพุ่งสูงขึ้น, ต้นทุนลดลง 47%

2026年2月21日 pm12:47 • วิศวกรรมโมเดลขนาดใหญ่ • 324 views

อาลีบาบาออกแบบ Qwen3.5 ซีรีส์อย่างเป็นทางการ และเปิดตัวโมเดลแรกของซีรีส์นี้ นั่นคือเวอร์ชันน้ำหนักเปิด (open-weight) ของ Qwen3.5-397B-A17B ในฐานะโมเดลภาษาภาพดั้งเดิม (Native Vision-Language Model) Qwen3.5-397B-A17B แสดงผลงานโดดเด่นในการประเมินมาตรฐานรอบด้าน เช่น การให้เหตุผล การเขียนโปรแกรม ความสามารถของเอเจนต์ และความเข้าใจหลายรูปแบบ โมเดลนี้ใช้สถาปัตยกรรมแบบไฮบริดที่สร้างสรรค์ โดยผสมผสาน Linear Attention (Gated Delta Networks) กับ Sparse Mixture of Experts (MoE) มีพารามิเตอร์ทั้งหมด 397 พันล้านตัว และแต่ละการส่งต่อ (forward pass) จะเปิดใช้งานพารามิเตอร์เพียง 17 พันล้านตัวเท่านั้น Qwen3.5-Plus คือเวอร์ชัน API ของโมเดลนี้

เราได้ทำการประเมิน Qwen3.5-Plus อย่างครอบคลุม โดยทดสอบประสิทธิภาพในตัวชี้วัดสำคัญ เช่น ความแม่นยำ เวลาตอบสนอง การใช้โทเค็น และต้นทุน

ประสิทธิภาพของเวอร์ชัน Qwen3.5-Plus:
* จำนวนข้อทดสอบ: ประมาณ 15,000 ข้อ
* คะแนนรวม (ความแม่นยำ): 74.6%
* เวลาเฉลี่ย (ต่อการเรียกใช้): 57 วินาที
* โทเค็นเฉลี่ย (โทเค็นที่ใช้ต่อการเรียกใช้): 4975
* ค่าใช้จ่ายเฉลี่ย (ค่าใช้จ่ายต่อพันครั้งเรียกใช้ในสกุลเงินหยวน): 22.9

1. การเปรียบเทียบเวอร์ชันเก่าและใหม่

เริ่มต้นด้วยการเปรียบเทียบกับเวอร์ชันก่อนหน้า (qwen3-max-think-2026-01-23) ข้อมูลมีดังนี้:

Ali Qwen3.5-Plus ทดสอบจริง: โมเดล 397 พันล้านพารามิเตอร์ประสิทธิภาพพุ่งสูงขึ้น, ต้นทุนลดลง 47%

แหล่งข้อมูล: การประเมิน ReLE โดย Non-linear Intelligence https://github.com/jeinlee1991/chinese-llm-benchmark
หน่วยราคาเอาต์พุต: หยวน/ล้านโทเค็น

ประสิทธิภาพโดยรวมเพิ่มขึ้นอย่างมีนัยสำคัญ: ความแม่นยำของเวอร์ชันใหม่เพิ่มขึ้นจาก 72.8% เป็น 74.6% เพิ่มขึ้น 1.8 จุดเปอร์เซ็นต์ อันดับจากที่ 4 ขึ้นมาอยู่ที่ 2 รองจาก Doubao-Seed-2.0-pro
โดเมนการศึกษากระโดดขึ้นอย่างมาก: จากมุมมองแยกย่อย โดเมน “การศึกษา” มีการปรับปรุงอย่างเห็นได้ชัด จาก 54.4% กระโดดขึ้นอย่างมากเป็น 60.9% เพิ่มขึ้น 6.5 จุดเปอร์เซ็นต์ แสดงให้เห็นว่าความครอบคลุมความรู้และความสามารถในการให้เหตุผลของโมเดลใหม่ในสถานการณ์ทางการศึกษามีการปรับปรุงอย่างมีคุณภาพ
การให้เหตุผลและการคำนวณทางคณิตศาสตร์เพิ่มขึ้นอย่างมั่นคง: “ความสามารถในการให้เหตุผลและการคำนวณทางคณิตศาสตร์” เพิ่มขึ้นจาก 79.9% เป็น 80.4% (+0.5%) รักษาระดับสูงไว้ได้
ความสามารถของเอเจนต์และการเรียกใช้เครื่องมือเพิ่มขึ้นอย่างมีนัยสำคัญ: “เอเจนต์และการเรียกใช้เครื่องมือ” เพิ่มขึ้นจาก 68.6% เป็น 73.7% เพิ่มขึ้น 5.1 จุดเปอร์เซ็นต์ ซึ่งสอดคล้องกับตำแหน่ง “ยุคเอเจนต์ดั้งเดิม” ที่ Qwen3.5 มุ่งเน้น
มีการแลกเปลี่ยนในบางโดเมน: สิ่งที่ควรทราบคือ “การแพทย์และสุขภาพจิต” ลดลงเล็กน้อย (84.3% เทียบกับ 84.8% ช่องว่างไม่มาก) โดเมน “การเงิน” ลดลงจาก 85.6% เป็น 83.4% (-2.2%) แสดงให้เห็นว่าโมเดลมีการแลกเปลี่ยนบางอย่างในกระบวนการปรับความสามารถ
ความเร็วเพิ่มขึ้นอย่างมากแต่การใช้โทเค็นเพิ่มขึ้น: เวลาเฉลี่ยลดลงอย่างมากจาก 214 วินาที เหลือ 57 วินาที เพิ่มความเร็วประมาณ 73% ประสบการณ์ผู้ใช้ดีขึ้นอย่างเห็นได้ชัด แต่การใช้โทเค็นเฉลี่ยเพิ่มขึ้นจาก 4540 เป็น 4975 (+9.6%) สะท้อนให้เห็นถึงกลยุทธ์ที่แตกต่างกันของสถาปัตยกรรมใหม่ในด้านประสิทธิภาพการให้เหตุผล
ต้นทุนลดลงอย่างมีนัยสำคัญ: ค่าใช้จ่ายต่อพันครั้งเรียกใช้ลดลงจาก 43.5 หยวน เหลือ 22.9 หยวน ต้นทุนลดลงประมาณ 47% เมื่อรวมกับราคาเอาต์พุตที่ลดลงจาก 10.0 หยวน/ล้านโทเค็น เป็น 4.8 หยวน/ล้านโทเค็น ทำให้ได้ทั้งประสิทธิภาพที่เพิ่มขึ้นและการปรับปรุงต้นทุน

2. เปรียบเทียบกับโมเดลอื่นๆ

ในสภาพการแข่งขันของโมเดลขนาดใหญ่หลักในปัจจุบัน Qwen3.5-plus มีประสิทธิภาพอย่างไร? เราได้เลือกโมเดลที่เป็นตัวแทนมาทำการวิเคราะห์เปรียบเทียบในแนวนอน:

แหล่งข้อมูล: การประเมิน ReLE โดย Non-linear Intelligence https://github.com/jeinlee1991/chinese-llm-benchmark

เปรียบเทียบในระดับต้นทุนเดียวกัน
* ในช่วงค่าใช้จ่าย 20-25 หยวน/พันครั้ง qwen3.5-plus ด้วยความแม่นยำ 74.6% และค่าใช้จ่าย 22.9 หยวน อยู่ในตำแหน่งนำของระดับนี้ Doubao-Seed-2.0-pro ในระดับเดียวกัน ด้วยความแม่นยำ 76.5% และค่าใช้จ่าย 22.5 หยวน อยู่ในอันดับต้นๆ ช่องว่างระหว่างทั้งสองมีเพียง 1.9 จุดเปอร์เซ็นต์ แต่ค่าใช้จ่ายใกล้เคียงกัน
* สิ่งที่น่าสนใจคือ qwen-plus-think-2025-07-28 (67.5%, 26 หยวน) และ qwen-plus-think-2025-12-01 (64.2%, 27.1 หยวน) ซึ่งเป็นผลิตภัณฑ์ระดับกลางของอาลีบาบา ในระดับค่าใช้จ่ายที่เท่ากัน มีช่องว่างค่อนข้างใหญ่เมื่อเทียบกับ qwen3.5-plus

เปรียบเทียบโมเดลเก่าและใหม่
* ประสิทธิผลของการอัปเกรดรุ่นมีนัยสำคัญ: เมื่อเทียบกับ qwen3-max-think-2026-01-23 (72.8%) qwen3.5-plus เพิ่มขึ้น 1.8 จุดเปอร์เซ็นต์; เมื่อเทียบกับ qwen3-max-2025-09-23 (66.8%) ที่เก่ากว่า ช่องว่างยิ่งขยายใหญ่ถึง 7.8 จุดเปอร์เซ็นต์
* การแบ่งแยกภายในสายผลิตภัณฑ์ของอาลีบาบาชัดเจน: ในตารางอันดับ โมเดลของอาลีบาบาแสดงการกระจายตัวเป็นชั้นๆ อย่างชัดเจน — qwen3.5-plus (74.6%, อันดับที่ 2) นำหน้า ตามด้วย qwen3-max-think-2026-01-23 (72.8%, อันดับที่ 4) ส่วน qwen3-max-preview-think (68.2%, อันดับที่ 26), qwen3-max-2026-01-23 (67.6%, อันดับที่ 30), qwen3-235b-a22b-thinking-2507 (65.5%, อันดับที่ 47) กระจายอยู่ในตำแหน่งกลางถึงกลางล่าง
* เปรียบเทียบกับโมเดลใหม่ของผู้ผลิตอื่น: qwen3.5-plus (74.6%) เกิน GLM-5 (71.0%, อันดับที่ 13), ERNIE-5.0 (70.9%, อันดับที่ 14), DeepSeek-V3.2-Think (70.9%, อันดับที่ 15) และโมเดลใหม่ที่เปิดตัวล่าสุดอื่นๆ แสดงให้เห็นถึงความสามารถในการแข่งขันที่แข็งแกร่ง แต่ยังมีช่องว่างประมาณ 2 จุดเปอร์เซ็นต์กับ Doubao-Seed-2.0-pro (76.5%) ที่อยู่อันดับต้น

เปรียบเทียบโอเพ่นซอร์สกับโคลสซอร์ส
* ตำแหน่งมาตรฐานโอเพ่นซอร์ส: จากคะแนนรวม qwen3.5-plus ถูกระบุว่าเป็นโมเดล “โอเพ่นซอร์ส” (Qwen3.5-397B-A17B ที่เปิดน้ำหนักภายใต้สัญญา Apache 2.0) อยู่ในอันดับที่ 1 ในบรรดาโมเดลโอเพ่นซอร์ส เกินโมเดลโอเพ่นซอร์สอื่นๆ ทั้งหมด
* เปรียบเทียบกับโมเดลโคลสซอร์ส: จากคะแนนรวม qwen3.5-plus เกินโมเดลโคลสซอร์สหลายตัว รวมถึง Doubao-Seed-2.0-lite (73.9%, เชิงพาณิชย์), claude-opus-4.6 (70.5%, เชิงพาณิชย์), gpt-5.1-high (69.7%, เชิงพาณิชย์) เป็นต้น

3. การประเมินอย่างเป็นทางการ

ตามบล็อกอย่างเป็นทางการของ Qwen (https://qwen.ai/blog?id=qwen3.5) Qwen3.5-397B-A17B ได้รับการเปรียบเทียบเชิงปริมาณกับโมเดลขนาดใหญ่โคลสซอร์สหลักในปัจจุบันในหลายมิติสำคัญ การทดสอบครอบคลุมพื้นที่การประเมินหลักอย่างกว้างขวาง เช่น การปฏิบัติตามคำสั่ง การให้เหตุผลที่ซับซ้อน ความสามารถของเอเจนต์ (Agentic) และความเข้าใจหลายรูปแบบ ข้อมูลการวิเคราะห์มีดังนี้:

การปฏิบัติตามคำสั่งและความสามารถของเอเจนต์
ในระดับการโต้ตอบพื้นฐานและการประยุกต์ใช้เอเจนต์ Qwen3.5-397B-A17B แสดงให้เห็นถึงข้อได้เปรียบและคุณลักษณะที่แตกต่างอย่างมีนัยสำคัญ:
* การปฏิบัติตามคำสั่ง (IFBench) และการค้นหาของเอเจนต์ (BrowseComp): โมเดลนี้อยู่ในอันดับที่ 1 ในการทดสอบทั้งสองนี้ โดย IFBench ได้คะแนน 76.5 สูงกว่า GPT-5.2 (75.4) เล็กน้อย; ในการทดสอบ BrowseComp ได้คะแนน 78.6 นำหน้า Claude Opus 4.5 (67.8) และ GPT-5.2 (65.8) อย่างมาก
* การเรียกใช้เครื่องมือ (BFCL V4): แสดงผลงานยอดเยี่ยม ได้คะแนน 72.9 อยู่ในอันดับที่ 2 สำหรับงานนี้ รองจาก Claude Opus 4.5 (77.5)
* โค้ดและการดำเนินการในเทอร์มินัล: ในการเขียนโค้ดของเอเจนต์ (SWE-bench Verified) และการดำเนินการโค้ดในเทอร์มินัล (Terminal-Bench 2) ได้คะแนน 76.4 และ 52.5 ตามลำดับ ในทางตรงกันข้าม Claude Opus 4.5 และ GPT-5.2 ยังคงรักษาตำแหน่งนำในงานการเขียนโปรแกรมที่ซับซ้อนทั้งสองประเภทนี้

ความรู้ทางวิชาการและการให้เหตุผลที่ซับซ้อน
ในการทดสอบมาตรฐานข้อความดั้งเดิมที่ทดสอบความกว้างและความลึกของความรู้ของโมเดล โมเดลชั้นนำต่างๆ แข่งขันกันอย่างดุเดือด:
* การให้เหตุผลระดับบัณฑิตศึกษา (GPQA Diamond): GPT-5.2 ได้คะแนนสูง 92.4 มีข้อได้เปรียบอย่างเด็ดขาด Qwen3.5-397B-A17B ได้คะแนน 88.4 ดีกว่า Claude Opus 4.5 (87.0) แต่ตามหลัง GPT-5.2 และ Gemini 3 Pro (91.9)
* ความรู้แบบบูรณาการหลายภาษา (MMMLU): ผลการประเมินแสดงการกระจายตัวของคะแนนสูงอย่างหนาแน่น Gemini 3 Pro ได้คะแนน 90.6 อยู่ในอันดับต้น Qwen3.5-397B-A17B ได้คะแนน 88.5 ช่องว่างระหว่างโมเดลถูกควบคุมไว้ภายใน 2% แสดงให้เห็นว่ามีระบบความรู้ข้ามภาษาที่มั่นคง

หลายรูปแบบและการเข้าใจภาพ

ในงานประเมินที่รวมข้อมูลภาพ (แผนภูมิอย่างเป็นทางการได้แนะนำโมเดลเฉพาะทางภาพ Qwen3-VL-235B-A22B เป็นข้อมูลอ้างอิงภายใน) Qwen3.5-397B-A17B ก็แสดงให้เห็นถึงความสามารถในการปรับตัวทั่วไปที่แข็งแกร่งเช่นกัน:

การจดจำและทำความเข้าใจเอกสาร (OmniDocBench v1.5): ได้คะแนนสูงสุด 90.8 เกินโมเดลเรือธงโคลสซอร์สทั้งหมดที่เปรียบเทียบ (อันดับที่สอง Gemini 3 Pro ได้ 88.5)
การให้เหตุผลวิดีโอ (Video-MME) และการให้เหตุผลเชิงรูปธรรม (ERQA): โมเดลนี้ได้คะแนน 87.5 และ 67.5 ตามลำดับ ทั้งสองมาตรฐานอยู่ในอันดับที่ 2 อย่างมั่นคง รองจาก Gemini 3 Pro และใน ERQA มีข้อได้เปรียบเหนือคะแนนอย่างมีนัยสำคัญเหนือ GPT-5.2 (59.8)
การประเมินการให้เหตุผลภาพแบบบูรณาการ (MMMU-Pro): ได้คะแนน 79.0 อยู่ในกลุ่มเดียวกับ GPT-5.2 (79.5)

ติดตาม “Whale Habitat” Mini Program เพื่อรับข่าวสาร AI ล่าสุด

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง