การประเมินเชิงลึกของ Tongyi Qwen3.5-Plus: กองทหารแนวหน้าของกองทัพโอเพ่นซอร์สที่ทำลายขีดจำกัดทั้งด้านประสิทธิภาพการให้เหตุผลและความคุ้มค่า

2026年2月18日 am8:30 • ข่าวสารอุตสาหกรรม AI • 250 views

สรุปสั้นๆ: กองทหารเทพแห่งโอเพ่นซอร์ส

ข้อมูลพื้นฐาน:

Qwen3.5-Plus มาถึงเร็วกว่าที่คาดไว้ Tongyi Lab ยังคงยึดมั่นในวิธีการพัฒนาที่ว่า “โมเดลรุ่นใหม่ท้าทายโมเดลรุ่นเก่าระดับสูงกว่า” ก่อนหน้านี้ Qwen2.5-80B เคยเทียบเคียงได้กับโมเดลรุ่นเก่าขนาด 235B และตอนนี้กลยุทธ์นี้ก็เกิดขึ้นอีกครั้ง: โมเดล Plus ที่มีพารามิเตอร์ไม่ถึง 400B ในด้านความสามารถสามารถไล่ตามโมเดล Max รุ่นก่อนหน้าที่มีพารามิเตอร์ระดับล้านล้านได้แล้ว

ประสิทธิภาพการให้เหตุผลต่อ Token ก็อยู่ในระดับที่ยอดเยี่ยมอย่างที่ไม่เคยมีมาก่อน ต้องรู้ว่าโมเดลให้เหตุผลรุ่นก่อนหน้าทั้งหมดของ Qwen มีการใช้ Token เฉลี่ยไม่ต่ำกว่า 20K และ Qwen3-Next สร้างสถิติสูงถึง 34K ส่วน Qwen3.5-Plus ประสบความสำเร็จในการปลดหมวก “เครื่องบด Token” ออกไป โดยมีค่าใช้จ่ายเฉลี่ย 19K ซึ่งถือว่ายอดเยี่ยม ปัจจุบันมีเพียง Gemini 3 Pro เท่านั้นที่มีประสิทธิภาพสูงกว่าและใช้ Token น้อยกว่า

ยังต้องพิจารณากลยุทธ์การกำหนดราคาที่แตกต่างของแพลตฟอร์ม Bailian ของ Alibaba Cloud ด้วย: รุ่น Plus ที่มีความยาวคอนเท็กซ์สูงกว่า กลับมีต้นทุนการเรียกใช้ต่ำกว่ารุ่นโอเพ่นซอร์ส 397B อยู่มาก ทำให้กลายเป็นราชาแห่งความคุ้มค่าในบรรดาโมเดลภาษาขนาดใหญ่จีนในปัจจุบัน คงต้องให้ “เซียนความคุ้มค่า” อย่าง DeepSeek ออกมือเท่านั้น ถึงจะอาจสั่นคลอนบัลลังก์ของ Qwen3.5 ได้

คะแนนตรรกะ:

การประเมินเชิงลึกของ Tongyi Qwen3.5-Plus: กองทหารแนวหน้าของกองทัพโอเพ่นซอร์สที่ทำลายขีดจำกัดทั้งด้านประสิทธิภาพการให้เหตุผลและความคุ้มค่า

หมายเหตุ 1: ตารางเน้นการเปรียบเทียบ แสดงเฉพาะโมเดลบางส่วนที่สามารถเปรียบเทียบได้ ไม่ใช่การจัดอันดับแบบสมบูรณ์
หมายเหตุ 2: หัวข้อและวิธีการทดสอบ ดูที่: การประเมินเปรียบเทียบความสามารถด้านตรรกะของโมเดลภาษาขนาดใหญ่ เดือน 26-01 ครั้งนี้เพิ่มข้อ #56, #57, #58, #59
หมายเหตุ 3: รายการอันดับสมบูรณ์อัปเดตที่ https://llm2014.github.io/llm_benchmark/
หมายเหตุ 4: โมเดลตัวอักษรสีแดงหมายถึงทำงานในโหมดให้เหตุผล (คิดช้า) โมเดลตัวอักษรสีดำคือโหมดที่ไม่ใช่การให้เหตุผลที่สอดคล้องกัน (คิดเร็ว)

การทดสอบครั้งนี้เพิ่มคำถามใหม่ 4 ข้อของเดือนกุมภาพันธ์ ดังนั้นคะแนนของโมเดลต่างๆ จึงมีการเปลี่ยนแปลง ต่อไปจะเน้นการเปรียบเทียบความแตกต่างระหว่าง Qwen3.5-Plus (รุ่น 397B ที่ปรับใช้บนแพลตฟอร์ม Bailian) กับรุ่นก่อนหน้าของตัวเองคือ Qwen3-Max โดยค่าเริ่มต้นจะพูดถึงโหมดให้เหตุผล ส่วนโหมดที่ไม่ใช่การให้เหตุผล จะมีหมายเหตุแยกต่างหาก

การปรับปรุง:

ประสิทธิภาพการให้เหตุผล: ตามที่กล่าวไว้ก่อนหน้านี้ การใช้ Token ของ Qwen3.5-Plus ก้าวหน้าอย่างมาก ในปัญหาส่วนใหญ่ประเภทต่างๆ การใช้ Token ของมันต่ำกว่า Max รุ่นก่อนหน้าอย่างเห็นได้ชัด โดยการปรับปรุงในปัญหาการให้เหตุผลแบบโซ่ยาวนั้นเด่นชัดเป็นพิเศษ โซ่ความคิดของ Max รุ่นก่อนหน้ามักมีกระบวนการซ้ำซ้อนและการยืนยันซ้ำๆ จำนวนมาก ทำให้มีประสิทธิภาพต่ำ ในขณะที่ Qwen3.5-Plus ดูสะอาดตา มีตรรกะเป็นระเบียบ โครงสร้างชัดเจน และใช้กฎการย่อโซ่ความคิดที่เป็นเอกลักษณ์จำนวนมาก ทำให้กระบวนการคิดเกือบจะประกอบด้วยข้อมูลที่จำเป็นเท่านั้น ในปัญหาความยากปานกลางบางข้อ การใช้ของ Plus อาจต่ำถึง 17% ของ Max รุ่นก่อนหน้า มีเพียงในปัญหาประเภทอุปนัยบางข้อเท่านั้นที่การใช้ของ Plus สูงกว่าเล็กน้อย แต่ยังอยู่ในขอบเขตปกติ นอกจากนี้ โซ่ความคิดของ Qwen3.5-Plus รุ่นนี้ได้เปลี่ยนเป็นภาษาอังกฤษทั้งหมดแล้ว ไม่เหมือนรุ่นก่อนหน้าที่ผสมจีน-อังกฤษ อย่างไรก็ตาม โหมดที่ไม่ใช่การให้เหตุผล ของมันยังไม่ดีพอ การใช้สำหรับการให้เหตุผลสูงกว่า Max รุ่นก่อนหน้า เนื้อหาที่ส่งออกปนกันและอ่านยาก หากไม่ระบุรูปแบบการส่งออกอย่างชัดเจน ข้อสรุปอาจปนอยู่ในข้อความยาวๆ และมีโอกาสสูงที่จะส่งออกเป็นภาษาอังกฤษโดยตรง
การให้เหตุผลที่ซับซ้อน: ในปัญหาการให้เหตุผลหลายขั้นตอนที่ซับซ้อน ประสิทธิภาพสูงสุดของ Qwen3.5-Plus ไม่ด้อยไปกว่า Max รุ่นก่อนหน้า สำหรับปัญหาที่มีพื้นที่คำตอบกว้าง Max รุ่นก่อนหน้ามักจะแตะขีดจำกัดของ Token ยิ่งคิดนานยิ่งยากที่จะบรรจบกัน รุ่นนี้แก้ปัญหา “คิดมากเกินไป” ได้ในระดับพื้นฐาน และสามารถสำรวจพื้นที่คำตอบทั้งหมดได้อย่างมีประสิทธิภาพมากขึ้น แต่ก็ยังมีกรณีที่ความเสถียรไม่เพียงพอ โดยประสิทธิภาพในกรณีที่แย่ที่สุดไม่แตกต่างจากรุ่น 235B รุ่นก่อนหน้าเท่าไหร่
การเข้าใจรูปแบบ: Max รุ่นก่อนหน้าแสดงผลในปัญหาการค้นหารูปแบบและการวิเคราะห์ข้อมูลต่ำกว่าโมเดลอื่นๆ ในกลุ่มแรกเล็กน้อย ซึ่งเกี่ยวข้องกับสไตล์ของโมเดลรุ่น Qwen3 ทั้งรุ่นที่ชอบ “แก้ปัญหาแบบ brute force” Qwen3.5-Plus แสดงให้เห็นถึงวิธีการแก้ปัญหาที่ดีกว่า แม้ว่าจะยังใช้การแจงนับทั้งหมด แต่สามารถตัดสาขาที่ผิดออกได้อย่างรวดเร็ว และในที่สุดก็บรรจบคำตอบไปยังขอบเขตที่แคบลงได้อย่างมีประสิทธิภาพ แม้ว่าจะไม่สามารถได้คะแนนเต็ม แต่วิธีการนั้นยอมรับได้ได้ ช่องว่างหลักกับโมเดลชั้นนำของโลกอยู่ที่ความสามารถในการปรับตัวทั่วไปไม่เพียงพอ
การยับยั้งภาพหลอน: Max รุ่นก่อนหน้ามีการปรับปรุงอย่างมากในด้านการยับยั้งภาพหลอนในคอนเท็กซ์ Qwen3.5-5-Plus รักษาระดับเดียวกันไว้โดยพื้นฐาน ในสถานการณ์ที่ต้องการเพียงแค่การดึงข้อมูลข้อความอย่างง่าย Plus มีความแม่นยำและความเสถียรที่ดีกว่า แต่ในสถานการณ์ที่ซับซ้อนซึ่งต้อง “ใช้สมอง” ตัดสินใจว่าจะเก็บหรือทิ้งข้อมูลใด ความไม่เสถียรของ Plus เพิ่มขึ้นอย่างมาก และขีดจำกัดล่างต่ำกว่า เนื่องจากได้รับผลกระทบนี้ ในปัญหาการคำนวณบางข้อที่มีกระบวนการยาว ก็อาจเกิดข้อผิดพลาดในการคำนวณเนื่องจากจำตัวเลขผิดได้

ข้อบกพร่อง:

การประมวลผลอักขระ: ในปัญหาทั้งหมดที่ต้องการการแยกวิเคราะห์และประมวลผลอักขระทีละตัว ประสิทธิภาพของ Qwen3.5-Plus ลดลงกว่า Max รุ่นก่อนหน้า อย่างไรก็ตาม Max รุ่นก่อนหน้าก็ไม่สามารถแก้ปัญหาประเภทนี้ได้อย่างเสถียรเช่นกัน ประสิทธิภาพของ Plus อาจถือได้ว่าเป็นการ “กลับสู่ค่าเฉลี่ย” โดยรวมไม่แตกต่างจากรุ่น 235B รุ่นก่อนหน้าเท่าไหร่
การปฏิบัติตามคำสั่ง: โดยรวมแล้ว Max รุ่นก่อนหน้าแสดงความเสถียรและความแม่นยำมากกว่าในการปฏิบัติตามคำสั่งง่ายๆ Qwen3.5-Plus บางครั้ง “ฉลาดเกินไปจนกลายเป็นโง่” มีความคิดของตัวเอง และไม่สามารถปฏิบัติตามข้อกำหนดทั้งหมดอย่างเคร่งครัดได้ สถานการณ์ที่ดีที่สุดของมันสามารถเทียบเท่า Max ได้ แต่สถานการณ์ที่แย่ที่สุดอาจใกล้เคียงกับไม่สามารถใช้งานได้

สรุป:

ตั้งแต่ Qwen3 เปิดตัวครั้งแรกจนถึงตอนนี้เป็นเวลา 9 เดือนแล้ว และโมเดลตรวจสอบของมันปรากฏตัวมา 5 เดือนแล้ว สำหรับทีมที่มีทรัพยากรคอมพิวเตอร์เพียงพอ 5 เดือนก็เพียงพอสำหรับการสำรวจที่ก้าวกระโดด ใน Qwen3.5-Plus เราเห็นว่าทีม Tongyi กำลังมุ่งมั่นแก้ไขปัญหาที่ตกค้างจากรุ่นก่อนหน้า เช่น คุณภาพข้อมูล ประสิทธิภาพการให้เหตุผลต่ำ ความเป็นประโยชน์ และการผสานหลายรูปแบบ และแก้ไขได้ค่อนข้างดี นี่เป็นข่าวที่น่าตื่นเต้นสำหรับชุมชนโอเพ่นซอร์สอย่างแน่นอน และจะยกระดับมาตรฐานพื้นฐานของโมเดลภาษาขนาดใหญ่ในปี 2026 อย่างมาก

แต่魔力อะไรกันที่ผลักดันให้ทีม Tongyi ยอมเผชิญกับ “debuff” ของการจราจรบนโซเชียลมีเดียและความสนใจจากผู้ใช้ในคืนวันส่งท้ายปีเก่าอย่างมหาศาล เพื่อเปิดตัวโมเดลรุ่นใหม่? บางทีอาจเป็นเพราะตารางเวลาที่คับขัน โมเดลใหม่ที่รอเปิดตัวในมือมีมากจน “ล้น” โมเดลขนาด “กลาง” 397B นี้เป็นเพียงกองหน้าที่ยกพลขึ้นบกก่อน ด้านหลังยังมี “ระเบิดนิวเคลียร์” ที่มีพลังทำลายล้างสูงกว่ารอการปล่อยตัวอยู่ หากเป็นเช่นนั้นจริง ก็น่าคาดหวังอย่างแน่นอน

ติดตาม “Whale Habitat” Mini Program เพื่อรับข่าวสาร AI ล่าสุด

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง