Ali Qwen 3.5-Plus เปิดตัวครั้งใหญ่: มัลติโมดัลแบบเนทีฟ, ประสิทธิภาพเหนือชั้น, ราคาจัดหนัก, โมเดลโอเพ่นซอร์สก้าวกระโดดระดับระเบิด

2026年2月16日 pm6:04 • ข่าวสารอุตสาหกรรม AI • 208 views

ช่วงก่อนหน้านี้ ผู้ผลิตโมเดลใหญ่ๆ ต่างทยอยอัปเดตผลิตภัณฑ์ มีฟังก์ชันมากมายจนตาลาย

ในขณะที่ทุกคนคิดว่ากำลังจะถึงตรุษจีน วงการ AI คงไม่มีไพ่ใหม่มาเล่นแล้ว ทันใดนั้น Alibaba Tongyi Qianwen ก็โยนไพ่คู่ “ราชา” ออกมาโดยไม่มีการเตือนล่วงหน้า — โมเดลใหญ่รุ่นใหม่ล่าสุด Qwen 3.5-Plus ได้รับการเปิดตัวเป็นโอเพนซอร์สอย่างเป็นทางการแล้ว

โมเดลนี้ในด้านความเข้าใจหลายรูปแบบ (มัลติโมดัล) การให้เหตุผลที่ซับซ้อน การเขียนโปรแกรม และ Agent ฯลฯ ไม่เพียงแต่เป็นผู้นำเหนือกว่าโมเดลโอเพนซอร์สระดับเดียวกันโดยรวมเท่านั้น แต่ยังสามารถเทียบเคียงกับโมเดลปิด (closed-source) ชั้นนำได้ในหลายเกณฑ์มาตรฐาน

Ali Qwen 3.5-Plus เปิดตัวครั้งใหญ่: มัลติโมดัลแบบเนทีฟ, ประสิทธิภาพเหนือชั้น, ราคาจัดหนัก, โมเดลโอเพ่นซอร์สก้าวกระโดดระดับระเบิด

จุดเด่นหลักของการเปิดตัวครั้งนี้มีดังนี้:

มัลติโมดัลแบบเนทีฟ (Native Multimodal): บอกลาการต่อเติมแบบ “ประกอบชิ้นส่วน” บรรลุการรับรู้โดยสัญชาตญาณแบบไม่สูญเสียข้อมูลต่อโลกกายภาพ
ประสิทธิภาพเหนือกว่า: หลายเกณฑ์มาตรฐานเทียบเคียงหรือแม้แต่เหนือกว่าโมเดลปิดชั้นนำอย่าง GPT-5.2 และ Gemini-3-Pro
โครงสร้างเปลี่ยนแปลงก้าวกระโดด: ใช้โครงสร้าง MoE แบบเบาบางขั้นสุด (Extremely Sparse) พารามิเตอร์ทั้งหมดสูงถึง 397B แต่ในการอนุมาน (inference) จำเป็นต้องเปิดใช้งานพารามิเตอร์เพียง 17B เท่านั้น
ผู้ทำลายราคา: ราคา API ของมันอยู่ที่เพียง 1/18 ของ Gemini-3-Pro พร้อมกันนั้นการใช้หน่วยความจำกราฟิก (VRAM) ในการปรับใช้ลดลง 60% ประสิทธิภาพการอนุมานเพิ่มขึ้นอย่างมาก 吞吐量 (throughput) สูงสุดสามารถเพิ่มขึ้นได้ถึง 19 เท่า

นี่หมายความว่า ด้วยต้นทุนพลังการคำนวณที่เท่ากับการรันโมเดลระดับ 20B เท่านั้น ก็สามารถได้รับระดับความฉลาดที่ใกล้เคียงกับโมเดล 400B บวกกับราคา API ที่ต่ำมาก ทำให้บรรลุ “คุณภาพดีราคาถูก” จริงๆ

นอกจากนี้ โมเดลยังขยายภาษาที่รองรับออกไปเป็น 201 ภาษา กลายเป็น “โมเดลโลก” ที่มีศักยภาพในการใช้งานทั่วโลกในชั่วพริบตา ความเข้ากันได้กับหลายภาษาและภาษาย่อย (ภาษาที่มีผู้ใช้น้อย) ที่แข็งแกร่งขึ้น หมายความว่าโมเดลสามารถเรียนรู้ความรู้โลกและตรรกะการให้เหตุผลที่หนาแน่นขึ้น คาดว่าความเร็วในการวิวัฒนาการความสามารถของมันก็จะเร่งตามไปด้วย ซึ่งเป็นประโยชน์อย่างยิ่งสำหรับนักพัฒนาที่ทำธุรกิจต่างประเทศ

แล้วโมเดลใหญ่โอเพนซอร์สแบบนี้มีประสิทธิภาพจริงอย่างไร? ก่อนการเปิดตัวโมเดล เราได้รับสิทธิ์ทดสอบ API แบบภายในของ Qwen 3.5-Plus ด้านล่างนี้จะทดสอบจริงรอบทิศทาง “ภาพ+การให้เหตุผล” ตั้งแต่สถานการณ์ชีวิตประจำวันไปจนถึงผลิตภาพการเขียนโค้ด

1. การระบุส่วนประกอบอาหารและคำนวณต้นทุนอาหารเย็นวันตรุษจีน

โมเดลมัลติโมดัลส่วนใหญ่จำเป็นต้องพึ่งพา visual encoder เพิ่มเติม มักเกิดปัญหา “ดูภาพแล้วพูด” ไม่ถูกต้อง การเปลี่ยนแปลงที่ใหญ่ที่สุดอย่างหนึ่งที่ Qwen 3.5-Plus นำมาคือ “มัลติโมดัลแบบเนทีฟ” ขอทดสอบความสามารถนี้เป็นอันดับแรก

ขณะทดสอบบังเอิญตรงกับช่วงเตรียมอาหารเย็นวันตรุษจีน จึงหาภาพอาหารเย็นวันตรุษจีนที่อุดมสมบูรณ์จากอินเทอร์เน็ตมา แล้วขอให้ AI รายการส่วนประกอบอาหาร คำนวณต้นทุน และประมาณเวลาใช้ ข้อความชี้นำ (prompt) มีดังนี้:

กรุณาในรูปแบบตาราง รายการส่วนประกอบอาหารที่จำเป็นสำหรับเมนูในภาพ ประมาณราคาตลาดของมัน สุดท้ายสรุปเวลาโดยประมาณและค่าใช้จ่ายทั้งหมดที่ต้องใช้ในการทำอาหารมื้อนี้

นี่ทดสอบความสามารถของโมเดลในการระบุเมนูอาหาร แยกส่วนประกอบอาหาร และเข้าใจสถานการณ์ตลาด น่าประหลาดใจที่โมเดลไม่เพียงแต่สามารถระบุเมนูอาหารได้อย่างแม่นยำ แต่ยังสามารถให้ช่วงอ้างอิงราคาที่ยืดหยุ่นได้ในด้านราคา

นอกจากนี้ มันยังสามารถแยกขั้นตอนการเตรียมอาหารเย็นวันตรุษจีนออกเป็นช่วงต่างๆ และประมาณเวลาที่จำเป็นสำหรับแต่ละขั้นตอนได้อย่างแม่นยำ

2. การตรวจสอบการให้เหตุผลโจทย์คณิตศาสตร์เขียนมือ

ต่อมาเพิ่มระดับความยาก ทดสอบความสามารถในการให้เหตุผลเชิงตรรกะ เราใช้ภาพโจทย์คณิตศาสตร์เขียนมือที่มีลายมือหวัดและตัดมาเพียงครึ่งหนึ่งของกระบวนการแก้ปัญหา ขอให้โมเดลโดยตรงว่า: “ระบุกระบวนการแก้ปัญหาโจทย์คณิตศาสตร์ในภาพ และวิเคราะห์ว่าถูกต้องหรือไม่?”

ลายมือในโจทย์อ่านยาก แต่ Qwen 3.5-Plus ยังคงระบุสูตรทั้งหมดได้อย่างแม่นยำ มันไม่เพียงแต่ให้เหตุผลได้ว่านี่เป็นเพียงครึ่งแรกของกระบวนการแก้ปัญหาเท่านั้น แต่ยังชี้ให้เห็นอย่างเฉียบคมถึงสัญลักษณ์สำคัญหนึ่งตัวที่ขาดหายไป

จากการทดสอบสองรอบข้างต้นจะเห็นได้ว่า ความสามารถด้านภาพและการให้เหตุผลของ Qwen 3.5-Plus ได้รับการเสริมกำลังอย่างเห็นได้ชัด ไม่ว่าจะเป็นสถานการณ์อาหารเย็นวันตรุษจีนที่ซับซ้อน หรือโจทย์คณิตศาสตร์เขียนมือหวัดที่ข้อมูลไม่ครบ มันต่างแสดงให้เห็นถึงความสามารถในการระบุและการตัดสินที่ยอดเยี่ยม ยืนยันข้อได้เปรียบหลักของมัลติโมดัลแบบเนทีฟที่ “เติมเต็มช่องว่างทางตรรกะผ่านภาพลักษณ์ที่คลุมเครือ”

แน่นอน แค่ “ดูภาพแล้วทำโจทย์” ยังไม่พอ สำหรับนักพัฒนาแล้ว สิ่งที่กังวลมากกว่าคือมันสามารถเพิ่มผลิตภาพผ่านความเข้าใจภาพได้หรือไม่ ต่อไป ลองให้มันสร้างโค้ดที่ใช้งานได้โดยตรงจากภาพร่างมือ

3. การสร้างโค้ด front-end จากภาพร่างมือ

เพื่อทดสอบความสามารถของโมเดลในการเข้าใจข้อมูลเชิงนามธรรม เราใช้ภาพร่างแผงควบคุมเซิร์ฟเวอร์ที่วาดอย่างลวกๆ ภาพร่างมีเส้นหวัด เค้าโครงโดยประมาณคือ: แถบเมนูด้านซ้าย พายชาร์ตด้านขวาบน ตารางด้านล่าง

ส่งภาพให้โมเดล และขอให้: “ใช้ไฟล์ HTML เพียงไฟล์เดียวเพื่อสร้างเค้าโครงนี้ ให้ฉันสามารถดูตัวอย่างผลลัพธ์ได้โดยตรง”

ความเร็วในการตอบสนองและความลึกของความเข้าใจของ Qwen 3.5-Plus นั้นน่าประหลาดใจ หลังจาก “คิด” เพียง 6.3 วินาที มันก็เสร็จสิ้นการแยกโครงสร้างภาพร่าง ระบุโครงสร้าง “รายการด้านซ้าย + พายชาร์ตขวาบน + ตารางขวาล่าง”

รันโค้ด HTML ที่มันสร้างขึ้น ตัวอย่างผลลัพธ์ออกมาดี

สิ่งที่น่าสังเกตคือ แม้ว่าในภาพร่างพายชาร์ตจะอยู่บน ตารางอยู่ล่าง แต่โมเดลเมื่อสร้างได้ปรับให้เหมาะสมกับการแสดงบนหน้าจอกว้างโดยอัตโนมัติเป็น “เค้าโครงซ้าย-ขวา” (แผนภูมิอยู่กลาง ตารางอยู่ขวา) นี่แสดงว่ามันไม่ได้แค่ระบุพิกเซลแบบกลไก แต่เป็นการปรับให้เหมาะสมตามความเข้าใจในการออกแบบหน้าเว็บ ซึ่งช่วยเพิ่มประสบการณ์ผู้ใช้

4. การซ่อมแซม Bug อัตโนมัติโดยอิงจากการเปรียบเทียบภาพหน้าจอ

แม้ว่าเค้าโครงที่ปรับให้เหมาะสมแล้วจะดูดีขึ้น แต่เรายังคงต้องการให้มันปฏิบัติตามเค้าโครงเดิมของภาพร่างอย่างเคร่งครัด ดังนั้น เราจึงส่งทั้ง「ภาพร่างมือ」และ「ภาพหน้าจอเว็บเพจที่สร้างขึ้น」พร้อมกัน และให้คำสั่งคลุมเครือว่า: “หาจุดที่แตกต่างและทำการแก้ไข”

โมเดลก็ให้แนวทางการแก้ไขและโค้ดที่เฉพาะเจาะจงทันที ดูตัวอย่างอีกครั้ง เค้าโครงหน้าเว็บได้กลับสู่รูปลักษณ์เดิมของภาพร่างอย่างสมบูรณ์แล้ว

นี่หมายความว่า นักพัฒนาไม่จำเป็นต้องอธิบายรายละเอียดปัญหาอินเทอร์เฟซหรือ Bug อย่างละเอียด แค่เหมือนการตรวจรับงานปกติ ส่งภาพอ้างอิงและภาพผลลัพธ์ให้ AI แล้วชี้ว่า “อันนี้ไม่ถูก ต้องแก้ตามภาพเดิม” AI ก็สามารถทำการแก้ไขโค้ดสไตล์เป็นชุดโดยอัตโนมัติได้โดยอิงจากความเข้าใจภาพ “ทำให้การเขียนโปรแกรมด้วยภาพกลายเป็นเครื่องมือเพิ่มผลิตภาพที่แท้จริง” สิ่งนี้แสดงให้เห็นได้ที่นี่

ในตอนนี้ ดูเหมือนว่า Qwen 3.5-Plus สมควรได้รับคำว่าเป็นโมเดลใหญ่ Visual Coding แบบโอเพนซอร์สที่สามารถผสานเข้ากับกระบวนการผลิตได้จริงๆ

สรุป

หลังจากการทดสอบจริงข้างต้น ความรู้สึกที่ใหญ่ที่สุดคือ: Qwen 3.5-Plus กำลังทำให้เส้นแบ่งระหว่างโมเดลโอเพนซอร์สและโมเดลปิดพร่ามัวลง

ในอดีต การได้รับความสามารถด้านการให้เหตุผลและมัลติโมดัลระดับสูงมักต้องพึ่งพา API แบบปิดที่มีราคาแพง Qwen 3.5-Plus ได้ทำลายสถานการณ์นี้ผ่าน “มัลติโมดัลแบบเนทีฟ” และ “โครงสร้าง MoE ขั้นสุด” มันพิสูจน์ให้วงการเห็นว่า สัญชาตญาณภาพและตรรกะการให้เหตุผลชั้นยอด ไม่จำเป็นต้องพึ่งพาการกองพารามิเตอร์ระดับล้านล้านอีกต่อไป และไม่ใช่คูเมืองทางเทคโนโลยีของบริษัทยักษ์ใหญ่ไม่กี่แห่งอีกต่อไป

สำหรับนักพัฒนาแล้ว หลังจากนี้ด้วยต้นทุนที่ต่ำมาก ก็สามารถสร้างผู้ช่วยพัฒนาอัจฉริยะที่ “สามารถเข้าใจภาพร่าง และซ่อมแซม Bug อัตโนมัติ” ได้

ในช่วงเวลาพิเศษของวันส่งท้ายปีเก่านี้ การเปิดตัว Qwen 3.5-Plus นำมาซึ่งความประหลาดใจอย่างมหาศาลอย่างไม่ต้องสงสัย

โมเดล Qwen 3.5-Plus ได้รับการเปิดเป็นโอเพนซอร์สบนแพลตฟอร์ม ModelScope และ HuggingFace แล้ว สามารถดาวน์โหลดและปรับใช้ในเครื่องได้ หรือสามารถทดลองใช้โดยตรงผ่านแอป Qianwen ได้

ติดตาม “鲸栖” Mini Program เพื่อรับข่าวสาร AI ล่าสุด

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง