Qwen3.7-Plus เปิดตัว: เอเจนต์มัลติโหมดยุติ AI สนทนา จากเข้าใจภาพ สู่ทำงานเสร็จ

วันที่ 2 มิถุนายน 2026 อาลีคลาวด์ได้เปิดตัวโมเดลใหม่อย่างเงียบๆ โดยไม่มีการจัดงานแถลงข่าวใหญ่โตหรือการตลาดที่อลังการ แต่หากคุณเป็นนักพัฒนา AI หรือผู้ใช้งานระดับลึก คุณอาจสังเกตเห็นชื่อนั้นแล้ว นั่นคือ Qwen3.7-Plus

นี่ไม่ใช่แค่การอัปเดตเวอร์ชันทั่วไปเท่านั้น เบื้องหลังคำต่อท้าย “Plus” นั้นซ่อนทิศทางเชิงกลยุทธ์ที่สำคัญไว้ นั่นคือ AI กำลังเปลี่ยนจาก “เครื่องตอบคำถาม” แบบรับคำสั่ง กลายเป็น “พนักงานดิจิทัล” ที่มีความคิดริเริ่ม มันมองเห็น คิด เขียน ทำได้ และแม้กระทั่งตรวจสอบและพัฒนาตัวเองได้ กล่าวอีกนัยหนึ่ง “มือ” และ “ตา” ของ AI ได้ถือกำเนิดขึ้นอย่างแท้จริงแล้ว

จาก “ความเข้าใจภาษา” สู่ “ความเข้าใจโลก”: AI มีดวงตา

ในอดีต AI เปรียบเสมือนคนตาบอดผู้รอบรู้ มันสามารถสนทนากับคุณได้ทุกเรื่อง แต่กลับไม่มีความรู้สึกใดๆ กับไอคอนแอปบนหน้าจอมือถือของคุณ เส้นทางการเลี้ยวของรถในวิดีโอ หรือความสัมพันธ์เชิงตรรกะในภาพร่างด้วยมือ โลกของโมเดลขนาดใหญ่เคยถูกขังอยู่ในกรงขังของตัวอักษร

Qwen3.7-Plus เปิดตัว: เอเจนต์มัลติโหมดยุติ AI สนทนา จากเข้าใจภาพ สู่ทำงานเสร็จ

การเปิดตัว Qwen3.7-Plus ประกาศการทำลายกรงขังนี้อย่างสิ้นเชิง แกนหลักของมันคือ “โมเดลภาษาภาพสำหรับเอเจนต์มัลติโมดัล” พูดให้เข้าใจง่ายๆ คือ มันไม่เพียงแต่อ่านข้อความที่คุณเขียนได้เท่านั้น แต่ยังเข้าใจภาพ วิดีโอ อินเทอร์เฟซหน้าจอ และแม้แต่สถานการณ์การใช้งานที่ซับซ้อนที่คุณเห็นได้อีกด้วย

คุณส่งรูปภาพเครื่องจักรกลที่เบลอและเฉพาะทางจากโรงงานให้มัน มันจะไม่เพียงแค่อธิบายว่า “นี่คือภาพถ่ายชิ้นส่วนโลหะ” เท่านั้น แต่ยังสามารถวิเคราะห์ฟังก์ชัน พารามิเตอร์ของอุปกรณ์นั้นได้อย่างแม่นยำด้วยการค้นหาที่เสริมประสิทธิภาพ และแม้กระทั่งให้คำแนะนำในการใช้งาน คุณส่งวิดีโอการขับขี่ให้มัน มันไม่เพียงแต่อธิบายว่า “มีรถคันหนึ่งกำลังวิ่งอยู่” แต่ยังเข้าใจความสัมพันธ์เชิงพื้นที่ระหว่างผู้ร่วมจราจร ลำดับเหตุการณ์ และความเสี่ยงที่อาจเกิดขึ้นได้อีกด้วย ความสามารถนี้คือเกณฑ์สำคัญสู่การใช้งานในโลกทางกายภาพจริง เช่น การขับขี่อัตโนมัติและหุ่นยนต์ที่มีกายภาพ

“ดู คิด เขียน ทำ ตรวจสอบ”: วงจรปิดแบบครบวงจรของโมเดลเดียว

หาก “การมองเห็นโลก” คือก้าวแรก ความก้าวหน้าที่ปฏิวัติวงการที่สุดของ Qwen3.7-Plus ก็คือการสร้าง “ขั้นตอนการทำงานของเอเจนต์” ที่สมบูรณ์ ได้แก่ ดู คิด เขียน ทำ ตรวจสอบ ห้าคำนี้สรุปความสามารถครบวงจรของมันในฐานะ “พนักงานดิจิทัล” ได้อย่างแม่นยำ

Qwen3.7-Plus เปิดตัว: เอเจนต์มัลติโหมดยุติ AI สนทนา จากเข้าใจภาพ สู่ทำงานเสร็จ

ในการสาธิตหลายครั้ง Qwen3.7-Plus แสดงให้เห็นถึง “ความเป็นอิสระ” ที่น่าทึ่ง ตัวอย่างเช่น มันสามารถจำลองการโต้ตอบของผู้ใช้มนุษย์กับแอปพลิเคชันหุ้นตัวอย่าง เข้าใจเค้าโครง UI ทั้งหมดและตรรกะการทำงาน จากนั้นมันจะสร้างโค้ด SwiftUI โดยอัตโนมัติ เรียกใช้ API ราคาตลาดแบบเรียลไทม์ ดำเนินการและผ่านการทดสอบฟังก์ชันหลัก 10 รายการด้วยตนเอง และสุดท้ายก็สร้างซอฟต์แวร์มืออาชีพระดับเดสก์ท็อปที่มีความเที่ยงตรงสูงขึ้นมาใหม่ได้สำเร็จ ตลอดกระบวนการนี้ มันทำหน้าที่ทั้งผู้จัดการผลิตภัณฑ์ วิศวกรฟรอนต์เอนด์ และวิศวกรทดสอบ

นี่ไม่ใช่แค่การเขียนโค้ดเท่านั้น ในการทดสอบอีกครั้งหนึ่ง เอเจนต์ทำงานต่อเนื่องอย่างเสถียรนานกว่า 11 ชั่วโมง โดยดำเนินการพัฒนาแอปพลิเคชันอย่างสมบูรณ์โดยอัตโนมัติ ตั้งแต่การสร้างเอกสารความต้องการ การเขียนโค้ด การติดตั้งและปรับใช้ ไปจนถึงการทดสอบหลายสถานการณ์ นี่เป็นสัญญาณว่า AI ได้ก้าวข้ามจาก “เครื่องมือช่วยเหลือ” ไปสู่ “ผู้ดำเนินการอิสระ” อย่างมีนัยสำคัญ

“คุณค่า” ของ Plus: วิวัฒนาการสองทางของข้อความและภาพ

“Plus” ไม่เคยเป็นเพียงคำต่อท้ายธรรมดา “คุณค่า” ของ Qwen3.7-Plus สะท้อนให้เห็นในการเปลี่ยนแปลงเชิงคุณภาพทั้งด้านข้อความและภาพ

ความสามารถด้านข้อความใกล้เคียงกับรุ่นเรือธง: ในฐานะสมาชิกล่าสุดของซีรีส์ 3.7 ความสามารถด้านข้อความล้วนของ Qwen3.7-Plus นั้นใกล้เคียงกับโมเดลเรือธง Qwen3.7-Max มาก ในการประเมินหลักๆ เช่น การเขียนโปรแกรม เอเจนต์ทั่วไป และการให้เหตุผลทางคณิตศาสตร์ มันมีการปรับปรุงอย่างมีนัยสำคัญเมื่อเทียบกับรุ่นก่อนหน้าอย่าง Qwen3.6-Plus ตัวอย่างเช่น ในการประเมินการให้เหตุผลทางคณิตศาสตร์ Apex คะแนนประสิทธิภาพของมันสูงกว่ารุ่นก่อนหน้าเกือบ 3 เท่า ซึ่งหมายความว่า แม้จะไม่เปิดใช้ความสามารถด้านภาพ มันก็เป็นโมเดลข้อความและโค้ดระดับแนวหน้าในตัวของมันเอง

ความสามารถด้านภาพได้รับการเสริมสร้างอย่างเป็นระบบ: เพื่อตอบสนองความต้องการที่แท้จริงของเอเจนต์ Qwen3.7-Plus ได้ปรับโครงสร้างความสามารถด้านภาพใหม่อย่างเป็นระบบ ในการประเมินการใช้เหตุผลทางภาพล้วน BabyVision คะแนนของมันพุ่งจาก 37.4 ไปเป็น 64.7 ซึ่งสูงกว่า Gemini 3.1 Pro เสียอีก ในการประเมินการตอบคำถามด้วยการค้นหาที่เสริมประสิทธิภาพ ประสิทธิภาพของมันดีขึ้นมากกว่า 2 เท่า ตัวเลขเหล่านี้บ่งบอกถึงการก้าวกระโดดของโมเดลในการแยกส่วน ให้เหตุผล และสร้างสรรค์ข้อมูลภาพที่ซับซ้อนขึ้นมาใหม่

Qwen3.7-Plus เปิดตัว: เอเจนต์มัลติโหมดยุติ AI สนทนา จากเข้าใจภาพ สู่ทำงานเสร็จ

“กล่องเครื่องมือ” ของเอเจนต์: จากการแก้ปริศนาฮัวหรงเต้า ไปจนถึงการควบคุมเซิร์ฟเวอร์คลาวด์

“พนักงานดิจิทัล” ที่มีความสามารถจำเป็นต้องมี “เครื่องมือ” ที่เหมาะสม ความสามารถในการใช้เครื่องมือของ Qwen3.7-Plus คือกุญแจสำคัญที่ทำให้มันก้าวจาก “ความเข้าใจ” ไปสู่ “การปฏิบัติ”

มันมีตัวแปลโค้ด CI ในตัว ซึ่งหมายความว่ามันสามารถแก้ปัญหาปริศนาทางภาพได้ ให้รูปภาพ “หาจุดแตกต่าง” แก่มัน มันสามารถวิเคราะห์ความแตกต่างผ่านการเขียนโปรแกรมได้อย่างมีตรรกะ ให้ภาพหน้าจอของเกมฮัวหรงเต้าแก่ มันสามารถจำลองในใจและหาทางออกที่ดีที่สุดได้ มันเปลี่ยนงานด้านภาพให้เป็นปัญหาการเขียนโปรแกรมที่สามารถคำนวณและตรวจสอบได้

การประยุกต์ใช้ที่ใช้งานได้จริงยิ่งกว่านั้นคือ คุณสามารถสร้างผู้ช่วยเบราว์เซอร์อัจฉริยะจากมันได้ เมื่อผู้ใช้สั่งการคลุมเครือเช่น “ช่วยฉันซื้อเซิร์ฟเวอร์ ECS ที่ถูกที่สุดหน่อย” เอเจนต์สามารถเข้าไปยังคอนโซลคลาวด์ได้โดยตรง และดำเนินการต่างๆ ด้วยตนเอง เช่น การเปรียบเทียบราคาสเปกอินสแตนซ์ การเลือกการกำหนดค่า การตั้งค่ากลุ่มความปลอดภัย และการยืนยันคำสั่งซื้อ แม้กระทั่งเมื่อเจอสต็อกไม่เพียงพอหรือราคาเปลี่ยนแปลง มันสามารถไตร่ตรองและปรับเปลี่ยนกลยุทธ์ได้อย่างจริงจัง จนกว่างานจะเสร็จสมบูรณ์

นี่ไม่ใช่แค่ “การถามตอบ” อีกต่อไป แต่เป็น “การทำงาน” อย่างแท้จริง

ยุคของ Agentic: การแข่งขันของ AI จาก “การสนทนา” สู่ “ภารกิจ”

การเปิดตัว Qwen3.7-Plus เป็นสัญญาณที่ชัดเจน การแข่งขันของโมเดล AI ขนาดใหญ่ได้เข้าสู่ “ยุคของ Agentic” แล้ว

ในอดีต เราแข่งขันกันที่คะแนนสอบของโมเดล ความสวยงามของบทความที่สร้างขึ้น ตอนนี้ ทุกคนเริ่มแข่งขันกันว่าโมเดลสามารถทำงานที่เฉพาะเจาะจง ซับซ้อน และใช้เวลานานในโลกแห่งความจริงได้สำเร็จหรือไม่ ดังที่บล็อกอย่างเป็นทางการกล่าวไว้ว่า “ในอนาคต ความแตกต่างระหว่างโมเดลขนาดใหญ่อาจไม่ใช่แค่การให้เหตุผลเชิงข้อความ ความสามารถในการเขียนโค้ด หรือความยาวของบริบทอีกต่อไป แต่คือความสามารถในการเข้าใจข้อมูลที่ซับซ้อนในโลกแห่งความจริงอย่างแท้จริง และดำเนินงานที่สามารถปฏิบัติได้ในเครื่องมือและระบบต่างๆ”

จาก Qwen 3.6 ถึง 3.7 เราได้เห็นการเปลี่ยนแปลงของโมเดล “Plus” ในด้านเอเจนต์ภาพจากผู้ตามมาเป็นหนึ่งในห้าอันดับแรกของโลก และ Qwen3.7-Plus เปรียบเสมือนโครงสร้างพื้นฐานที่อาลีมอบให้อย่างเต็มที่สำหรับยุค “พนักงาน AI” ที่กำลังจะมาถึง มันทำให้เราเห็นว่า AI ที่สามารถ “ทำงาน” ให้คุณได้จริงๆ นั้น ไม่ใช่แค่จินตนาการในภาพยนตร์วิทยาศาสตร์อีกต่อไป

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง