Claude Opus 4.6 เปิดตัวอย่างยิ่งใหญ่: ออกแบบมาเพื่อภารกิจ Agent แบบระยะยาวโดยเฉพาะ บริบทโทเค็นล้านตัว บรรลุอัตราความแม่นยำการดึงข้อมูล 76%

2026年2月6日 pm12:28 • ข่าวสารอุตสาหกรรม AI • 10 views

ตีสอง ณ หุบเขาซิลิคอน ยักษ์ใหญ่ AI สองบริษัทได้แข่งขันกันอย่างดุเดือดอีกครั้ง เนื่องจาก Claude Opus 4.6 เปิดตัวเร็วกว่า การตีความของวงการและประสบการณ์การทดสอบของผู้ใช้ก็มีมากกว่าเช่นกัน เมื่อรวมข้อมูลอย่างเป็นทางการจาก Anthropic และการประเมินที่เกี่ยวข้องแล้ว Opus 4.6 แสดงผลที่น่าประทับใจในด้าน การระบุตำแหน่งข้อมูลบริบทยาว การให้เหตุผลตามข้อมูล และการให้เหตุผลที่ซับซ้อนระดับผู้เชี่ยวชาญ

Boris ผู้ใช้ Claude มาเป็นเวลานาน สรุป Opus 4.6 ด้วยสี่คำ: มีความเป็นอิสระมากขึ้น ฉลาดขึ้น ทำงานได้นานขึ้น และละเอียดรอบคอบมากขึ้น
ดร. Ganpathi นักวิจารณ์เทคโนโลยีชื่อดังชี้ให้เห็นว่านี่เป็นโมเดลระดับ Opus รุ่นแรกที่รองรับบริบท (context) หนึ่งล้านโทเค็น มันสามารถวางแผนที่รอบคอบมากขึ้น รักษาการทำงานของงานเชิงเอเจนต์ (Agentic) ได้นานขึ้น และทำงานในฐานรหัสขนาดใหญ่ได้อย่างเสถียรและน่าเชื่อถือมากขึ้น

ผู้ใช้ยังสามารถรัน Opus 4.6 บนเทอร์มินัลได้ โดยความสามารถของมันยังครอบคลุมถึงสถานการณ์เอเจนต์บนเทอร์มินัลอีกด้วย มีผู้ใช้แล้วที่แชร์ภาพหน้าจอการรันสำเร็จบน OpenClaw บนแพลตฟอร์มโซเชียล X

ในฐานะโมเดลที่ทรงพลังที่สุดและมีตำแหน่งสูงสุดในระบบ Claude Opus 4.6 นั้นสมควรได้รับความสนใจอย่างลึกซึ้ง

การวางตำแหน่งโมเดล: โมเดลล้ำสมัยที่เกิดมาเพื่อ “งานเชิงเอเจนต์ระยะยาว”

ต่างจากการเน้น “การแสดงความสามารถของโมเดล” ในอดีต ทิศทางการอัปเกรดของ Opus 4.6 นั้นชัดเจนมาก: ออกแบบมาสำหรับงานความรู้และงานเอเจนต์ที่ยาวนาน ซับซ้อน และอยู่ในโลกแห่งความเป็นจริง การวางตำแหน่งหลักของมันได้เปลี่ยนจาก “โมเดลแชทที่ฉลาดกว่า” ไปเป็นโมเดลเอเจนต์ที่มุ่งสู่โลกแห่งความเป็นจริง

เมื่อเทียบกับการทดสอบมาตรฐานด้านศิลปศาสตร์หรือวิทยาศาสตร์ หรือการให้เหตุผลแบบดั้งเดิม จุดเน้นการเล่าเรื่องของการอัปเกรดครั้งนี้ได้เปลี่ยนไปสู่สี่ด้านต่อไปนี้:
* การตัดสินใจอย่างอิสระถึงจุดสำคัญในงานที่ซับซ้อน
* การรักษาความสอดคล้องของบริบทเป็นเวลานาน
* การรันเวิร์กโฟลว์เชิงเอเจนต์ได้อย่างเสถียร
* การแสดงความสามารถได้อย่างควบคุมได้และน่าเชื่อถือในฐานรหัสจริงและงานระดับองค์กร

จุดนี้ได้รับการยืนยันจากผลการทดสอบมาตรฐาน 13 รายการที่ Anthropic เปิดเผย โดยมีมากถึง 10 รายการที่มุ่งเน้นไปที่ความสามารถเชิงเอเจนต์ ส่วนอีกสามรายการที่เหลือคือการทดสอบ GPQA การให้เหตุผลด้วยภาพ และความเข้าใจข้ามภาษา

Anthropic เน้นย้ำหลายครั้งในการแสดงออกอย่างเป็นทางการว่า: พวกเขาใช้ Claude ในการสร้าง Claude Opus 4.6 ได้รับการยืนยันแล้วในการทำงานด้านวิศวกรรมภายใน การตรวจสอบโค้ด การวิจัย และงานเอกสาร โดยเป้าหมายการออกแบบของมันมุ่งตรงไปยังสถานการณ์การใช้งานประจำวันของทีมวิศวกรรมและผู้ทำงานด้านความรู้

สามทิศทางการปรับปรุงหลัก

การเพิ่มความสามารถของ Opus 4.6 เน้นไปที่สามทิศทางหลัก

ประการแรก การเสริมสร้างความสามารถเชิงเอเจนต์อย่างเป็นระบบ
Opus 4.6 มีความเสถียรมากขึ้นในการวางแผน แยกย่อย และดำเนินงาน สามารถขับเคลื่อนงานที่ซับซ้อนต่อไปได้โดยไม่ต้องมีการแทรกแซงจากมนุษย์บ่อยครั้ง ข้อเสนอแนะจากผู้ใช้ในระยะแรกแสดงให้เห็นว่ามัน “ทำงานให้เสร็จอย่างอิสระ” ได้ง่ายขึ้น แทนที่จะรอคำสั่งซ้ำๆ

Stian Kirkeberg หัวหน้าฝ่าย AI และการเรียนรู้ของเครื่อง (AI & Machine Learning) ของบริษัทจัดการลงทุนธนาคารกลางนอร์เวย์ (Norges Bank Investment Management) เปิดเผยข้อมูลจากการทดสอบแบบบลายด์ (blind test) หนึ่งชุด:

ในการสอบสวนด้านความปลอดภัยไซเบอร์ 40 รายการ Claude Opus 4.6 ได้รับผลลัพธ์ที่ดีที่สุด 38 ครั้งในการเปรียบเทียบแบบบลายด์กับ Claude 4.5 โมเดลทั้งหมดทำงานแบบ end-to-end ในเฟรมเวิร์กการทดสอบเอเจนต์เดียวกัน ใช้ซับเอเจนต์ย่อยได้มากสุด 9 ตัว และมีการเรียกใช้เครื่องมือ (tool calls) มากกว่า 100 ครั้ง

แน่นอนว่ายังมีข้อเสนอแนะจากการทดสอบจริงของผู้ใช้ที่ระบุว่าความเป็นอิสระของมันยังมีพื้นที่ให้ปรับปรุง ตัวอย่างเช่น ผู้ใช้อินเทอร์เน็ตท่านหนึ่งได้แชร์การวิเคราะห์ของ Claude Opus 4.6 ต่อการค้นพบ 12 รายการ โดยมี 4 รายการที่มีประโยชน์จริง ที่เหลืออีก 8 รายการเป็นสัญญาณรบกวนหรือความซับซ้อน แผนงานโดยรวมกระชับแต่ยังต้องการการตัดสินใจย่อยเพิ่มเติมสามรายการและแผนการทดสอบหนึ่งรายการ

ประการที่สอง “ความสามารถในการใช้งาน” ของบริบทยาวเกิดการเปลี่ยนแปลงเชิงคุณภาพ
บริบทหนึ่งล้านโทเค็นของ Opus 4.6 ไม่ใช่เรื่องหลอกลวง ในการทดสอบ MRCR v2 8-needle / 1M Opus 4.6 บรรลุอัตราความแม่นยำในการค้นคืนที่ 76% ในขณะที่ Sonnet 4.5 มีเพียง 18.5% นี่บ่งชี้ว่าโมเดลไม่เพียงแต่สามารถ “บรรจุ” บริบทที่ยาวมากได้ แต่ยังสามารถทำความเข้าใจ ติดตาม และเรียกใช้ข้อมูลสำคัญภายในนั้นได้อย่างต่อเนื่อง ซึ่งช่วยบรรเทาปัญหา “การเสื่อมสภาพของบริบท” ที่ถูกวิพากษ์วิจารณ์มายาวนานได้อย่างมีนัยสำคัญ

ประการที่สาม วิธีการให้เหตุผลเปลี่ยนจาก “บังคับขยาย” เป็น “ใช้ตามความต้องการ”
ด้วยการนำ การคิดแบบปรับตัวได้และการควบคุมความเข้มข้นของการให้เหตุผล มาใช้ Opus 4.6 สามารถตัดสินใจได้เองตามความซับซ้อนของงานว่าจะเปิดใช้งานการให้เหตุผลเชิงลึกหรือไม่ นักพัฒนาไม่จำเป็นต้องเลือกระหว่าง “เปิดเต็มหรือปิดเต็ม” อีกต่อไป แต่สามารถปรับแต่งอย่างละเอียดระหว่างคุณภาพผลลัพธ์ ความเร็วในการตอบสนอง และต้นทุนได้

รายละเอียดมีดังนี้:

การคิดแบบปรับตัวได้: ก่อนหน้านี้ นักพัฒนาสามารถเลือกเพียงเปิดหรือปิดการให้เหตุผลแบบขยาย (extended reasoning) เท่านั้น ตอนนี้ Claude สามารถตัดสินใจได้เองว่าเมื่อใดที่ต้องการการให้เหตุผลที่ลึกซึ้งกว่า ในระดับความเข้มข้น “สูง” ซึ่งเป็นค่าเริ่มต้น โมเดลจะเปิดใช้งานการให้เหตุผลแบบขยายเมื่อจำเป็น นักพัฒนายังสามารถปรับความเข้มข้นเพื่อให้โมเดลใช้การให้เหตุผลเชิงลึกด้วยความระมัดระวังมากขึ้นหรือน้อยลงได้

การควบคุมความเข้มข้นของการให้เหตุผล: เพิ่มตัวเลือกสี่ระดับ: ต่ำ, กลาง, สูง (ค่าเริ่มต้น), สูงสุด คำแนะนำอย่างเป็นทางการแนะนำให้นักพัฒนาลองตั้งค่าต่างๆ ตามงานเฉพาะเพื่อสร้างสมดุลระหว่างคุณภาพ ความเร็ว และต้นทุน

จุดนี้ยังได้รับการอธิบายในทวีตของ Boris ผ่าน Claude API โมเดล Opus 4.6 สามารถตัดสินใจที่ซับซ้อนแบบปรับตัวได้แล้ว จึงสามารถควบคุมปริมาณการคิดของโมเดลได้อย่างแม่นยำยิ่งขึ้น

ผลการประเมินที่นำหน้าในหลายรายการ: ผลงานด้านการเขียนโปรแกรมเชิงเอเจนต์อันดับหนึ่ง

ในการประเมินหลายรายการที่เปิดเผยอย่างเป็นทางการ Opus 4.6 บรรลุหรือรีเฟรชระดับแนวหน้าปัจจุบัน:
* Terminal-Bench 2.0: อันดับหนึ่งในการประเมินการเขียนโปรแกรมเชิงเอเจนต์
* Humanity’s Last Exam: นำหน้าโมเดลแนวหน้าทั้งหมดในการให้เหตุผลที่ซับซ้อนข้ามสาขาวิชา
* GDPval-AA: ในงานความรู้ที่มีมูลค่าสูง เช่น การเงิน กฎหมาย
* สูงกว่า OpenAI GPT-5.2 ประมาณ 144 Elo
* สูงกว่า Opus 4.5 190 Elo
* BrowseComp: อันดับหนึ่งในความสามารถในการค้นหาออนไลน์และการระบุตำแหน่งข้อมูล

ในมิติความสามารถ Opus 4.6 มีผลงานโดดเด่นในด้าน การวิเคราะห์สาเหตุรากฐาน การเขียนโปรแกรมหลายภาษา ความสอดคล้องในระยะยาว ความปลอดภัยไซเบอร์ และความรู้วิทยาศาสตร์ชีวภาพ โดยเฉพาะอย่างยิ่งมีความเชี่ยวชาญในการวินิจฉัยความผิดพลาดของซอฟต์แวร์ที่ซับซ้อน

AI ใกล้เคียงกับ “เพื่อนร่วมงานที่ใช้งานได้” มากขึ้นเรื่อยๆ

เห็นได้ชัดว่าการเปิดตัว Opus 4.6 เป็นสัญลักษณ์ของการเปลี่ยนแปลงจุดเน้นการเล่าเรื่อง: ลดการแข่งขันเกี่ยวกับพารามิเตอร์โมเดลและรายการแบบดั้งเดิมลง และมุ่งเน้นไปที่การขัดเกลาความสามารถเชิงเอเจนต์อย่างลึกซึ้งมากขึ้น

ประการแรก เอเจนต์ก้าวจาก “การสาธิต” สู่ “การผลิต” ผ่านการบีบอัดบริบท ความยาวผลลัพธ์ 128k การทำงานร่วมกันของทีมเอเจนต์ และการสนับสนุนการทำงานระยะยาว Anthropic มองว่าเอเจนต์เป็นพลเมืองชั้นหนึ่งอย่างชัดเจน ทำให้มันไม่หยุดอยู่แค่ในขั้นตอนฟังก์ชันการทดลองของปีที่แล้ว

หากจะพูดว่า Opus 4.6 มีความพิเศษอย่างไรเมื่อเทียบกับโมเดลระดับท็อปอื่นๆ ด้านความปลอดภัยก็น่าพูดถึง ในขณะที่ความสามารถเพิ่มขึ้นอย่างมาก Opus 4.6 ยังคงรักษาระดับการจัดตำแหน่ง (alignment) ที่เทียบเท่าหรือดีกว่า Opus 4.5 และบรรลุ อัตราการปฏิเสธเกินเหตุ (over-refusal) ที่ต่ำที่สุด ในขณะที่เพิ่มความสามารถด้านความปลอดภัยไซเบอร์ Anthropic ได้นำเครื่องมือตรวจสอบความปลอดภัย (security probes) ใหม่และการใช้งานเชิงป้องกันมาใช้พร้อมกัน โดยเน้นย้ำ “ให้ฝ่ายป้องกันใช้ AI ให้ดีก่อน”

เมื่อม่านของปี 2026 เปิดขึ้น สัญญาณที่ชัดเจนได้ปรากฏขึ้นแล้ว: จุดสนใจของการแข่งขัน AI ทั่วโลกกำลังค่อยๆ หันไปสู่ “ความสามารถในการทำงานเชิงเอเจนต์อย่างต่อเนื่อง” ในสถานการณ์จริง

แล้วจะยึดโยงความสามารถนี้ได้อย่างไร? Anthropic ได้ให้มิติอ้างอิงพื้นฐานบางประการ ตั้งแต่การให้เหตุผลแบบปรับตัวได้ ความสามารถในการใช้งานของบริบทยาว ไปจนถึงการบูรณาการอย่างลึกซึ้งกับเครื่องมือสำนักงาน

สัญญาณที่ Opus 4.6 ส่งออกมานั้นชัดเจนมาก: การแข่งขันโมเดลกำลังเปลี่ยนจาก “คำตอบครั้งเดียวฉลาดแค่ไหน” ไปเป็น “สามารถทำงานจริงให้เสร็จได้อย่างยาวนาน เสถียร และน่าเชื่อถือหรือไม่” ซึ่งนี่ก็หมายความว่าโมเดลใหญ่กำลังเปลี่ยนจาก “เครื่องมือ” เป็น “เพื่อนร่วมงานที่สามารถทำงานร่วมกันได้”

การทดสอบจริง: งานสร้างสรรค์ที่ “รันได้ มีปฏิสัมพันธ์ได้ เล่นได้”

แม้จะมีข้อจำกัดในการเข้าถึงตามภูมิศาสตร์ ทำให้ไม่สามารถทดสอบด้วยตนเองได้ แต่จากวิดีโอทดสอบจริงที่เปิดเผยหลายรายการ ประสบการณ์ของ Opus 4.6 นั้นน่าตื่นเต้นจริงๆ

ในการทดสอบด้วยวิดีโอที่เปิดเผย ผู้ประเมินได้ทดสอบ Opus 4.6 ด้วยงานสร้างสรรค์ความซับซ้อนสูง แบบ zero-shot หลายรายการ ครอบคลุมการจำลองการรบเรือ เกมการรบทางอากาศ การจำลองกลองชุดเสมือนจริง และ เกมสเก็ตบอร์ด C++ ที่สมบูรณ์ในตัวเองและสามารถคอมไพล์และรันได้โดยตรง การทดสอบทั้งหมดไม่พึ่งพาทรัพยากรภายนอกหรือการแก้ไขโดยมนุษย์ กระบวนการสร้างเสร็จในครั้งเดียว โดยเน้นการตรวจสอบความสามารถโดยรวมของโมเดลในด้านตรรกะการโต้ตอบ ความสอดคล้องทางกายภาพ ความสามารถในการเล่น และความสมบูรณ์ของโค้ด

ในนั้น เกมสเก็ตบอร์ด C++ กลายเป็นกรณีศึกษาที่โดดเด่นที่สุด: โมเดลสร้างโค้ดเกือบ 2000 บรรทัดในครั้งเดียว การเคลื่อนไหวของตัวละคร การตอบสนองทางกายภาพ ตรรกะการนับคะแนนสมบูรณ์และรันได้ การสร้างแบบจำลองตัวละครและการแสดงการเคลื่อนไหวก็หลุดพ้นจากข้อจำกัดของ “รูปร่างมนุษย์แบบนามธรรม” ในอดีตเป็นครั้งแรก

การจำลองการรบทางอากาศก็บรรลุระดับสูงสุดในระบบทดสอบนี้ในด้านภาพ ตรรกะของเครื่องบินศัตรู และการนำเอฟเฟกต์เสียงเข้ามาใช้ ในทางกลับกัน การทดสอบมัลติโมดอลในการสร้างเว็บเพจจากไดอะแกรมเส้น (wireframe) แสดงผลที่มั่นคง แต่มีอิสระในการสร้างสรรค์ที่จำกัด เมื่อมองโดยรวมแล้ว ความสามารถของ Opus 4.6 ในงานสร้างสรรค์ที่ “รันได้ มีปฏิสัมพันธ์ได้ เล่นได้” กำลังเข้าใกล้ระดับที่เคยเห็นได้เฉพาะในโมเดลที่มีสเปกสูงกว่าเท่านั้น