Anthropic ได้เปิดตัว Claude Opus 4.6 เวอร์ชันใหม่ ซึ่งถูกกำหนดตำแหน่งอย่างเป็นทางการว่าเป็น “โมเดลที่ฉลาดที่สุด” โดยเน้นที่งานเอเจนต์ที่ซับซ้อนและการทำงานระยะยาว เมื่อเทียบกับ Claude Opus 4.5 เวอร์ชันก่อนหน้า เวอร์ชันใหม่นี้ได้รับการอัปเกรดหลายประการในด้านสถาปัตยกรรม รวมถึงการรองรับหน้าต่างบริบท 1 ล้านโทเค็นเป็นครั้งแรกในระดับ Opus และการนำกลไกการคิดแบบปรับตัว (adaptive thinking) มาใช้
เราได้ทำการประเมินเปรียบเทียบทั้งสองเวอร์ชันอย่างครอบคลุม เพื่อทดสอบความแตกต่างในด้านประสิทธิภาพตามตัวชี้วัดสำคัญ เช่น ความแม่นยำ เวลาตอบสนอง การใช้โทเค็น และต้นทุน ควรระบุว่า การประเมินครั้งนี้มุ่งเน้นไปที่สถานการณ์ในบริบทภาษาจีนเป็นหลัก ข้อได้เปรียบหลักที่ผู้พัฒนาระบุไว้ เช่น งานเอเจนต์ที่ซับซ้อน งานเขียนโปรแกรมระยะยาว การประมวลผลข้ามบริบทล้านโทเค็น ยังไม่ได้รับการแสดงให้เห็นอย่างเต็มที่ภายใต้กรอบการประเมินปัจจุบัน
ประสิทธิภาพของ Claude Opus 4.6:
* จำนวนข้อทดสอบ: ประมาณ 15,000 ข้อ
* คะแนนรวม (ความแม่นยำ): 70.5%
* เวลาเฉลี่ย (ต่อการเรียกใช้): 15 วินาที
* โทเค็นเฉลี่ย (โทเค็นที่ใช้ต่อการเรียกใช้): 794
* ค่าใช้จ่ายเฉลี่ย (ค่าใช้จ่ายต่อพันครั้งการเรียกใช้ในสกุลเงินหยวน): 96.5
1. การเปรียบเทียบเวอร์ชันเก่าและใหม่
ขั้นแรกเปรียบเทียบกับเวอร์ชันก่อนหน้า (Claude Opus 4.5) ข้อมูลมีดังนี้:

แหล่งข้อมูล: การประเมิน ReLE https://github.com/jeinlee1991/chinese-llm-benchmark
หน่วยราคาผลลัพธ์: หยวน/ล้านโทเค็น
- ประสิทธิภาพโดยรวมเพิ่มขึ้นอย่างมีนัยสำคัญ: ความแม่นยำของเวอร์ชันใหม่เพิ่มขึ้นจาก 64.9% เป็น 70.5% เพิ่มขึ้น 5.6 เปอร์เซ็นต์ อันดับปรับตัวขึ้นจากอันดับที่ 44 ไปสู่อันดับที่ 11 อย่างมาก
- ความสามารถของเอเจนต์เพิ่มขึ้นอย่างมาก: การปรับปรุงที่โดดเด่นที่สุดคือความสามารถด้าน “เอเจนต์และการเรียกใช้เครื่องมือ” ซึ่งเพิ่มขึ้นจาก 49.1% เป็น 69.1% เพิ่มขึ้นถึง 20 เปอร์เซ็นต์ สอดคล้องกับตำแหน่งที่ผู้พัฒนาระบุว่า “งานเอเจนต์มีระยะเวลาที่ยาวนานขึ้นและการวางแผนที่รอบคอบมากขึ้น”
- ความสามารถในการให้เหตุผลได้รับการปรับปรุงอย่างมั่นคง: “ความสามารถในการให้เหตุผลและการคำนวณทางคณิตศาสตร์” เพิ่มขึ้นจาก 67.9% เป็น 71.8% (+3.9%) และด้าน “การศึกษา” ก็มีความก้าวหน้าจาก 60.6% เป็น 63.0% (+2.4%)
- บางด้านลดลงเล็กน้อย: สิ่งที่ควรสังเกตคือ เวอร์ชันใหม่ลดลงเล็กน้อยในด้าน “การแพทย์และสุขภาพจิต” (82.8%→81.5%, -1.3%) และ “การเงิน” (81.8%→79.0%, -2.8%) ซึ่งบ่งชี้ว่ามีการแลกเปลี่ยนบางประการในกระบวนการเพิ่มความสามารถโดยรวม
- ประสิทธิภาพการใช้โทเค็นเพิ่มขึ้นอย่างมาก: โทเค็นเฉลี่ยที่ใช้ต่อการเรียกใช้ลดลงจาก 1063 เหลือ 794 ลดลงประมาณ 25% ซึ่งเป็นผลมาจากกลไก “การคิดแบบปรับตัว” ที่เวอร์ชันใหม่นำมาใช้ โดยโมเดลสามารถปรับความลึกของการให้เหตุผลได้ตามความซับซ้อนของงาน เพื่อหลีกเลี่ยงการคิดมากเกินไปในปัญหาง่ายๆ
- ต้นทุนลดลงอย่างเห็นได้ชัด: ค่าใช้จ่ายต่อพันครั้งการเรียกใช้ลดลงจาก 146.1 หยวนเหลือ 96.5 หยวน ลดลง 34% ซึ่งเป็นผลหลักมาจากการใช้โทเค็นที่ลดลงและราคาผลลัพธ์ที่ลดลงเล็กน้อย (178.0 หยวน/M→175.0 หยวน/M)
2. การเปรียบเทียบกับโมเดลอื่นๆ
ในสภาพการแข่งขันของโมเดลใหญ่หลักในปัจจุบัน Claude Opus 4.6 มีประสิทธิภาพอย่างไร? เราวิเคราะห์เปรียบเทียบในสามมิติ (การประเมินนี้เน้นที่สถานการณ์ภาษาจีน ประสิทธิภาพของโมเดลในภาษาอื่นและสาขาวิชาชีพเฉพาะอาจแตกต่างกัน):

แหล่งข้อมูล: การประเมิน ReLE https://github.com/jeinlee1991/chinese-llm-benchmark
2.1 การเปรียบเทียบในระดับต้นทุนใกล้เคียงกัน
- ต้นทุนอยู่ในช่วงที่ค่อนข้างสูง: ต้นทุน 96.5 หยวน/พันครั้ง ทำให้ Claude Opus 4.6 อยู่ในช่วงระดับต้นทุนสูง ในระดับต้นทุนใกล้เคียงกัน gpt-5.1-medium (87.9 หยวน) มีความแม่นยำ 69.3% ซึ่งใกล้เคียง แต่ Claude Opus 4.6 มีข้อได้เปรียบในด้านความแม่นยำ 70.5% และความเร็วในการตอบสนองที่เร็วกว่า (15 วินาที เทียบกับ 160 วินาที)
- มีประสิทธิภาพโดดเด่นในกลุ่มโมเดลต้นทุนสูง: เมื่อเทียบกับ gemini-3-pro-preview (72.5%, 247.3 หยวน) ที่มีความแม่นยำใกล้เคียง Claude Opus 4.6 มีต้นทุนต่ำกว่าและตอบสนองเร็วกว่า (15 วินาที เทียบกับ 64 วินาที) แต่เมื่อเทียบกับ doubao-seed-1-8-251215 (71.7%, 7.3 หยวน) ต้นทุนของ Claude Opus 4.6 สูงกว่า 13 เท่า ซึ่งมีความสามารถในการแข่งขันจำกัดในสถานการณ์ที่ต้องการอัตราส่วนประสิทธิภาพต้นทุนสูงสุด และจำเป็นต้องพิจารณาอย่างรอบคอบในสถานการณ์ที่มีทรัพยากรจำกัด
2.2 การเปรียบเทียบโมเดลรุ่นเก่าและใหม่
- ประสิทธิผลของการอัปเกรดรุ่นใหม่มีนัยสำคัญ: เมื่อเทียบกับ Claude Opus 4.5 (64.9%) เวอร์ชันใหม่เพิ่มขึ้น 5.6 เปอร์เซ็นต์ ซึ่งถือเป็นความก้าวหน้าของรุ่นที่ชัดเจน
- ประสิทธิภาพการอัปเกรดรุ่นของแต่ละผู้ผลิตแตกต่างกัน: ค่าย Google ก็แสดงให้เห็นถึงการปรับปรุงรุ่นเช่นกัน โดย gemini-3-pro-preview (72.5%) เมื่อเทียบกับ gemini-2.5-pro (68.9%) เพิ่มขึ้น 3.6 เปอร์เซ็นต์ ในขณะที่ gpt-5.2-high (67.4%) ของ OpenAI เมื่อเทียบกับ gpt-5.1-high (69.7%) ลดลง 2.3 เปอร์เซ็นต์ ซึ่งแสดงให้เห็นว่าการอัปเกรดรุ่นใหม่ไม่ได้นำมาซึ่งการพัฒนาอย่างรอบด้านเสมอไป
- ผลิตภัณฑ์ของ Anthropic มีความแตกต่าง: Claude Opus 4.6 (70.5%) ถูกกำหนดตำแหน่งเป็นเรือธง ในขณะที่ claude-sonnet-4.5-thinking (68.8%) มีความแม่นยำต่ำกว่าเล็กน้อยในการประเมินสถานการณ์ภาษาจีนครั้งนี้
2.3 การเปรียบเทียบโอเพ่นซอร์สกับโคลสซอร์ส
- การแข่งขันในกลุ่มโคลสซอร์สเข้มข้น: ในกลุ่มโมเดลเชิงพาณิชย์โคลสซอร์ส qwen3-max-think-2026-01-23 (72.8%), hunyuan-2.0-thinking-20251109 (71.9%), doubao-seed-1-8-251215 (71.7%) มีความแม่นยำสูงกว่า Claude Opus 4.6 (70.5%) ซึ่งแสดงให้เห็นถึงความสามารถในการแข่งขันที่แข็งแกร่งของผู้ผลิตในประเทศจีนในบริบทภาษาจีน
- โมเดลโอเพ่นซอร์สมีประสิทธิภาพโดดเด่น: ในกลุ่มโอเพ่นซอร์ส โมเดลต่างๆ เช่น GLM-4.7 (71.5%), Kimi-K2.5-Thinking (71.3%), DeepSeek-V3.2-Think (70.9%) มีความแม่นยำเทียบเท่าหรือสูงกว่า Claude Opus 4.6 และมีต้นทุนที่ต่ำกว่า (เช่น DeepSeek-V3.2-Think ราคาเพียง 7.5 หยวน/พันครั้ง)
- ข้อได้เปรียบด้านประสิทธิภาพของ Claude Opus 4.6: เมื่อเทียบกับโมเดลคิดวิเคราะห์ในระดับความแม่นยำใกล้เคียงกัน ข้อได้เปรียบหลักของ Claude Opus 4.6 อยู่ที่ความเร็วในการตอบสนอง (15 วินาที) และประสิทธิภาพการใช้โทเค็น (794) ซึ่งดีกว่า DeepSeek-V3.2-Think (144 วินาที, 2572 โทเค็น), Kimi-K2.5-Thinking (338 วินาที, 3842 โทเค็น) ฯลฯ อย่างมาก เหมาะสำหรับสภาพแวดล้อมการผลิตที่ไวต่อความล่าช้า
3. การประเมินอย่างเป็นทางการ
ตามข้อมูลที่ Anthropic เผยแพร่อย่างเป็นทางการ Claude Opus 4.6 ได้รับผลลัพธ์นำหน้าในเกณฑ์การประเมินวิชาชีพหลายชุด:
3.1 ความสามารถในการทำงานด้านความรู้

ในการประเมิน GDPval-AA (ดำเนินการโดยอิสระโดย Artificial Analysis เพื่อประเมินงานด้านความรู้ที่มีมูลค่าสูงในด้านต่างๆ เช่น การเงิน กฎหมาย) Opus 4.6 แซงหน้า GPT-5.2 ของ OpenAI ซึ่งเป็นอันดับสองในอุตสาหกรรม ประมาณ 144 คะแนน Elo และแซงหน้า Claude Opus 4.5 รุ่นก่อนหน้าถึง 190 คะแนน Elo ผู้พัฒนาระบุว่านี่หมายความว่า Claude Opus 4.6 มีโอกาสประมาณ 70% ที่จะเอาชนะ GPT-5.2 ในการประเมินนี้
3.2 ความสามารถในการเขียนโปรแกรมเอเจนต์

ในการประเมินการเขียนโปรแกรมเอเจนต์ Terminal-Bench 2.0 Opus 4.6 ได้คะแนนสูงสุดในอุตสาหกรรม แสดงให้เห็นถึงประสิทธิภาพที่ยอดเยี่ยมในการเขียนโปรแกรมเอเจนต์และงานระบบในโลกแห่งความเป็นจริง ผู้พัฒนาระบุว่า เวอร์ชันใหม่ “มีการวางแผนที่รอบคอบมากขึ้น สามารถดำเนินงานเอเจนต์ได้อย่างต่อเนื่องเป็นเวลานานขึ้น ทำงานในฐานรหัสขนาดใหญ่ได้อย่างน่าเชื่อถือมากขึ้น และมีความสามารถในการตรวจสอบและดีบั๊กรหัสที่ดีขึ้นเพื่อค้นหาข้อผิดพลาดของตัวเอง”
3.3 ความสามารถในการให้เหตุผลเชิงลึก

ในการทดสอบ Humanity’s Last Exam (การทดสอบการให้เหตุผลข้ามสาขาวิชาที่ซับซ้อน) Opus 4.6 นำหน้าโมเดลแนวหน้าอื่นๆ ทั้งหมด และยังแสดงผลลัพธ์ที่ดีที่สุดใน BrowseComp (ประเมินความสามารถของโมเดลในการค้นหาข้อมูลที่หาได้ยากบนเว็บ)
3.4 การประมวลผลบริบทยาว

ผู้พัฒนาเน้นย้ำถึงความก้าวหน้าของ Opus 4.6 ในงานบริบทยาวเป็นพิเศษ: ในการทดสอบ MRCR v2 1 ล้านโทเค็น 8 เข็มแบบแปรผัน Opus 4.6 ได้คะแนน 76% ในขณะที่ Sonnet 4.5 ได้เพียง 18.5% นี่แสดงถึง “การก้าวกระโดดเชิงคุณภาพในด้านที่โมเดลสามารถใช้ประโยชน์จากบริบทได้จริงในขณะที่รักษาประสิทธิภาพสูงสุด”
3.5 ความสามารถด้านวิศวกรรมซอฟต์แวร์และสาขาวิชาชีพ
ผู้พัฒนายังแสดงให้เห็นถึงประสิทธิภาพของ Claude Opus 4.6 ในเกณฑ์มาตรฐานวิชาชีพหลายชุด ครอบคลุมมิติต่างๆ เช่น ทักษะวิศวกรรมซอฟต์แวร์ ความสามารถในการเขียนโปรแกรมหลายภาษา ความสอดคล้องในระยะยาว ความสามารถด้านความปลอดภัยทางไซเบอร์ และความรู้ด้านวิทยาศาสตร์ชีวิต:

ผู้พัฒนาระบุว่า Claude Opus 4.6 แสดงให้เห็นถึงการเพิ่มความสามารถอย่างมีนัยสำคัญในหลายสาขาวิชาชีพ:
* การวิเคราะห์สาเหตุราก: เชี่ยวชาญในการวินิจฉัยความผิดพลาดของซอฟต์แวร์ที่ซับซ้อน
* การเขียนโปรแกรมหลายภาษา: สามารถแก้ไขปัญหาวิศวกรรมซอฟต์แวร์ข้ามภาษาโปรแกรมได้
* ความสอดคล้องในระยะยาว: ในการทดสอบ Vending-Bench 2 ทำเงินได้มากกว่า Opus 4.5 ถึง 3,050.53 ดอลลาร์สหรัฐฯ แสดงให้เห็นถึงความสามารถในการรักษาความตั้งใจและความคิดที่สอดคล้องกันเป็นเวลานาน
* ความปลอดภัยทางไซเบอร์: ความสามารถในการค้นหาช่องโหว่จริงในฐานรหัสดีกว่าโมเดลอื่นๆ ทั้งหมด
* วิทยาศาสตร์ชีวิต: ประสิทธิภาพในการทดสอบชีววิทยาเชิงคำนวณ ชีววิทยาโครงสร้าง เคมีอินทรีย์ และวิวัฒนาการชาติพันธุ์เกือบ 2 เท่าของ Opus 4.5
3.6 การประเมินความปลอดภัย

ตามบัตรระบบอย่างเป็นทางการ Opus 4.6 มีประสิทธิภาพด้านความปลอดภัยดังนี้:
* การจัดแนวโดยรวม: เทียบเท่าหรือดีกว่า Claude Opus 4.5 ซึ่งเป็นโมเดลแนวหน้าที่มีการจัดแนวดีที่สุดก่อนหน้านี้
* อัตราพฤติกรรมผิดพลาด: มีอัตราพฤติกรรมผิดพลาดต่ำในด้านการหลอกลวง การประจบสอพลอ การส่งเสริมความเพ้อฝันของผู้ใช้ การร่วมมือในการละเมิด ฯลฯ
* อัตร
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/22979
