Claude Opus 4.6 ทดสอบจริง: ความแม่นยำเพิ่มขึ้น 5.6% ต้นทุนลดลง 34% กลไกการคิดแบบปรับตัวแสดงประสิทธิภาพ

Anthropic ได้เปิดตัว Claude Opus 4.6 เวอร์ชันใหม่ ซึ่งถูกกำหนดตำแหน่งอย่างเป็นทางการว่าเป็น “โมเดลที่ฉลาดที่สุด” โดยเน้นที่งานเอเจนต์ที่ซับซ้อนและการทำงานระยะยาว เมื่อเทียบกับ Claude Opus 4.5 เวอร์ชันก่อนหน้า เวอร์ชันใหม่นี้ได้รับการอัปเกรดหลายประการในด้านสถาปัตยกรรม รวมถึงการรองรับหน้าต่างบริบท 1 ล้านโทเค็นเป็นครั้งแรกในระดับ Opus และการนำกลไกการคิดแบบปรับตัว (adaptive thinking) มาใช้

เราได้ทำการประเมินเปรียบเทียบทั้งสองเวอร์ชันอย่างครอบคลุม เพื่อทดสอบความแตกต่างในด้านประสิทธิภาพตามตัวชี้วัดสำคัญ เช่น ความแม่นยำ เวลาตอบสนอง การใช้โทเค็น และต้นทุน ควรระบุว่า การประเมินครั้งนี้มุ่งเน้นไปที่สถานการณ์ในบริบทภาษาจีนเป็นหลัก ข้อได้เปรียบหลักที่ผู้พัฒนาระบุไว้ เช่น งานเอเจนต์ที่ซับซ้อน งานเขียนโปรแกรมระยะยาว การประมวลผลข้ามบริบทล้านโทเค็น ยังไม่ได้รับการแสดงให้เห็นอย่างเต็มที่ภายใต้กรอบการประเมินปัจจุบัน

ประสิทธิภาพของ Claude Opus 4.6:
* จำนวนข้อทดสอบ: ประมาณ 15,000 ข้อ
* คะแนนรวม (ความแม่นยำ): 70.5%
* เวลาเฉลี่ย (ต่อการเรียกใช้): 15 วินาที
* โทเค็นเฉลี่ย (โทเค็นที่ใช้ต่อการเรียกใช้): 794
* ค่าใช้จ่ายเฉลี่ย (ค่าใช้จ่ายต่อพันครั้งการเรียกใช้ในสกุลเงินหยวน): 96.5

1. การเปรียบเทียบเวอร์ชันเก่าและใหม่

ขั้นแรกเปรียบเทียบกับเวอร์ชันก่อนหน้า (Claude Opus 4.5) ข้อมูลมีดังนี้:

Claude Opus 4.6 ทดสอบจริง: ความแม่นยำเพิ่มขึ้น 5.6% ต้นทุนลดลง 34% กลไกการคิดแบบปรับตัวแสดงประสิทธิภาพ Claude Opus 4.6 ทดสอบจริง: ความแม่นยำเพิ่มขึ้น 5.6% ต้นทุนลดลง 34% กลไกการคิดแบบปรับตัวแสดงประสิทธิภาพ

แหล่งข้อมูล: การประเมิน ReLE https://github.com/jeinlee1991/chinese-llm-benchmark
หน่วยราคาผลลัพธ์: หยวน/ล้านโทเค็น

  • ประสิทธิภาพโดยรวมเพิ่มขึ้นอย่างมีนัยสำคัญ: ความแม่นยำของเวอร์ชันใหม่เพิ่มขึ้นจาก 64.9% เป็น 70.5% เพิ่มขึ้น 5.6 เปอร์เซ็นต์ อันดับปรับตัวขึ้นจากอันดับที่ 44 ไปสู่อันดับที่ 11 อย่างมาก
  • ความสามารถของเอเจนต์เพิ่มขึ้นอย่างมาก: การปรับปรุงที่โดดเด่นที่สุดคือความสามารถด้าน “เอเจนต์และการเรียกใช้เครื่องมือ” ซึ่งเพิ่มขึ้นจาก 49.1% เป็น 69.1% เพิ่มขึ้นถึง 20 เปอร์เซ็นต์ สอดคล้องกับตำแหน่งที่ผู้พัฒนาระบุว่า “งานเอเจนต์มีระยะเวลาที่ยาวนานขึ้นและการวางแผนที่รอบคอบมากขึ้น”
  • ความสามารถในการให้เหตุผลได้รับการปรับปรุงอย่างมั่นคง: “ความสามารถในการให้เหตุผลและการคำนวณทางคณิตศาสตร์” เพิ่มขึ้นจาก 67.9% เป็น 71.8% (+3.9%) และด้าน “การศึกษา” ก็มีความก้าวหน้าจาก 60.6% เป็น 63.0% (+2.4%)
  • บางด้านลดลงเล็กน้อย: สิ่งที่ควรสังเกตคือ เวอร์ชันใหม่ลดลงเล็กน้อยในด้าน “การแพทย์และสุขภาพจิต” (82.8%→81.5%, -1.3%) และ “การเงิน” (81.8%→79.0%, -2.8%) ซึ่งบ่งชี้ว่ามีการแลกเปลี่ยนบางประการในกระบวนการเพิ่มความสามารถโดยรวม
  • ประสิทธิภาพการใช้โทเค็นเพิ่มขึ้นอย่างมาก: โทเค็นเฉลี่ยที่ใช้ต่อการเรียกใช้ลดลงจาก 1063 เหลือ 794 ลดลงประมาณ 25% ซึ่งเป็นผลมาจากกลไก “การคิดแบบปรับตัว” ที่เวอร์ชันใหม่นำมาใช้ โดยโมเดลสามารถปรับความลึกของการให้เหตุผลได้ตามความซับซ้อนของงาน เพื่อหลีกเลี่ยงการคิดมากเกินไปในปัญหาง่ายๆ
  • ต้นทุนลดลงอย่างเห็นได้ชัด: ค่าใช้จ่ายต่อพันครั้งการเรียกใช้ลดลงจาก 146.1 หยวนเหลือ 96.5 หยวน ลดลง 34% ซึ่งเป็นผลหลักมาจากการใช้โทเค็นที่ลดลงและราคาผลลัพธ์ที่ลดลงเล็กน้อย (178.0 หยวน/M→175.0 หยวน/M)

2. การเปรียบเทียบกับโมเดลอื่นๆ

ในสภาพการแข่งขันของโมเดลใหญ่หลักในปัจจุบัน Claude Opus 4.6 มีประสิทธิภาพอย่างไร? เราวิเคราะห์เปรียบเทียบในสามมิติ (การประเมินนี้เน้นที่สถานการณ์ภาษาจีน ประสิทธิภาพของโมเดลในภาษาอื่นและสาขาวิชาชีพเฉพาะอาจแตกต่างกัน):

Claude Opus 4.6 ทดสอบจริง: ความแม่นยำเพิ่มขึ้น 5.6% ต้นทุนลดลง 34% กลไกการคิดแบบปรับตัวแสดงประสิทธิภาพ

แหล่งข้อมูล: การประเมิน ReLE https://github.com/jeinlee1991/chinese-llm-benchmark

2.1 การเปรียบเทียบในระดับต้นทุนใกล้เคียงกัน

  • ต้นทุนอยู่ในช่วงที่ค่อนข้างสูง: ต้นทุน 96.5 หยวน/พันครั้ง ทำให้ Claude Opus 4.6 อยู่ในช่วงระดับต้นทุนสูง ในระดับต้นทุนใกล้เคียงกัน gpt-5.1-medium (87.9 หยวน) มีความแม่นยำ 69.3% ซึ่งใกล้เคียง แต่ Claude Opus 4.6 มีข้อได้เปรียบในด้านความแม่นยำ 70.5% และความเร็วในการตอบสนองที่เร็วกว่า (15 วินาที เทียบกับ 160 วินาที)
  • มีประสิทธิภาพโดดเด่นในกลุ่มโมเดลต้นทุนสูง: เมื่อเทียบกับ gemini-3-pro-preview (72.5%, 247.3 หยวน) ที่มีความแม่นยำใกล้เคียง Claude Opus 4.6 มีต้นทุนต่ำกว่าและตอบสนองเร็วกว่า (15 วินาที เทียบกับ 64 วินาที) แต่เมื่อเทียบกับ doubao-seed-1-8-251215 (71.7%, 7.3 หยวน) ต้นทุนของ Claude Opus 4.6 สูงกว่า 13 เท่า ซึ่งมีความสามารถในการแข่งขันจำกัดในสถานการณ์ที่ต้องการอัตราส่วนประสิทธิภาพต้นทุนสูงสุด และจำเป็นต้องพิจารณาอย่างรอบคอบในสถานการณ์ที่มีทรัพยากรจำกัด

2.2 การเปรียบเทียบโมเดลรุ่นเก่าและใหม่

  • ประสิทธิผลของการอัปเกรดรุ่นใหม่มีนัยสำคัญ: เมื่อเทียบกับ Claude Opus 4.5 (64.9%) เวอร์ชันใหม่เพิ่มขึ้น 5.6 เปอร์เซ็นต์ ซึ่งถือเป็นความก้าวหน้าของรุ่นที่ชัดเจน
  • ประสิทธิภาพการอัปเกรดรุ่นของแต่ละผู้ผลิตแตกต่างกัน: ค่าย Google ก็แสดงให้เห็นถึงการปรับปรุงรุ่นเช่นกัน โดย gemini-3-pro-preview (72.5%) เมื่อเทียบกับ gemini-2.5-pro (68.9%) เพิ่มขึ้น 3.6 เปอร์เซ็นต์ ในขณะที่ gpt-5.2-high (67.4%) ของ OpenAI เมื่อเทียบกับ gpt-5.1-high (69.7%) ลดลง 2.3 เปอร์เซ็นต์ ซึ่งแสดงให้เห็นว่าการอัปเกรดรุ่นใหม่ไม่ได้นำมาซึ่งการพัฒนาอย่างรอบด้านเสมอไป
  • ผลิตภัณฑ์ของ Anthropic มีความแตกต่าง: Claude Opus 4.6 (70.5%) ถูกกำหนดตำแหน่งเป็นเรือธง ในขณะที่ claude-sonnet-4.5-thinking (68.8%) มีความแม่นยำต่ำกว่าเล็กน้อยในการประเมินสถานการณ์ภาษาจีนครั้งนี้

2.3 การเปรียบเทียบโอเพ่นซอร์สกับโคลสซอร์ส

  • การแข่งขันในกลุ่มโคลสซอร์สเข้มข้น: ในกลุ่มโมเดลเชิงพาณิชย์โคลสซอร์ส qwen3-max-think-2026-01-23 (72.8%), hunyuan-2.0-thinking-20251109 (71.9%), doubao-seed-1-8-251215 (71.7%) มีความแม่นยำสูงกว่า Claude Opus 4.6 (70.5%) ซึ่งแสดงให้เห็นถึงความสามารถในการแข่งขันที่แข็งแกร่งของผู้ผลิตในประเทศจีนในบริบทภาษาจีน
  • โมเดลโอเพ่นซอร์สมีประสิทธิภาพโดดเด่น: ในกลุ่มโอเพ่นซอร์ส โมเดลต่างๆ เช่น GLM-4.7 (71.5%), Kimi-K2.5-Thinking (71.3%), DeepSeek-V3.2-Think (70.9%) มีความแม่นยำเทียบเท่าหรือสูงกว่า Claude Opus 4.6 และมีต้นทุนที่ต่ำกว่า (เช่น DeepSeek-V3.2-Think ราคาเพียง 7.5 หยวน/พันครั้ง)
  • ข้อได้เปรียบด้านประสิทธิภาพของ Claude Opus 4.6: เมื่อเทียบกับโมเดลคิดวิเคราะห์ในระดับความแม่นยำใกล้เคียงกัน ข้อได้เปรียบหลักของ Claude Opus 4.6 อยู่ที่ความเร็วในการตอบสนอง (15 วินาที) และประสิทธิภาพการใช้โทเค็น (794) ซึ่งดีกว่า DeepSeek-V3.2-Think (144 วินาที, 2572 โทเค็น), Kimi-K2.5-Thinking (338 วินาที, 3842 โทเค็น) ฯลฯ อย่างมาก เหมาะสำหรับสภาพแวดล้อมการผลิตที่ไวต่อความล่าช้า

3. การประเมินอย่างเป็นทางการ

ตามข้อมูลที่ Anthropic เผยแพร่อย่างเป็นทางการ Claude Opus 4.6 ได้รับผลลัพธ์นำหน้าในเกณฑ์การประเมินวิชาชีพหลายชุด:

3.1 ความสามารถในการทำงานด้านความรู้

Claude Opus 4.6 ทดสอบจริง: ความแม่นยำเพิ่มขึ้น 5.6% ต้นทุนลดลง 34% กลไกการคิดแบบปรับตัวแสดงประสิทธิภาพ
ในการประเมิน GDPval-AA (ดำเนินการโดยอิสระโดย Artificial Analysis เพื่อประเมินงานด้านความรู้ที่มีมูลค่าสูงในด้านต่างๆ เช่น การเงิน กฎหมาย) Opus 4.6 แซงหน้า GPT-5.2 ของ OpenAI ซึ่งเป็นอันดับสองในอุตสาหกรรม ประมาณ 144 คะแนน Elo และแซงหน้า Claude Opus 4.5 รุ่นก่อนหน้าถึง 190 คะแนน Elo ผู้พัฒนาระบุว่านี่หมายความว่า Claude Opus 4.6 มีโอกาสประมาณ 70% ที่จะเอาชนะ GPT-5.2 ในการประเมินนี้

3.2 ความสามารถในการเขียนโปรแกรมเอเจนต์

Claude Opus 4.6 ทดสอบจริง: ความแม่นยำเพิ่มขึ้น 5.6% ต้นทุนลดลง 34% กลไกการคิดแบบปรับตัวแสดงประสิทธิภาพ
ในการประเมินการเขียนโปรแกรมเอเจนต์ Terminal-Bench 2.0 Opus 4.6 ได้คะแนนสูงสุดในอุตสาหกรรม แสดงให้เห็นถึงประสิทธิภาพที่ยอดเยี่ยมในการเขียนโปรแกรมเอเจนต์และงานระบบในโลกแห่งความเป็นจริง ผู้พัฒนาระบุว่า เวอร์ชันใหม่ “มีการวางแผนที่รอบคอบมากขึ้น สามารถดำเนินงานเอเจนต์ได้อย่างต่อเนื่องเป็นเวลานานขึ้น ทำงานในฐานรหัสขนาดใหญ่ได้อย่างน่าเชื่อถือมากขึ้น และมีความสามารถในการตรวจสอบและดีบั๊กรหัสที่ดีขึ้นเพื่อค้นหาข้อผิดพลาดของตัวเอง”

3.3 ความสามารถในการให้เหตุผลเชิงลึก

Claude Opus 4.6 ทดสอบจริง: ความแม่นยำเพิ่มขึ้น 5.6% ต้นทุนลดลง 34% กลไกการคิดแบบปรับตัวแสดงประสิทธิภาพ Claude Opus 4.6 ทดสอบจริง: ความแม่นยำเพิ่มขึ้น 5.6% ต้นทุนลดลง 34% กลไกการคิดแบบปรับตัวแสดงประสิทธิภาพ
ในการทดสอบ Humanity’s Last Exam (การทดสอบการให้เหตุผลข้ามสาขาวิชาที่ซับซ้อน) Opus 4.6 นำหน้าโมเดลแนวหน้าอื่นๆ ทั้งหมด และยังแสดงผลลัพธ์ที่ดีที่สุดใน BrowseComp (ประเมินความสามารถของโมเดลในการค้นหาข้อมูลที่หาได้ยากบนเว็บ)

3.4 การประมวลผลบริบทยาว

Claude Opus 4.6 ทดสอบจริง: ความแม่นยำเพิ่มขึ้น 5.6% ต้นทุนลดลง 34% กลไกการคิดแบบปรับตัวแสดงประสิทธิภาพ Claude Opus 4.6 ทดสอบจริง: ความแม่นยำเพิ่มขึ้น 5.6% ต้นทุนลดลง 34% กลไกการคิดแบบปรับตัวแสดงประสิทธิภาพ
ผู้พัฒนาเน้นย้ำถึงความก้าวหน้าของ Opus 4.6 ในงานบริบทยาวเป็นพิเศษ: ในการทดสอบ MRCR v2 1 ล้านโทเค็น 8 เข็มแบบแปรผัน Opus 4.6 ได้คะแนน 76% ในขณะที่ Sonnet 4.5 ได้เพียง 18.5% นี่แสดงถึง “การก้าวกระโดดเชิงคุณภาพในด้านที่โมเดลสามารถใช้ประโยชน์จากบริบทได้จริงในขณะที่รักษาประสิทธิภาพสูงสุด”

3.5 ความสามารถด้านวิศวกรรมซอฟต์แวร์และสาขาวิชาชีพ

ผู้พัฒนายังแสดงให้เห็นถึงประสิทธิภาพของ Claude Opus 4.6 ในเกณฑ์มาตรฐานวิชาชีพหลายชุด ครอบคลุมมิติต่างๆ เช่น ทักษะวิศวกรรมซอฟต์แวร์ ความสามารถในการเขียนโปรแกรมหลายภาษา ความสอดคล้องในระยะยาว ความสามารถด้านความปลอดภัยทางไซเบอร์ และความรู้ด้านวิทยาศาสตร์ชีวิต:

Claude Opus 4.6 ทดสอบจริง: ความแม่นยำเพิ่มขึ้น 5.6% ต้นทุนลดลง 34% กลไกการคิดแบบปรับตัวแสดงประสิทธิภาพ Claude Opus 4.6 ทดสอบจริง: ความแม่นยำเพิ่มขึ้น 5.6% ต้นทุนลดลง 34% กลไกการคิดแบบปรับตัวแสดงประสิทธิภาพ Claude Opus 4.6 ทดสอบจริง: ความแม่นยำเพิ่มขึ้น 5.6% ต้นทุนลดลง 34% กลไกการคิดแบบปรับตัวแสดงประสิทธิภาพ Claude Opus 4.6 ทดสอบจริง: ความแม่นยำเพิ่มขึ้น 5.6% ต้นทุนลดลง 34% กลไกการคิดแบบปรับตัวแสดงประสิทธิภาพ Claude Opus 4.6 ทดสอบจริง: ความแม่นยำเพิ่มขึ้น 5.6% ต้นทุนลดลง 34% กลไกการคิดแบบปรับตัวแสดงประสิทธิภาพ

ผู้พัฒนาระบุว่า Claude Opus 4.6 แสดงให้เห็นถึงการเพิ่มความสามารถอย่างมีนัยสำคัญในหลายสาขาวิชาชีพ:
* การวิเคราะห์สาเหตุราก: เชี่ยวชาญในการวินิจฉัยความผิดพลาดของซอฟต์แวร์ที่ซับซ้อน
* การเขียนโปรแกรมหลายภาษา: สามารถแก้ไขปัญหาวิศวกรรมซอฟต์แวร์ข้ามภาษาโปรแกรมได้
* ความสอดคล้องในระยะยาว: ในการทดสอบ Vending-Bench 2 ทำเงินได้มากกว่า Opus 4.5 ถึง 3,050.53 ดอลลาร์สหรัฐฯ แสดงให้เห็นถึงความสามารถในการรักษาความตั้งใจและความคิดที่สอดคล้องกันเป็นเวลานาน
* ความปลอดภัยทางไซเบอร์: ความสามารถในการค้นหาช่องโหว่จริงในฐานรหัสดีกว่าโมเดลอื่นๆ ทั้งหมด
* วิทยาศาสตร์ชีวิต: ประสิทธิภาพในการทดสอบชีววิทยาเชิงคำนวณ ชีววิทยาโครงสร้าง เคมีอินทรีย์ และวิวัฒนาการชาติพันธุ์เกือบ 2 เท่าของ Opus 4.5

3.6 การประเมินความปลอดภัย

Claude Opus 4.6 ทดสอบจริง: ความแม่นยำเพิ่มขึ้น 5.6% ต้นทุนลดลง 34% กลไกการคิดแบบปรับตัวแสดงประสิทธิภาพ

ตามบัตรระบบอย่างเป็นทางการ Opus 4.6 มีประสิทธิภาพด้านความปลอดภัยดังนี้:
* การจัดแนวโดยรวม: เทียบเท่าหรือดีกว่า Claude Opus 4.5 ซึ่งเป็นโมเดลแนวหน้าที่มีการจัดแนวดีที่สุดก่อนหน้านี้
* อัตราพฤติกรรมผิดพลาด: มีอัตราพฤติกรรมผิดพลาดต่ำในด้านการหลอกลวง การประจบสอพลอ การส่งเสริมความเพ้อฝันของผู้ใช้ การร่วมมือในการละเมิด ฯลฯ
* อัตร


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/22979

Like (0)
Previous 2026年2月10日 pm12:22
Next 2026年2月10日 pm12:42

相关推荐