Claude Opus 4.6 ทดสอบจริง: ความแม่นยำเพิ่มขึ้น 5.6% ต้นทุนลดลง 34% กลไกการคิดแบบปรับตัวแสดงประสิทธิภาพ

2026年2月10日 pm12:27 • ข่าวสารอุตสาหกรรม AI • 260 views

Anthropic ได้เปิดตัว Claude Opus 4.6 เวอร์ชันใหม่ ซึ่งถูกกำหนดตำแหน่งอย่างเป็นทางการว่าเป็น “โมเดลที่ฉลาดที่สุด” โดยเน้นที่งานเอเจนต์ที่ซับซ้อนและการทำงานระยะยาว เมื่อเทียบกับ Claude Opus 4.5 เวอร์ชันก่อนหน้า เวอร์ชันใหม่นี้ได้รับการอัปเกรดหลายประการในด้านสถาปัตยกรรม รวมถึงการรองรับหน้าต่างบริบท 1 ล้านโทเค็นเป็นครั้งแรกในระดับ Opus และการนำกลไกการคิดแบบปรับตัว (adaptive thinking) มาใช้

เราได้ทำการประเมินเปรียบเทียบทั้งสองเวอร์ชันอย่างครอบคลุม เพื่อทดสอบความแตกต่างในด้านประสิทธิภาพตามตัวชี้วัดสำคัญ เช่น ความแม่นยำ เวลาตอบสนอง การใช้โทเค็น และต้นทุน ควรระบุว่า การประเมินครั้งนี้มุ่งเน้นไปที่สถานการณ์ในบริบทภาษาจีนเป็นหลัก ข้อได้เปรียบหลักที่ผู้พัฒนาระบุไว้ เช่น งานเอเจนต์ที่ซับซ้อน งานเขียนโปรแกรมระยะยาว การประมวลผลข้ามบริบทล้านโทเค็น ยังไม่ได้รับการแสดงให้เห็นอย่างเต็มที่ภายใต้กรอบการประเมินปัจจุบัน

ประสิทธิภาพของ Claude Opus 4.6:
* จำนวนข้อทดสอบ: ประมาณ 15,000 ข้อ
* คะแนนรวม (ความแม่นยำ): 70.5%
* เวลาเฉลี่ย (ต่อการเรียกใช้): 15 วินาที
* โทเค็นเฉลี่ย (โทเค็นที่ใช้ต่อการเรียกใช้): 794
* ค่าใช้จ่ายเฉลี่ย (ค่าใช้จ่ายต่อพันครั้งการเรียกใช้ในสกุลเงินหยวน): 96.5

1. การเปรียบเทียบเวอร์ชันเก่าและใหม่

ขั้นแรกเปรียบเทียบกับเวอร์ชันก่อนหน้า (Claude Opus 4.5) ข้อมูลมีดังนี้:

Claude Opus 4.6 ทดสอบจริง: ความแม่นยำเพิ่มขึ้น 5.6% ต้นทุนลดลง 34% กลไกการคิดแบบปรับตัวแสดงประสิทธิภาพ

แหล่งข้อมูล: การประเมิน ReLE https://github.com/jeinlee1991/chinese-llm-benchmark
หน่วยราคาผลลัพธ์: หยวน/ล้านโทเค็น

ประสิทธิภาพโดยรวมเพิ่มขึ้นอย่างมีนัยสำคัญ: ความแม่นยำของเวอร์ชันใหม่เพิ่มขึ้นจาก 64.9% เป็น 70.5% เพิ่มขึ้น 5.6 เปอร์เซ็นต์ อันดับปรับตัวขึ้นจากอันดับที่ 44 ไปสู่อันดับที่ 11 อย่างมาก
ความสามารถของเอเจนต์เพิ่มขึ้นอย่างมาก: การปรับปรุงที่โดดเด่นที่สุดคือความสามารถด้าน “เอเจนต์และการเรียกใช้เครื่องมือ” ซึ่งเพิ่มขึ้นจาก 49.1% เป็น 69.1% เพิ่มขึ้นถึง 20 เปอร์เซ็นต์ สอดคล้องกับตำแหน่งที่ผู้พัฒนาระบุว่า “งานเอเจนต์มีระยะเวลาที่ยาวนานขึ้นและการวางแผนที่รอบคอบมากขึ้น”
ความสามารถในการให้เหตุผลได้รับการปรับปรุงอย่างมั่นคง: “ความสามารถในการให้เหตุผลและการคำนวณทางคณิตศาสตร์” เพิ่มขึ้นจาก 67.9% เป็น 71.8% (+3.9%) และด้าน “การศึกษา” ก็มีความก้าวหน้าจาก 60.6% เป็น 63.0% (+2.4%)
บางด้านลดลงเล็กน้อย: สิ่งที่ควรสังเกตคือ เวอร์ชันใหม่ลดลงเล็กน้อยในด้าน “การแพทย์และสุขภาพจิต” (82.8%→81.5%, -1.3%) และ “การเงิน” (81.8%→79.0%, -2.8%) ซึ่งบ่งชี้ว่ามีการแลกเปลี่ยนบางประการในกระบวนการเพิ่มความสามารถโดยรวม
ประสิทธิภาพการใช้โทเค็นเพิ่มขึ้นอย่างมาก: โทเค็นเฉลี่ยที่ใช้ต่อการเรียกใช้ลดลงจาก 1063 เหลือ 794 ลดลงประมาณ 25% ซึ่งเป็นผลมาจากกลไก “การคิดแบบปรับตัว” ที่เวอร์ชันใหม่นำมาใช้ โดยโมเดลสามารถปรับความลึกของการให้เหตุผลได้ตามความซับซ้อนของงาน เพื่อหลีกเลี่ยงการคิดมากเกินไปในปัญหาง่ายๆ
ต้นทุนลดลงอย่างเห็นได้ชัด: ค่าใช้จ่ายต่อพันครั้งการเรียกใช้ลดลงจาก 146.1 หยวนเหลือ 96.5 หยวน ลดลง 34% ซึ่งเป็นผลหลักมาจากการใช้โทเค็นที่ลดลงและราคาผลลัพธ์ที่ลดลงเล็กน้อย (178.0 หยวน/M→175.0 หยวน/M)

2. การเปรียบเทียบกับโมเดลอื่นๆ

ในสภาพการแข่งขันของโมเดลใหญ่หลักในปัจจุบัน Claude Opus 4.6 มีประสิทธิภาพอย่างไร? เราวิเคราะห์เปรียบเทียบในสามมิติ (การประเมินนี้เน้นที่สถานการณ์ภาษาจีน ประสิทธิภาพของโมเดลในภาษาอื่นและสาขาวิชาชีพเฉพาะอาจแตกต่างกัน):

แหล่งข้อมูล: การประเมิน ReLE https://github.com/jeinlee1991/chinese-llm-benchmark

2.1 การเปรียบเทียบในระดับต้นทุนใกล้เคียงกัน

ต้นทุนอยู่ในช่วงที่ค่อนข้างสูง: ต้นทุน 96.5 หยวน/พันครั้ง ทำให้ Claude Opus 4.6 อยู่ในช่วงระดับต้นทุนสูง ในระดับต้นทุนใกล้เคียงกัน gpt-5.1-medium (87.9 หยวน) มีความแม่นยำ 69.3% ซึ่งใกล้เคียง แต่ Claude Opus 4.6 มีข้อได้เปรียบในด้านความแม่นยำ 70.5% และความเร็วในการตอบสนองที่เร็วกว่า (15 วินาที เทียบกับ 160 วินาที)
มีประสิทธิภาพโดดเด่นในกลุ่มโมเดลต้นทุนสูง: เมื่อเทียบกับ gemini-3-pro-preview (72.5%, 247.3 หยวน) ที่มีความแม่นยำใกล้เคียง Claude Opus 4.6 มีต้นทุนต่ำกว่าและตอบสนองเร็วกว่า (15 วินาที เทียบกับ 64 วินาที) แต่เมื่อเทียบกับ doubao-seed-1-8-251215 (71.7%, 7.3 หยวน) ต้นทุนของ Claude Opus 4.6 สูงกว่า 13 เท่า ซึ่งมีความสามารถในการแข่งขันจำกัดในสถานการณ์ที่ต้องการอัตราส่วนประสิทธิภาพต้นทุนสูงสุด และจำเป็นต้องพิจารณาอย่างรอบคอบในสถานการณ์ที่มีทรัพยากรจำกัด

2.2 การเปรียบเทียบโมเดลรุ่นเก่าและใหม่

ประสิทธิผลของการอัปเกรดรุ่นใหม่มีนัยสำคัญ: เมื่อเทียบกับ Claude Opus 4.5 (64.9%) เวอร์ชันใหม่เพิ่มขึ้น 5.6 เปอร์เซ็นต์ ซึ่งถือเป็นความก้าวหน้าของรุ่นที่ชัดเจน
ประสิทธิภาพการอัปเกรดรุ่นของแต่ละผู้ผลิตแตกต่างกัน: ค่าย Google ก็แสดงให้เห็นถึงการปรับปรุงรุ่นเช่นกัน โดย gemini-3-pro-preview (72.5%) เมื่อเทียบกับ gemini-2.5-pro (68.9%) เพิ่มขึ้น 3.6 เปอร์เซ็นต์ ในขณะที่ gpt-5.2-high (67.4%) ของ OpenAI เมื่อเทียบกับ gpt-5.1-high (69.7%) ลดลง 2.3 เปอร์เซ็นต์ ซึ่งแสดงให้เห็นว่าการอัปเกรดรุ่นใหม่ไม่ได้นำมาซึ่งการพัฒนาอย่างรอบด้านเสมอไป
ผลิตภัณฑ์ของ Anthropic มีความแตกต่าง: Claude Opus 4.6 (70.5%) ถูกกำหนดตำแหน่งเป็นเรือธง ในขณะที่ claude-sonnet-4.5-thinking (68.8%) มีความแม่นยำต่ำกว่าเล็กน้อยในการประเมินสถานการณ์ภาษาจีนครั้งนี้

2.3 การเปรียบเทียบโอเพ่นซอร์สกับโคลสซอร์ส

การแข่งขันในกลุ่มโคลสซอร์สเข้มข้น: ในกลุ่มโมเดลเชิงพาณิชย์โคลสซอร์ส qwen3-max-think-2026-01-23 (72.8%), hunyuan-2.0-thinking-20251109 (71.9%), doubao-seed-1-8-251215 (71.7%) มีความแม่นยำสูงกว่า Claude Opus 4.6 (70.5%) ซึ่งแสดงให้เห็นถึงความสามารถในการแข่งขันที่แข็งแกร่งของผู้ผลิตในประเทศจีนในบริบทภาษาจีน
โมเดลโอเพ่นซอร์สมีประสิทธิภาพโดดเด่น: ในกลุ่มโอเพ่นซอร์ส โมเดลต่างๆ เช่น GLM-4.7 (71.5%), Kimi-K2.5-Thinking (71.3%), DeepSeek-V3.2-Think (70.9%) มีความแม่นยำเทียบเท่าหรือสูงกว่า Claude Opus 4.6 และมีต้นทุนที่ต่ำกว่า (เช่น DeepSeek-V3.2-Think ราคาเพียง 7.5 หยวน/พันครั้ง)
ข้อได้เปรียบด้านประสิทธิภาพของ Claude Opus 4.6: เมื่อเทียบกับโมเดลคิดวิเคราะห์ในระดับความแม่นยำใกล้เคียงกัน ข้อได้เปรียบหลักของ Claude Opus 4.6 อยู่ที่ความเร็วในการตอบสนอง (15 วินาที) และประสิทธิภาพการใช้โทเค็น (794) ซึ่งดีกว่า DeepSeek-V3.2-Think (144 วินาที, 2572 โทเค็น), Kimi-K2.5-Thinking (338 วินาที, 3842 โทเค็น) ฯลฯ อย่างมาก เหมาะสำหรับสภาพแวดล้อมการผลิตที่ไวต่อความล่าช้า

3. การประเมินอย่างเป็นทางการ

ตามข้อมูลที่ Anthropic เผยแพร่อย่างเป็นทางการ Claude Opus 4.6 ได้รับผลลัพธ์นำหน้าในเกณฑ์การประเมินวิชาชีพหลายชุด:

3.1 ความสามารถในการทำงานด้านความรู้

Claude Opus 4.6 ทดสอบจริง: ความแม่นยำเพิ่มขึ้น 5.6% ต้นทุนลดลง 34% กลไกการคิดแบบปรับตัวแสดงประสิทธิภาพ
ในการประเมิน GDPval-AA (ดำเนินการโดยอิสระโดย Artificial Analysis เพื่อประเมินงานด้านความรู้ที่มีมูลค่าสูงในด้านต่างๆ เช่น การเงิน กฎหมาย) Opus 4.6 แซงหน้า GPT-5.2 ของ OpenAI ซึ่งเป็นอันดับสองในอุตสาหกรรม ประมาณ 144 คะแนน Elo และแซงหน้า Claude Opus 4.5 รุ่นก่อนหน้าถึง 190 คะแนน Elo ผู้พัฒนาระบุว่านี่หมายความว่า Claude Opus 4.6 มีโอกาสประมาณ 70% ที่จะเอาชนะ GPT-5.2 ในการประเมินนี้

3.2 ความสามารถในการเขียนโปรแกรมเอเจนต์

Claude Opus 4.6 ทดสอบจริง: ความแม่นยำเพิ่มขึ้น 5.6% ต้นทุนลดลง 34% กลไกการคิดแบบปรับตัวแสดงประสิทธิภาพ
ในการประเมินการเขียนโปรแกรมเอเจนต์ Terminal-Bench 2.0 Opus 4.6 ได้คะแนนสูงสุดในอุตสาหกรรม แสดงให้เห็นถึงประสิทธิภาพที่ยอดเยี่ยมในการเขียนโปรแกรมเอเจนต์และงานระบบในโลกแห่งความเป็นจริง ผู้พัฒนาระบุว่า เวอร์ชันใหม่ “มีการวางแผนที่รอบคอบมากขึ้น สามารถดำเนินงานเอเจนต์ได้อย่างต่อเนื่องเป็นเวลานานขึ้น ทำงานในฐานรหัสขนาดใหญ่ได้อย่างน่าเชื่อถือมากขึ้น และมีความสามารถในการตรวจสอบและดีบั๊กรหัสที่ดีขึ้นเพื่อค้นหาข้อผิดพลาดของตัวเอง”

3.3 ความสามารถในการให้เหตุผลเชิงลึก

Claude Opus 4.6 ทดสอบจริง: ความแม่นยำเพิ่มขึ้น 5.6% ต้นทุนลดลง 34% กลไกการคิดแบบปรับตัวแสดงประสิทธิภาพ
ในการทดสอบ Humanity’s Last Exam (การทดสอบการให้เหตุผลข้ามสาขาวิชาที่ซับซ้อน) Opus 4.6 นำหน้าโมเดลแนวหน้าอื่นๆ ทั้งหมด และยังแสดงผลลัพธ์ที่ดีที่สุดใน BrowseComp (ประเมินความสามารถของโมเดลในการค้นหาข้อมูลที่หาได้ยากบนเว็บ)

3.4 การประมวลผลบริบทยาว

Claude Opus 4.6 ทดสอบจริง: ความแม่นยำเพิ่มขึ้น 5.6% ต้นทุนลดลง 34% กลไกการคิดแบบปรับตัวแสดงประสิทธิภาพ
ผู้พัฒนาเน้นย้ำถึงความก้าวหน้าของ Opus 4.6 ในงานบริบทยาวเป็นพิเศษ: ในการทดสอบ MRCR v2 1 ล้านโทเค็น 8 เข็มแบบแปรผัน Opus 4.6 ได้คะแนน 76% ในขณะที่ Sonnet 4.5 ได้เพียง 18.5% นี่แสดงถึง “การก้าวกระโดดเชิงคุณภาพในด้านที่โมเดลสามารถใช้ประโยชน์จากบริบทได้จริงในขณะที่รักษาประสิทธิภาพสูงสุด”

3.5 ความสามารถด้านวิศวกรรมซอฟต์แวร์และสาขาวิชาชีพ

ผู้พัฒนายังแสดงให้เห็นถึงประสิทธิภาพของ Claude Opus 4.6 ในเกณฑ์มาตรฐานวิชาชีพหลายชุด ครอบคลุมมิติต่างๆ เช่น ทักษะวิศวกรรมซอฟต์แวร์ ความสามารถในการเขียนโปรแกรมหลายภาษา ความสอดคล้องในระยะยาว ความสามารถด้านความปลอดภัยทางไซเบอร์ และความรู้ด้านวิทยาศาสตร์ชีวิต:

ผู้พัฒนาระบุว่า Claude Opus 4.6 แสดงให้เห็นถึงการเพิ่มความสามารถอย่างมีนัยสำคัญในหลายสาขาวิชาชีพ:
* การวิเคราะห์สาเหตุราก: เชี่ยวชาญในการวินิจฉัยความผิดพลาดของซอฟต์แวร์ที่ซับซ้อน
* การเขียนโปรแกรมหลายภาษา: สามารถแก้ไขปัญหาวิศวกรรมซอฟต์แวร์ข้ามภาษาโปรแกรมได้
* ความสอดคล้องในระยะยาว: ในการทดสอบ Vending-Bench 2 ทำเงินได้มากกว่า Opus 4.5 ถึง 3,050.53 ดอลลาร์สหรัฐฯ แสดงให้เห็นถึงความสามารถในการรักษาความตั้งใจและความคิดที่สอดคล้องกันเป็นเวลานาน
* ความปลอดภัยทางไซเบอร์: ความสามารถในการค้นหาช่องโหว่จริงในฐานรหัสดีกว่าโมเดลอื่นๆ ทั้งหมด
* วิทยาศาสตร์ชีวิต: ประสิทธิภาพในการทดสอบชีววิทยาเชิงคำนวณ ชีววิทยาโครงสร้าง เคมีอินทรีย์ และวิวัฒนาการชาติพันธุ์เกือบ 2 เท่าของ Opus 4.5

3.6 การประเมินความปลอดภัย

ตามบัตรระบบอย่างเป็นทางการ Opus 4.6 มีประสิทธิภาพด้านความปลอดภัยดังนี้:
* การจัดแนวโดยรวม: เทียบเท่าหรือดีกว่า Claude Opus 4.5 ซึ่งเป็นโมเดลแนวหน้าที่มีการจัดแนวดีที่สุดก่อนหน้านี้
* อัตราพฤติกรรมผิดพลาด: มีอัตราพฤติกรรมผิดพลาดต่ำในด้านการหลอกลวง การประจบสอพลอ การส่งเสริมความเพ้อฝันของผู้ใช้ การร่วมมือในการละเมิด ฯลฯ
* อัตร

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/22979

การคิดแบบปรับตัวได้การประเมินโมเดลขนาดใหญ่การวิเคราะห์ต้นทุน คลอดด์ โอปุส ประสิทธิภาพของโทเคน

Like (0)

0 0

Generate poster

บิดาแห่ง UML โต้กลับทฤษฎี AI จะแทนที่มนุษย์: วิศวกรรมซอฟต์แวร์เข้าสู่ยุคทองครั้งที่สาม AI เป็นเพียงการสร้างระดับนามธรรมที่สูงขึ้น
Previous 2026年2月10日 pm12:22

Zhipu Qingyan “เพื่อนร่วมเรียน”: ใช้ AI แปลงเคล็ดลับ OpenClaw 1,700 รายการเป็นหลักสูตรแบบโต้ตอบสไตล์ Duolingo
Next 2026年2月10日 pm12:42

相关推荐

 ข่าวสารอุตสาหกรรม AI

Ant Group Lingbo เปิดตัวโมเดล AI แบบ Embodied 4 รุ่น: เริ่มจากปฏิสัมพันธ์ทางกายภาพ สำรวจเส้นทางใหม่ของโมเดลโลก

การปฏิวัติโมเดลขนาดใหญ่กำลังจะสิ้นสุดลง ยุคของ AI ทางกายภาพกำลังจะเริ่มต้นขึ้น? สัปดาห์ที่แล้ว Yann LeCun ผู้ได้รับรางวัลทัวริงและผู้บุกเบิกการเรียนรู้เชิงลึก ได้แสดงมุมมองล่าสุดขอ…

2026年2月5日
165000

ข่าวสารอุตสาหกรรม AI

OpenAI จู่โจมยามดึก! ปล่อย GPT-5.4 mini/nano: ความเร็วเพิ่มสองเท่า ต้นทุนลดฮวบ ด้านโค้ดดิ้งและตรรกะทัดเทียมเวอร์ชันเต็มประสิทธิภาพ

OpenAI ได้เปิดตัว GPT-5.4 mini และ GPT-5.4 nano อย่างไม่มีการเตรียมตัวมาก่อน ทั้งสองโมเดลนี้มีเป้าหมายเพื่อตอบสนองความต้องการหลักในสภาพแวดล้อมการผลิตด้านความสามารถ AI ความเร็ว และต…

2026年3月18日
179000

ข่าวสารอุตสาหกรรม AI

วันจันทร์สีเลือด: GDP ภูต ASI ระเบิดซิลิคอนวัลเลย์กวาดล้างครั้งใหญ่ ช่างไฟฟ้ารายได้ 300,000 ต่อปีทิ้งคอปกขาวห่างไม่เห็นฝุ่น

วันที่ 26 กุมภาพันธ์ 2026 ความเชื่อคลั่งไคล้ในปัญญาประดิษฐ์ของตลาดได้มาถึงจุดเปลี่ยน ดัชนีดาวโจนส์ร่วงลง 800 จุดในวันเดียว ลดลง 1.66% โดยกลุ่มเทคโนโลยีที่เน้นบริการซอฟต์แวร์ในแนสแด…

2026年3月22日
148000

ข่าวสารอุตสาหกรรม AI

ข่าวด่วน! NeurIPS ห้ามสถาบันจีน 873 แห่ง รวมถึง Huawei ส่งบทความ ชุมชนวิชาการ AI ตื่นตระหนก ICML และ ICLR อาจดำเนินการตาม

นโยบายการรับบทความสำหรับการประชุม NeurIPS 2026 มีการเปลี่ยนแปลงครั้งสำคัญ จากเอกสารทางการ ‘MainTrackHandbook’ ที่เผยแพร่ NeurIPS จะไม่รับบทความวิจัยจากสถาบันที่อยู่ในบั…

2026年3月25日
178000

ข่าวสารอุตสาหกรรม AI

GPT-6 กำลังจะเปิดตัว: ประสิทธิภาพเพิ่มขึ้น 40%, มีหลายรูปแบบโดยกำเนิด, หน้าต่างบริบท 2M, OpenAI ทุ่มทรัพยากรทั้งหมดเพื่อเร่งไปสู่ AGI

จากแหล่งข่าวหลายแห่งเปิดเผยว่า การเปิดตัว GPT-6 รุ่นเรือธงรุ่นต่อไปของ OpenAI อาจเข้าสู่ช่วงนับถอยหลังแล้ว ข้อมูลภายในแสดงให้เห็นว่าบริษัทกำลังทุ่มทรัพยากรเกือบทั้งหมดลงในโครงการนี…

2026年4月5日
69000