Claude Opus 4.7 เปิดตัวฉับพลัน: อัปเกรดสมรรถนะครบวงจร, ความสามารถด้านภาพเพิ่มขึ้น 3 เท่า, ประสิทธิภาพวิศวกรรมซอฟต์แวร์ขั้นสูงโดดเด่น

Claude Opus 4.7 เปิดตัวฉับพลัน: อัปเกรดสมรรถนะรอบด้าน, ความสามารถด้านภาพเพิ่มขึ้น 3 เท่า, ประสิทธิภาพด้านวิศวกรรมซอฟต์แวร์ขั้นสูงโดดเด่น (ตอนที่ 1)

หลังจากเปิดตัวโมเดลตัวอย่างรหัส “Mythos” Anthropic ได้ปล่อยโมเดลที่ทรงพลังที่สุดสำหรับใช้งานสาธารณะอย่างรวดเร็ว นั่นคือ Claude Opus 4.7

การอัปเดตครั้งนี้มีการปรับปรุงอย่างเห็นได้ชัดในหลายด้านสำคัญ โดยเฉพาะอย่างยิ่งในงานวิศวกรรมซอฟต์แวร์ขั้นสูงที่โดดเด่น แต่มีผู้ใช้บางส่วนรายงานว่าสไตล์และรูปแบบพฤติกรรมของโมเดลมีการเปลี่ยนแปลง

สี่ทิศทางการอัปเกรดหลัก

จากข้อมูลที่เผยแพร่โดยทางการ Claude Opus 4.7 มีความก้าวหน้าหลักในสี่ทิศทางต่อไปนี้

1. ด้านวิศวกรรมซอฟต์แวร์ขั้นสูง: ความสามารถเพิ่มขึ้นอย่างมีนัยสำคัญ

ความก้าวหน้าที่ชัดเจนที่สุดของ Opus 4.7 อยู่ในด้านวิศวกรรมซอฟต์แวร์ขั้นสูง ข้อมูลการทดสอบมาตรฐานหลายชุดยืนยันถึงความก้าวหน้าทางความสามารถ:

  • SWE-bench Verified อัตราการผ่านการทดสอบอยู่ที่ 78.2%
  • SWE-bench Multimodal อยู่ที่ 72.7%
  • Terminal-Bench 2.0 ได้คะแนน 68.8%
  • Rakuten-SWE-Bench จำนวนงานการผลิตที่แก้ไขได้มากกว่า Opus 4.6 ถึง 3 เท่า
  • เกณฑ์มาตรฐานการเข้ารหัส 93 งานบน GitHub เพิ่มขึ้น 13%

Michael Truell ซีอีโอของ Cursor ให้ความเห็นว่า:

บน CursorBench Opus 4.7 กระโดดจาก 58% ไปเป็น 70% การกระโดดนี้มีความสำคัญมาก

การปรับปรุงนี้สะท้อนให้เห็นในคุณสมบัติสำคัญสามประการ:

  1. ปฏิบัติตามคำสั่งอย่างเคร่งครัด: โมเดลมีแนวโน้มที่จะปฏิบัติตามคำสั่งผู้ใช้ตามตัวอักษร แทนที่จะ “ตีความอย่างยืดหยุ่น” การแสดงออกที่คลุมเครือ ซึ่งต้องการให้ผู้ใช้ปรับกลยุทธ์การเขียนพรอมต์ เพื่อแสดงความต้องการอย่างชัดเจนมากขึ้น
  2. ตรวจสอบตนเองก่อนส่งออก: โมเดลจะออกแบบวิธีการเพื่อตรวจสอบความถูกต้องของผลลัพธ์ด้วยตนเอง ก่อนที่จะรายงานผล
  3. เก่งงานที่ซับซ้อน: มีประสิทธิภาพดีเยี่ยมในการเปลี่ยนแปลงไฟล์หลายไฟล์ที่ซับซ้อน การดีบั๊กปัญหาที่คลุมเครือ และการตรวจสอบโค้ดข้ามบริการ Sarah Sachs หัวหน้าฝ่าย AI ของ Notion แชร์ว่า เมื่อเผชิญกับเวิร์กโฟลว์ที่ซับซ้อน Opus 4.7 มีประสิทธิภาพดีกว่าเวอร์ชันก่อนหน้า 14% และอัตราความผิดพลาดในการเรียกใช้เครื่องมือลดลงเหลือหนึ่งในสาม
2. ความสามารถด้านภาพ: ความละเอียดเพิ่มขึ้น 3 เท่า การจดจำรายละเอียดดีขึ้น

ในด้านความสามารถด้านภาพ Opus 4.7 ก้าวหน้าอย่างสำคัญ:

  • รองรับความละเอียดภาพ: ด้านยาวรองรับสูงสุด 2576 พิกเซล (ประมาณ 3.75 ล้านพิกเซล) ซึ่งมากกว่า Opus 4.6 ถึง 3 เท่าขึ้นไป
  • ความคมชัดภาพ: ในการทดสอบมาตรฐานภาพ XBOW ได้ 98.5% (Opus 4.6 ได้ 54.5%)

นั่นหมายความว่าโมเดลสามารถจดจำไฟล์ออกแบบ Figma เต็มรูปแบบได้โดยตรง อ่านภาพหน้าจอเทอร์มินัล 1080p ที่มีตัวอักษรขนาดเล็ก และวิเคราะห์แผนภาพสถาปัตยกรรมเทคนิคหรือแผนภูมิงบการเงินที่ซับซ้อนได้อย่างแม่นยำ ในสถานการณ์การใช้คอมพิวเตอร์ สามารถอ่านองค์ประกอบ UI ที่หนาแน่นสูงได้อย่างชัดเจน

3. การปฏิบัติตามคำสั่งและการให้เหตุผล: ควบคุมได้มากขึ้น เชื่อถือได้มากขึ้น

Opus 4.7 ใช้กลยุทธ์การปฏิบัติตามคำสั่งตามตัวอักษรอย่างเคร่งครัดมากขึ้น ตัวอย่างเช่น หากผู้ใช้ต้องการ “ห้ามใช้ TypeScript” โมเดลจะหลีกเลี่ยงการใช้อย่างเด็ดขาด หากต้องการ “ส่งออก JSON” ผลลัพธ์จะไม่มีคำนำหน้าเพิ่มเติม การเปลี่ยนแปลงนี้เพิ่มความแม่นยำในการควบคุม แต่ผู้ใช้อาจต้องปรับเปลี่ยนนิสัยการเขียนพรอมต์เดิม

ในด้านความสามารถในการให้เหตุผล โมเดลมีประสิทธิภาพโดดเด่นในสถานการณ์บริบทยาว 1 ล้านโทเค็น โดยคะแนนในงาน BFS เพิ่มขึ้นจาก 41.2% ของ Opus 4.6 เป็น 58.6% ความต่อเนื่องทางตรรกะของการให้เหตุผลที่ซับซ้อนดีขึ้นอย่างเห็นได้ชัด

4. ความสามารถของ Agent เพิ่มขึ้น: ปรับให้เหมาะกับสถานการณ์เอเจนต์

Opus 4.7 ถูกกำหนดให้เป็นเวอร์ชัน “เกิดมาเพื่อ Agent (เอเจนต์)” โดยความสามารถหลักของ Agent ได้รับการปรับปรุงรอบด้าน:

  • เวิร์กโฟลว์หลายขั้นตอน: ในการทดสอบเวิร์กโฟลว์หลายขั้นตอนของ Notion อัตราความสำเร็จเพิ่มขึ้น 14% อัตราความผิดพลาดในการเรียกใช้เครื่องมือลดลงเหลือ 1/3
  • การตัดสินใจระยะยาว: ในการจำลองระยะยาว Vending-Bench 2 ยอดเงินสุดท้ายอยู่ที่ 10937 ดอลลาร์ (Opus 4.6 อยู่ที่ 8018 ดอลลาร์) การตัดสินใจมั่นคงมากขึ้น
  • ความจำระบบไฟล์: มีความสามารถในการจำข้อมูลสำคัญข้ามเซสชัน งานใหม่สามารถลดการป้อนบริบทซ้ำได้ 40%

Scott Wu ซีอีโอของ Cognition อธิบายว่า:

Opus 4.7 ยกระดับความเป็นอิสระระยะยาวใน Devin ไปสู่ระดับใหม่ มันสามารถทำงานอย่างต่อเนื่องได้หลายชั่วโมง บุกทะลวงปัญหายากแทนที่จะยอมแพ้

นอกจากนี้ โมเดลยังมีตัวเลือกควบคุมที่ละเอียดมากขึ้นสำหรับนักพัฒนา รวมถึงระดับการให้เหตุผลใหม่ xhigh โหมดการคิดแบบปรับตัว การจัดการงบประมาณงาน (เบต้าสาธารณะ) และคำสั่งตรวจสอบโค้ดเชิงลึก /ultrareview ที่เพิ่มใหม่ใน Claude Code

กลยุทธ์ความปลอดภัย: การป้องกันเมื่อเปิดตัวและข้อจำกัดความสามารถ

Anthropic ระบุอย่างเป็นทางการว่า ความสามารถที่เกี่ยวข้องกับความปลอดภัยทางไซเบอร์ของ Opus 4.7 ถูกควบคุมให้อยู่ในระดับต่ำกว่า Mythos Preview โดยเจตนา นี่เป็นส่วนหนึ่งของกลยุทธ์ความปลอดภัย AI ของบริษัท โดยมีวัตถุประสงค์เพื่อเป็น “เขตกันชน” ระหว่างโมเดลที่ทรงพลังกับการใช้งานสาธารณะ

มาตรการเฉพาะ ได้แก่:
* ลดความสามารถด้านเครือข่ายของโมเดลอย่างแตกต่างในระหว่างการฝึก ทำให้มีพฤติกรรมที่ระมัดระวังมากขึ้นเมื่อเผชิญกับงานที่เกี่ยวข้อง
* ได้ติดตั้งมาตรการป้องกันที่ตรวจจับและบล็อกคำขอด้านความปลอดภัยทางไซเบอร์ที่มีความเสี่ยงสูงโดยอัตโนมัติ
* สำหรับผู้เชี่ยวชาญด้านความปลอดภัยทางไซเบอร์ที่มีความต้องการที่ถูกกฎหมาย ได้เปิดตัว Cyber Verification Program ซึ่งสามารถสมัครผ่านช่องทางที่เป็นทางการเพื่อใช้โมเดลสำหรับวัตถุประสงค์ต่างๆ เช่น การวิจัยช่องโหว่ การทดสอบเจาะระบบ เป็นต้น

สำหรับนักพัฒนาที่ย้ายจาก Opus 4.6 ไปเป็น 4.7 ควรทราบว่า tokenizer ได้รับการอัปเดตแล้ว ซึ่งอาจส่งผลกระทบเล็กน้อยต่อประสิทธิภาพของพรอมต์และการนับโทเค็น

Opus 4.7 ใช้ tokenizer ใหม่ ซึ่งช่วยเพิ่มประสิทธิภาพการประมวลผลข้อความ แต่ก็ทำให้เนื้อหาอินพุตเดียวกันอาจถูกแมปเป็นโทเค็นจำนวนมากขึ้น โดยมีจำนวนประมาณ 1.0 ถึง 1.35 เท่าของก่อนหน้า

นั่นหมายความว่า การใช้พรอมต์เดียวกันอาจใช้โทเค็นมากขึ้น จำเป็นต้องเผื่อพื้นที่สำหรับเรื่องนี้ในงบประมาณต้นทุน

ประการที่สอง ในระดับ “ความพยายาม” ที่สูงขึ้น โมเดลจะสร้างโทเค็นเอาต์พุตมากขึ้น Opus 4.7 มีความลึกในการคิดที่เพิ่มขึ้นอย่างมีนัยสำคัญในระดับ high และ xhigh โดยเฉพาะอย่างยิ่งในระยะหลังของการสนทนาหลายรอบในสถานการณ์ Agent พฤติกรรมแบบ “คิดมาก เชื่อถือได้มากขึ้น” นี้ช่วยปรับปรุงคุณภาพของเอาต์พุต แต่ก็หมายความว่าการใช้โทเค็นจะเพิ่มขึ้นตามความยาวของเซสชันที่เพิ่มขึ้น

ราคาและข้อควรระวังในการใช้งาน

ราคาของ Opus 4.7 ยังคงเหมือนกับ Opus 4.6: อินพุต 5 ดอลลาร์ต่อล้านโทเค็น เอาต์พุต 25 ดอลลาร์ต่อล้านโทเค็น โมเดลนี้เปิดให้บริการเต็มรูปแบบแล้ว นอกจากช่องทางทางการของ Claude แล้ว ยังพร้อมใช้งานในผลิตภัณฑ์ Claude Pro/Max/Team/Enterprise ทุกตัว, API ทางการ และพร้อมกันบนแพลตฟอร์มคลาวด์หลักสามแห่ง ได้แก่ Microsoft Foundry, Google Cloud Vertex AI และ Amazon Bedrock

แม้จะมีข้อกำหนดในการปรับโครงสร้างพรอมต์และการปรับกลยุทธ์การใช้โทเค็น แต่การทดสอบภายในของ Anthropic ให้สัญญาณเชิงบวก ในการประเมินการเข้ารหัส Agent ภายใน ประสิทธิภาพการใช้โทเค็นในทุกระดับความพยายามดีขึ้นเมื่อเทียบกับ Opus 4.6 กล่าวอีกนัยหนึ่ง แม้ว่าจำนวนโทเค็นในการเรียกใช้แต่ละครั้งอาจเพิ่มขึ้น แต่เนื่องจากโมเดลทำผิดพลาดน้อยลง โทเค็นทั้งหมดที่จำเป็นในการทำงานให้สำเร็จมักจะน้อยกว่า

นี่คล้ายกับการจ้างวิศวกรอาวุโสที่มีค่าจ้างต่อชั่วโมงสูงกว่า ซึ่งทำงานให้เสร็จเร็วขึ้น ต้องแก้ไขงานใหม่น้อยลง และต้นทุนรวมสุดท้ายอาจต่ำกว่า

คำแนะนำในการปรับปรุงต้นทุน

Opus 4.7 จะระมัดระวังมากขึ้นในรอบการสนทนาต่อๆ ไป ซึ่งนำมาซึ่งเอาต์พุตที่เชื่อถือได้มากขึ้น แต่ก็หมายถึงการใช้โทเค็นมากขึ้น นักพัฒนาสามารถปรับสมดุลระหว่างประสิทธิภาพและต้นทุนได้โดยการปรับพารามิเตอร์ effort ตั้งงบประมาณงาน หรือปรับปรุงพรอมต์ Anthropic แนะนำว่า เมื่อทดสอบการเข้ารหัสและกรณีการใช้งาน Agent สามารถเริ่มจากระดับความพยายาม high หรือ xhigh ก่อน แล้วค่อยปรับตามความต้องการจริงทีละน้อย

โดยรวมแล้ว ต้นทุนการใช้งานจริงจะแตกต่างกันไปตามวิธีการใช้งานเฉพาะ แต่ในกรณีส่วนใหญ่ ประสิทธิภาพที่เพิ่มขึ้นจากความสามารถของโมเดลที่ปรับปรุงแล้ว สามารถชดเชยการเพิ่มขึ้นของการใช้โทเค็นได้ สำหรับทีมที่พึ่งพา Claude ในการทำงานพัฒนาที่ซับซ้อน นี่น่าจะเป็นการแลกเปลี่ยนที่คุ้มค่า

ลิงก์อ้างอิง:
[1] https://www.anthropic.com/news/claude-opus-4-7
[2] https://www.cnbc.com/2026/04/16/anthropic-claude-opus-4-7-model-mythos.html
[3] https://x.com/i/trending/2044560325509316766


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/th/archives/30740

Like (0)
Previous 2 hours ago
Next 2 hours ago

相关推荐