Claude Opus 4.7 เปิดตัวฉับพลัน: อัปเกรดสมรรถนะครบวงจร, ความสามารถด้านภาพเพิ่มขึ้น 3 เท่า, ประสิทธิภาพวิศวกรรมซอฟต์แวร์ขั้นสูงโดดเด่น

2 hours ago • ข่าวสารอุตสาหกรรม AI • 12 views

Claude Opus 4.7 เปิดตัวฉับพลัน: อัปเกรดสมรรถนะรอบด้าน, ความสามารถด้านภาพเพิ่มขึ้น 3 เท่า, ประสิทธิภาพด้านวิศวกรรมซอฟต์แวร์ขั้นสูงโดดเด่น (ตอนที่ 1)

หลังจากเปิดตัวโมเดลตัวอย่างรหัส “Mythos” Anthropic ได้ปล่อยโมเดลที่ทรงพลังที่สุดสำหรับใช้งานสาธารณะอย่างรวดเร็ว นั่นคือ Claude Opus 4.7

การอัปเดตครั้งนี้มีการปรับปรุงอย่างเห็นได้ชัดในหลายด้านสำคัญ โดยเฉพาะอย่างยิ่งในงานวิศวกรรมซอฟต์แวร์ขั้นสูงที่โดดเด่น แต่มีผู้ใช้บางส่วนรายงานว่าสไตล์และรูปแบบพฤติกรรมของโมเดลมีการเปลี่ยนแปลง

สี่ทิศทางการอัปเกรดหลัก

จากข้อมูลที่เผยแพร่โดยทางการ Claude Opus 4.7 มีความก้าวหน้าหลักในสี่ทิศทางต่อไปนี้

1. ด้านวิศวกรรมซอฟต์แวร์ขั้นสูง: ความสามารถเพิ่มขึ้นอย่างมีนัยสำคัญ

ความก้าวหน้าที่ชัดเจนที่สุดของ Opus 4.7 อยู่ในด้านวิศวกรรมซอฟต์แวร์ขั้นสูง ข้อมูลการทดสอบมาตรฐานหลายชุดยืนยันถึงความก้าวหน้าทางความสามารถ:

SWE-bench Verified อัตราการผ่านการทดสอบอยู่ที่ 78.2%
SWE-bench Multimodal อยู่ที่ 72.7%
Terminal-Bench 2.0 ได้คะแนน 68.8%
Rakuten-SWE-Bench จำนวนงานการผลิตที่แก้ไขได้มากกว่า Opus 4.6 ถึง 3 เท่า
เกณฑ์มาตรฐานการเข้ารหัส 93 งานบน GitHub เพิ่มขึ้น 13%

Michael Truell ซีอีโอของ Cursor ให้ความเห็นว่า:

บน CursorBench Opus 4.7 กระโดดจาก 58% ไปเป็น 70% การกระโดดนี้มีความสำคัญมาก

การปรับปรุงนี้สะท้อนให้เห็นในคุณสมบัติสำคัญสามประการ:

ปฏิบัติตามคำสั่งอย่างเคร่งครัด: โมเดลมีแนวโน้มที่จะปฏิบัติตามคำสั่งผู้ใช้ตามตัวอักษร แทนที่จะ “ตีความอย่างยืดหยุ่น” การแสดงออกที่คลุมเครือ ซึ่งต้องการให้ผู้ใช้ปรับกลยุทธ์การเขียนพรอมต์ เพื่อแสดงความต้องการอย่างชัดเจนมากขึ้น
ตรวจสอบตนเองก่อนส่งออก: โมเดลจะออกแบบวิธีการเพื่อตรวจสอบความถูกต้องของผลลัพธ์ด้วยตนเอง ก่อนที่จะรายงานผล
เก่งงานที่ซับซ้อน: มีประสิทธิภาพดีเยี่ยมในการเปลี่ยนแปลงไฟล์หลายไฟล์ที่ซับซ้อน การดีบั๊กปัญหาที่คลุมเครือ และการตรวจสอบโค้ดข้ามบริการ Sarah Sachs หัวหน้าฝ่าย AI ของ Notion แชร์ว่า เมื่อเผชิญกับเวิร์กโฟลว์ที่ซับซ้อน Opus 4.7 มีประสิทธิภาพดีกว่าเวอร์ชันก่อนหน้า 14% และอัตราความผิดพลาดในการเรียกใช้เครื่องมือลดลงเหลือหนึ่งในสาม

2. ความสามารถด้านภาพ: ความละเอียดเพิ่มขึ้น 3 เท่า การจดจำรายละเอียดดีขึ้น

ในด้านความสามารถด้านภาพ Opus 4.7 ก้าวหน้าอย่างสำคัญ:

รองรับความละเอียดภาพ: ด้านยาวรองรับสูงสุด 2576 พิกเซล (ประมาณ 3.75 ล้านพิกเซล) ซึ่งมากกว่า Opus 4.6 ถึง 3 เท่าขึ้นไป
ความคมชัดภาพ: ในการทดสอบมาตรฐานภาพ XBOW ได้ 98.5% (Opus 4.6 ได้ 54.5%)

นั่นหมายความว่าโมเดลสามารถจดจำไฟล์ออกแบบ Figma เต็มรูปแบบได้โดยตรง อ่านภาพหน้าจอเทอร์มินัล 1080p ที่มีตัวอักษรขนาดเล็ก และวิเคราะห์แผนภาพสถาปัตยกรรมเทคนิคหรือแผนภูมิงบการเงินที่ซับซ้อนได้อย่างแม่นยำ ในสถานการณ์การใช้คอมพิวเตอร์ สามารถอ่านองค์ประกอบ UI ที่หนาแน่นสูงได้อย่างชัดเจน

3. การปฏิบัติตามคำสั่งและการให้เหตุผล: ควบคุมได้มากขึ้น เชื่อถือได้มากขึ้น

Opus 4.7 ใช้กลยุทธ์การปฏิบัติตามคำสั่งตามตัวอักษรอย่างเคร่งครัดมากขึ้น ตัวอย่างเช่น หากผู้ใช้ต้องการ “ห้ามใช้ TypeScript” โมเดลจะหลีกเลี่ยงการใช้อย่างเด็ดขาด หากต้องการ “ส่งออก JSON” ผลลัพธ์จะไม่มีคำนำหน้าเพิ่มเติม การเปลี่ยนแปลงนี้เพิ่มความแม่นยำในการควบคุม แต่ผู้ใช้อาจต้องปรับเปลี่ยนนิสัยการเขียนพรอมต์เดิม

ในด้านความสามารถในการให้เหตุผล โมเดลมีประสิทธิภาพโดดเด่นในสถานการณ์บริบทยาว 1 ล้านโทเค็น โดยคะแนนในงาน BFS เพิ่มขึ้นจาก 41.2% ของ Opus 4.6 เป็น 58.6% ความต่อเนื่องทางตรรกะของการให้เหตุผลที่ซับซ้อนดีขึ้นอย่างเห็นได้ชัด

4. ความสามารถของ Agent เพิ่มขึ้น: ปรับให้เหมาะกับสถานการณ์เอเจนต์

Opus 4.7 ถูกกำหนดให้เป็นเวอร์ชัน “เกิดมาเพื่อ Agent (เอเจนต์)” โดยความสามารถหลักของ Agent ได้รับการปรับปรุงรอบด้าน:

เวิร์กโฟลว์หลายขั้นตอน: ในการทดสอบเวิร์กโฟลว์หลายขั้นตอนของ Notion อัตราความสำเร็จเพิ่มขึ้น 14% อัตราความผิดพลาดในการเรียกใช้เครื่องมือลดลงเหลือ 1/3
การตัดสินใจระยะยาว: ในการจำลองระยะยาว Vending-Bench 2 ยอดเงินสุดท้ายอยู่ที่ 10937 ดอลลาร์ (Opus 4.6 อยู่ที่ 8018 ดอลลาร์) การตัดสินใจมั่นคงมากขึ้น
ความจำระบบไฟล์: มีความสามารถในการจำข้อมูลสำคัญข้ามเซสชัน งานใหม่สามารถลดการป้อนบริบทซ้ำได้ 40%

Scott Wu ซีอีโอของ Cognition อธิบายว่า:

Opus 4.7 ยกระดับความเป็นอิสระระยะยาวใน Devin ไปสู่ระดับใหม่ มันสามารถทำงานอย่างต่อเนื่องได้หลายชั่วโมง บุกทะลวงปัญหายากแทนที่จะยอมแพ้

นอกจากนี้ โมเดลยังมีตัวเลือกควบคุมที่ละเอียดมากขึ้นสำหรับนักพัฒนา รวมถึงระดับการให้เหตุผลใหม่ xhigh โหมดการคิดแบบปรับตัว การจัดการงบประมาณงาน (เบต้าสาธารณะ) และคำสั่งตรวจสอบโค้ดเชิงลึก /ultrareview ที่เพิ่มใหม่ใน Claude Code

กลยุทธ์ความปลอดภัย: การป้องกันเมื่อเปิดตัวและข้อจำกัดความสามารถ

Anthropic ระบุอย่างเป็นทางการว่า ความสามารถที่เกี่ยวข้องกับความปลอดภัยทางไซเบอร์ของ Opus 4.7 ถูกควบคุมให้อยู่ในระดับต่ำกว่า Mythos Preview โดยเจตนา นี่เป็นส่วนหนึ่งของกลยุทธ์ความปลอดภัย AI ของบริษัท โดยมีวัตถุประสงค์เพื่อเป็น “เขตกันชน” ระหว่างโมเดลที่ทรงพลังกับการใช้งานสาธารณะ

มาตรการเฉพาะ ได้แก่:
* ลดความสามารถด้านเครือข่ายของโมเดลอย่างแตกต่างในระหว่างการฝึก ทำให้มีพฤติกรรมที่ระมัดระวังมากขึ้นเมื่อเผชิญกับงานที่เกี่ยวข้อง
* ได้ติดตั้งมาตรการป้องกันที่ตรวจจับและบล็อกคำขอด้านความปลอดภัยทางไซเบอร์ที่มีความเสี่ยงสูงโดยอัตโนมัติ
* สำหรับผู้เชี่ยวชาญด้านความปลอดภัยทางไซเบอร์ที่มีความต้องการที่ถูกกฎหมาย ได้เปิดตัว Cyber Verification Program ซึ่งสามารถสมัครผ่านช่องทางที่เป็นทางการเพื่อใช้โมเดลสำหรับวัตถุประสงค์ต่างๆ เช่น การวิจัยช่องโหว่ การทดสอบเจาะระบบ เป็นต้น

สำหรับนักพัฒนาที่ย้ายจาก Opus 4.6 ไปเป็น 4.7 ควรทราบว่า tokenizer ได้รับการอัปเดตแล้ว ซึ่งอาจส่งผลกระทบเล็กน้อยต่อประสิทธิภาพของพรอมต์และการนับโทเค็น

Opus 4.7 ใช้ tokenizer ใหม่ ซึ่งช่วยเพิ่มประสิทธิภาพการประมวลผลข้อความ แต่ก็ทำให้เนื้อหาอินพุตเดียวกันอาจถูกแมปเป็นโทเค็นจำนวนมากขึ้น โดยมีจำนวนประมาณ 1.0 ถึง 1.35 เท่าของก่อนหน้า

นั่นหมายความว่า การใช้พรอมต์เดียวกันอาจใช้โทเค็นมากขึ้น จำเป็นต้องเผื่อพื้นที่สำหรับเรื่องนี้ในงบประมาณต้นทุน

ประการที่สอง ในระดับ “ความพยายาม” ที่สูงขึ้น โมเดลจะสร้างโทเค็นเอาต์พุตมากขึ้น Opus 4.7 มีความลึกในการคิดที่เพิ่มขึ้นอย่างมีนัยสำคัญในระดับ high และ xhigh โดยเฉพาะอย่างยิ่งในระยะหลังของการสนทนาหลายรอบในสถานการณ์ Agent พฤติกรรมแบบ “คิดมาก เชื่อถือได้มากขึ้น” นี้ช่วยปรับปรุงคุณภาพของเอาต์พุต แต่ก็หมายความว่าการใช้โทเค็นจะเพิ่มขึ้นตามความยาวของเซสชันที่เพิ่มขึ้น

ราคาและข้อควรระวังในการใช้งาน

ราคาของ Opus 4.7 ยังคงเหมือนกับ Opus 4.6: อินพุต 5 ดอลลาร์ต่อล้านโทเค็น เอาต์พุต 25 ดอลลาร์ต่อล้านโทเค็น โมเดลนี้เปิดให้บริการเต็มรูปแบบแล้ว นอกจากช่องทางทางการของ Claude แล้ว ยังพร้อมใช้งานในผลิตภัณฑ์ Claude Pro/Max/Team/Enterprise ทุกตัว, API ทางการ และพร้อมกันบนแพลตฟอร์มคลาวด์หลักสามแห่ง ได้แก่ Microsoft Foundry, Google Cloud Vertex AI และ Amazon Bedrock

แม้จะมีข้อกำหนดในการปรับโครงสร้างพรอมต์และการปรับกลยุทธ์การใช้โทเค็น แต่การทดสอบภายในของ Anthropic ให้สัญญาณเชิงบวก ในการประเมินการเข้ารหัส Agent ภายใน ประสิทธิภาพการใช้โทเค็นในทุกระดับความพยายามดีขึ้นเมื่อเทียบกับ Opus 4.6 กล่าวอีกนัยหนึ่ง แม้ว่าจำนวนโทเค็นในการเรียกใช้แต่ละครั้งอาจเพิ่มขึ้น แต่เนื่องจากโมเดลทำผิดพลาดน้อยลง โทเค็นทั้งหมดที่จำเป็นในการทำงานให้สำเร็จมักจะน้อยกว่า

นี่คล้ายกับการจ้างวิศวกรอาวุโสที่มีค่าจ้างต่อชั่วโมงสูงกว่า ซึ่งทำงานให้เสร็จเร็วขึ้น ต้องแก้ไขงานใหม่น้อยลง และต้นทุนรวมสุดท้ายอาจต่ำกว่า

คำแนะนำในการปรับปรุงต้นทุน

Opus 4.7 จะระมัดระวังมากขึ้นในรอบการสนทนาต่อๆ ไป ซึ่งนำมาซึ่งเอาต์พุตที่เชื่อถือได้มากขึ้น แต่ก็หมายถึงการใช้โทเค็นมากขึ้น นักพัฒนาสามารถปรับสมดุลระหว่างประสิทธิภาพและต้นทุนได้โดยการปรับพารามิเตอร์ effort ตั้งงบประมาณงาน หรือปรับปรุงพรอมต์ Anthropic แนะนำว่า เมื่อทดสอบการเข้ารหัสและกรณีการใช้งาน Agent สามารถเริ่มจากระดับความพยายาม high หรือ xhigh ก่อน แล้วค่อยปรับตามความต้องการจริงทีละน้อย

โดยรวมแล้ว ต้นทุนการใช้งานจริงจะแตกต่างกันไปตามวิธีการใช้งานเฉพาะ แต่ในกรณีส่วนใหญ่ ประสิทธิภาพที่เพิ่มขึ้นจากความสามารถของโมเดลที่ปรับปรุงแล้ว สามารถชดเชยการเพิ่มขึ้นของการใช้โทเค็นได้ สำหรับทีมที่พึ่งพา Claude ในการทำงานพัฒนาที่ซับซ้อน นี่น่าจะเป็นการแลกเปลี่ยนที่คุ้มค่า

ลิงก์อ้างอิง:
[1] https://www.anthropic.com/news/claude-opus-4-7
[2] https://www.cnbc.com/2026/04/16/anthropic-claude-opus-4-7-model-mythos.html
[3] https://x.com/i/trending/2044560325509316766

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/th/archives/30740

Like (0)

0 0

หุ้นแรกของโลกด้านความฉลาดเชิงพื้นที่พุ่ง 171% หลังเข้าตลาด! Qunhe Technology กลายเป็นผู้นำในยุคหลังของ AI รับการลงทุนจาก Li Feifei, NVIDIA, Tencent และ Alibaba

Previous 2 hours ago

ByteDance เผย Seedance 2.0: ทีมวิจัย 170 คนเปิดเผยบทความวิชาการ ขยายสู่ทั่วโลกแต่ไม่มีสหรัฐฯ เทคโนโลยีก้าวข้ามข้อจำกัดการสร้างวิดีโอด้วย AI

Next 2 hours ago

ข่าวสารอุตสาหกรรม AI

ผู้ได้รับรางวัล Turing Award Sutton วิเคราะห์เชิงลึก: แบบจำลอง AI มีความเปราะบางโดยพื้นฐาน, ยุคแห่งประสบการณ์คือจุดหมายต่อไปของการวิวัฒนาการอัจฉริยะ

AI ในวันนี้ทำให้คนทั้งดีใจและกลัว ภายในเวลาเพียง 3 ปี AI ได้วิวัฒนาการจากแชทบอทไปสู่เอเจนต์ที่สามารถควบคุมคอมพิวเตอร์ได้ แต่ในขณะเดียวกันก็ทำให้เกิด “ความหวาดกลัว AI” ใ…

2026年2月24日
211000
ข่าวสารอุตสาหกรรม AI

ข่าวด่วน! NeurIPS ห้ามสถาบันจีน 873 แห่ง รวมถึง Huawei ส่งบทความ ชุมชนวิชาการ AI ตื่นตระหนก ICML และ ICLR อาจดำเนินการตาม

นโยบายการรับบทความสำหรับการประชุม NeurIPS 2026 มีการเปลี่ยนแปลงครั้งสำคัญ จากเอกสารทางการ ‘MainTrackHandbook’ ที่เผยแพร่ NeurIPS จะไม่รับบทความวิจัยจากสถาบันที่อยู่ในบั…

2026年3月25日
189000
ข่าวสารอุตสาหกรรม AI

โมเดลลึกลับของ Alibaba ATH “HappyHorse-1.0” ขึ้นแท่นอันดับหนึ่งในการสร้างวิดีโอ AI ทีมวิจัยของ Zheng Bo กำลังจะเปิด API

เมื่อค่ำวันอังคาร แพลตฟอร์มประเมิน AI ชั้นนำอย่าง Artificial Analysis ได้เห็นโมเดลสร้างวิดีโอลึกลับที่ใช้รหัสว่า “HappyHorse-1.0” ปรากฏขึ้นที่อันดับหนึ่งของชาร์ตอย่างกะ…

6 days ago
61000
ข่าวสารอุตสาหกรรม AI

Arcee AI เปิดตัว Trinity-Large-Thinking: โมเดลการอนุมานโอเพนซอร์ส 399 พันล้านพารามิเตอร์ ประสิทธิภาพเทียบเท่า Claude Opus 4.6 ลดต้นทุน 96%

คำสำคัญ: Trinity-Large-Thinking, โมเดลโอเพนซอร์สขนาดใหญ่, Opus 4.6, Arcee AI, Apache 2.0 เมษายน 2026 อุตสาหกรรมโมเดลขนาดใหญ่ทั่วโลกได้เห็นการเปิดตัวครั้งสำคัญที่อาจเปลี่ยนแปลงภูมิท…

2026年4月5日
81000
ข่าวสารอุตสาหกรรม AI

เทนเซ็นต์เปิดตัวโครงการ Sherry Ternary Quantization: 1.25 บิตครองอันดับการอนุมาน LLM ขอบ, สแปร์ส 3:4 บีบประสิทธิภาพฮาร์ดแวร์สุดขีด

คำสำคัญ: การหาปริมาณแบบไตรภาค การทำให้เบาบางแบบละเอียด โครงสร้างการเบาบาง 3:4 กับดักน้ำหนัก ซินแนปส์ตกค้างแบบแอนนีล การนำโมเดลภาษาขนาดใหญ่ (LLM) ไปใช้งานกำลังเผชิญกับความขัดแย้งพื้…

2026年2月16日
199000

สี่ทิศทางการอัปเกรดหลัก

1. ด้านวิศวกรรมซอฟต์แวร์ขั้นสูง: ความสามารถเพิ่มขึ้นอย่างมีนัยสำคัญ

2. ความสามารถด้านภาพ: ความละเอียดเพิ่มขึ้น 3 เท่า การจดจำรายละเอียดดีขึ้น

3. การปฏิบัติตามคำสั่งและการให้เหตุผล: ควบคุมได้มากขึ้น เชื่อถือได้มากขึ้น

4. ความสามารถของ Agent เพิ่มขึ้น: ปรับให้เหมาะกับสถานการณ์เอเจนต์

กลยุทธ์ความปลอดภัย: การป้องกันเมื่อเปิดตัวและข้อจำกัดความสามารถ

ราคาและข้อควรระวังในการใช้งาน

คำแนะนำในการปรับปรุงต้นทุน

☕ สนับสนุนค่ากาแฟทีมงาน

相关推荐

ข่าวด่วน! NeurIPS ห้ามสถาบันจีน 873 แห่ง รวมถึง Huawei ส่งบทความ ชุมชนวิชาการ AI ตื่นตระหนก ICML และ ICLR อาจดำเนินการตาม

โมเดลลึกลับของ Alibaba ATH “HappyHorse-1.0” ขึ้นแท่นอันดับหนึ่งในการสร้างวิดีโอ AI ทีมวิจัยของ Zheng Bo กำลังจะเปิด API

Arcee AI เปิดตัว Trinity-Large-Thinking: โมเดลการอนุมานโอเพนซอร์ส 399 พันล้านพารามิเตอร์ ประสิทธิภาพเทียบเท่า Claude Opus 4.6 ลดต้นทุน 96%

เทนเซ็นต์เปิดตัวโครงการ Sherry Ternary Quantization: 1.25 บิตครองอันดับการอนุมาน LLM ขอบ, สแปร์ส 3:4 บีบประสิทธิภาพฮาร์ดแวร์สุดขีด