Claude Opus 4.7 เปิดตัวอย่างยิ่งใหญ่: ความสามารถในการเขียนโปรแกรมพุ่งสูงขึ้น 64.3% การจดจำภาพดีขึ้น 3 เท่า เปิดศักราชใหม่ของโหมดอัตโนมัติ

1 hour ago • วิศวกรรมโมเดลขนาดใหญ่ • 11 views

เมื่อคืนวันพฤหัสบดี Anthropic ประกาศเปิดตัวโมเดลพื้นฐานรุ่นล่าสุด Claude Opus 4.7 อย่างเต็มรูปแบบ

Opus 4.7 มีการพัฒนาความสามารถด้านวิศวกรรมซอฟต์แวร์ขั้นสูงอย่างมีนัยสำคัญเมื่อเทียบกับรุ่นก่อนหน้า Opus 4.6 โดยเฉพาะอย่างยิ่งในการจัดการงานที่ซับซ้อนที่สุด จากความคิดเห็นของผู้ใช้ ตอนนี้สามารถมอบหมายงานเขียนโค้ดที่ยุ่งยากซึ่งเคยต้องได้รับการดูแลอย่างใกล้ชิดให้กับ Opus 4.7 ได้แล้ว โมเดลนี้สามารถจัดการงานที่ซับซ้อนและใช้เวลานานอย่างเข้มงวดและสม่ำเสมอ ปฏิบัติตามคำสั่งอย่างแม่นยำ และออกแบบวิธีการตรวจสอบผลลัพธ์ของตัวเองก่อนส่งคืน

ความสามารถหลายรูปแบบของโมเดลนี้ก็ได้รับการปรับปรุงเช่นกัน: สามารถจดจำภาพที่มีความละเอียดสูงขึ้น มีรสนิยมและความคิดสร้างสรรค์มากขึ้นเมื่อทำงานเฉพาะทาง สามารถสร้างอินเทอร์เฟซ สไลด์ และเอกสารที่มีคุณภาพสูงขึ้น แม้ว่าความสามารถรอบด้านจะไม่เท่ากับ Claude Mythos Preview ที่ประกาศในเวลาเดียวกัน แต่ก็แสดงผลได้ดีกว่า Opus 4.6 ในการทดสอบมาตรฐานหลายรายการ

Claude Opus 4.7 เปิดตัวอย่างยิ่งใหญ่: ความสามารถในการเขียนโปรแกรมพุ่งสูงขึ้น 64.3% การจดจำภาพดีขึ้น 3 เท่า เปิดศักราชใหม่ของโหมดอัตโนมัติ

ดังที่แสดงในภาพ คะแนนบน SWE-bench Pro อยู่ที่ 64.3% สูงกว่า GPT-5.4 ที่ 57.7%

Opus 4.7 ได้เปิดตัวในผลิตภัณฑ์ Claude ทั้งหมด API และแพลตฟอร์ม Amazon Bedrock, Google Cloud Vertex AI และ Microsoft Foundry แล้ว ราคายังคงเหมือนกับ Opus 4.6: อินพุตโทเค็น 5 ดอลลาร์ต่อล้านโทเค็น เอาต์พุตโทเค็น 25 ดอลลาร์ต่อล้านโทเค็น

ความคิดเห็นจากการใช้งานในช่วงแรกบ่งชี้ว่าโมเดลใหม่มีความเข้มงวดและสม่ำเสมอมากขึ้นเมื่อจัดการงานที่ซับซ้อน และมีการพัฒนาอย่างเห็นได้ชัดในงานโปรแกรมมิ่งที่ยากที่สุด นี่คือไฮไลต์บางส่วนจากการทดสอบช่วงแรกของ Opus 4.7:

ความสามารถในการปฏิบัติตามคำสั่งดีขึ้นอย่างเห็นได้ชัด: นี่หมายความว่าคำสั่งที่เขียนสำหรับรุ่นเก่าบางครั้งอาจให้ผลลัพธ์ที่ไม่คาดคิด รุ่นเก่าอาจตีความคำสั่งอย่างกว้างๆ หรือข้ามบางส่วน ในขณะที่ Opus 4.7 จะปฏิบัติตามคำสั่งอย่างเคร่งครัด ผู้ใช้จำเป็นต้องปรับคำสั่งและการตั้งค่าที่เกี่ยวข้องตามนี้
การสนับสนุนหลายรูปแบบที่เพิ่มขึ้น: Opus 4.7 สามารถประมวลผลภาพที่มีด้านยาวสูงสุด 2576 พิกเซล (ประมาณ 3.75 ล้านพิกเซล) ความสามารถในการประมวลผลความละเอียดสูงกว่ามากกว่าสามเท่าของโมเดล Claude ก่อนหน้านี้ ซึ่งเปิดโอกาสสำหรับแอปพลิเคชันที่ต้องพึ่งพารายละเอียดภาพที่ละเอียด เช่น การอ่านภาพหน้าจอที่หนาแน่น การดึงข้อมูลจากแผนภูมิที่ซับซ้อน เป็นต้น
ความสามารถในการใช้งานจริงดีขึ้น: นอกจากจะอยู่ในระดับแนวหน้าในการประเมินตัวแทนทางการเงินแล้ว การทดสอบภายในของ Anthropic แสดงให้เห็นว่า Opus 4.7 สามารถทำการวิเคราะห์ทางการเงินได้อย่างมีประสิทธิภาพมากขึ้น สร้างแบบจำลองการวิเคราะห์ที่เข้มงวดและงานนำเสนอที่มีความเป็นมืออาชีพมากขึ้น และบูรณาการงานต่างๆ ได้แน่นหนาขึ้น นอกจากนี้ยังอยู่ในตำแหน่งผู้นำในการประเมิน GDPval-AA อีกด้วย
การใช้หน่วยความจำที่ปรับให้เหมาะสม: Opus 4.7 เก่งกว่าในการใช้หน่วยความจำระบบไฟล์ สามารถจดบันทึกสำคัญจากงานที่ใช้เวลานานและหลายเซสชัน และใช้ข้อมูลนี้เพื่อดำเนินงานใหม่ต่อไป ซึ่งช่วยลดการพึ่งพาข้อมูลบริบทสำหรับงานใหม่

Boris Cherny หัวหน้าทีม Claude Code แนะนำคุณสมบัติใหม่บางประการของ Claude Opus 4.7:

1. โหมดอัตโนมัติ
Opus 4.7 เก่งในการทำงานที่ซับซ้อนและใช้เวลานาน เช่น การวิจัยเชิงลึก การปรับโครงสร้างโค้ด การสร้างฟังก์ชันที่ซับซ้อน เป็นต้น โหมดอัตโนมัติซึ่งเป็นทางเลือกที่ปลอดภัยกว่า จะส่งต่อแจ้งเตือนเกี่ยวกับสิทธิ์ไปยังตัวแยกประเภทที่ใช้โมเดลเพื่อตัดสินใจว่าคำสั่งนั้นปลอดภัยต่อการดำเนินการหรือไม่ หากปลอดภัย ก็จะอนุมัติโดยอัตโนมัติ ซึ่งทำให้โมเดลสามารถทำงานได้โดยไม่ต้องได้รับการดูแลตลอดเวลา และอนุญาตให้ผู้ใช้เรียกใช้หลายอินสแตนซ์ของ Claude พร้อมกันได้

2. สกิลใหม่ /fewer-permission-prompts
สกิลนี้จะสแกนประวัติการสนทนาเพื่อค้นหาคำสั่ง bash และ MCP ทั่วไปที่ปลอดภัย ซึ่งมักจะทำให้เกิดแจ้งเตือนเกี่ยวกับสิทธิ์ซ้ำๆ จากนั้นจะแนะนำรายการคำสั่งที่สามารถเพิ่มลงในไวท์ลิสต์สิทธิ์ได้ ซึ่งช่วยให้ผู้ใช้ปรับการตั้งค่าสิทธิ์ให้เหมาะสมและหลีกเลี่ยงการแจ้งเตือนที่ไม่จำเป็น

3. ฟังก์ชัน “ทบทวน”
“ทบทวน” คือบทสรุปสั้นๆ เกี่ยวกับงานที่ตัวแทนอัจฉริยะทำเสร็จแล้วและการดำเนินการต่อไป สามารถกลับไปที่เซสชันที่ทำงานนานได้ในอีกไม่กี่นาทีหรือหลายชั่วโมงต่อมา เพื่อช่วยให้ผู้ใช้เข้าใจความคืบหน้าอย่างรวดเร็ว

4. โหมดโฟกัส
โหมดโฟกัสถูกเพิ่มเข้ามาใน CLI ซึ่งจะซ่อนขั้นตอนกลางทั้งหมดและแสดงเฉพาะผลลัพธ์สุดท้าย ผู้ใช้สามารถสลับโหมดนี้ได้ด้วยคำสั่ง /focus

5. ความลึกในการคิดที่ปรับได้
Opus 4.7 ใช้กลไกการคิดที่ปรับได้แทนที่จะเป็นงบประมาณการคิดที่ตายตัว ผู้ใช้สามารถควบคุมความลึกในการคิดของโมเดลได้โดยการปรับ “ระดับความพยายาม” ระดับความพยายามที่ต่ำกว่าจะให้การตอบสนองที่เร็วขึ้นและการใช้โทเค็นที่ต่ำลง ในขณะที่ระดับความพยายามที่สูงกว่าจะกระตุ้นสติปัญญาและความสามารถสูงสุด Boris Cherny แนะนำว่า สำหรับงานส่วนใหญ่สามารถใช้ระดับความพยายาม xhigh และสำหรับงานที่ยากที่สุดให้ใช้ระดับความพยายาม max (มีผลเฉพาะกับเซสชันปัจจุบัน) ผู้ใช้สามารถตั้งระดับความพยายามได้ด้วยคำสั่ง /effort

6. วิธีให้ Claude ตรวจสอบงานของตัวเอง
การทำให้แน่ใจว่า Claude มีวิธีตรวจสอบผลงานของตัวเอง เป็นวิธีที่มีประสิทธิภาพเสมอในการเพิ่มผลผลิต 2-3 เท่า และในเวอร์ชัน 4.7 นี้มีความสำคัญยิ่งขึ้น วิธีการตรวจสอบจะแตกต่างกันไปตามงาน: สำหรับงานแบ็กเอนด์ ต้องแน่ใจว่า Claude รู้วิธีเริ่มเซิร์ฟเวอร์เพื่อทดสอบแบบ end-to-end; สำหรับงานฟรอนต์เอนด์ สามารถใช้ส่วนขยาย Claude Chromium เพื่อให้ควบคุมเบราว์เซอร์ได้; สำหรับแอปพลิเคชันเดสก์ท็อป สามารถใช้ computer use ได้ Boris Cherny กล่าวว่า คำสั่งของเขาหลายคำสั่งเมื่อเร็วๆ นี้มีลักษณะคล้ายกับ: “Claude ทำ blah blah /go” /go เป็นสกิลที่ทำให้ Claude 1) ทดสอบตัวเองแบบ end-to-end โดยใช้ bash, เบราว์เซอร์ หรือ computer use; 2) รันสกิล /simplify; 3) ส่ง PR

สัปดาห์ที่แล้ว Anthropic เปิดตัวโครงการ “Project Glasswing” ซึ่งเน้นไปที่ความเสี่ยงและข้อได้เปรียบของโมเดล AI ในด้านความปลอดภัยทางไซเบอร์ Anthropic ประกาศว่าจะจำกัดขอบเขตการเปิดตัว Claude Mythos Preview ที่มีความสามารถสูงกว่า และจะทดสอบมาตรการป้องกันความปลอดภัยทางไซเบอร์ใหม่บนโมเดลที่อ่อนแอก่อน

Opus 4.7 คือโมเดลแรกในลักษณะนี้: ความสามารถด้านความปลอดภัยทางไซเบอร์อ่อนแอกว่า Mythos Preview (Anthropic ได้ลองใช้หลายวิธีในการฝึกเพื่อลดความสามารถนี้ลงทีละน้อย) Opus 4.7 ที่เปิดตัวมาพร้อมกับมาตรการป้องกันความปลอดภัยที่สามารถตรวจจับและบล็อกคำขอที่บ่งชี้ถึงการใช้ความปลอดภัยทางไซเบอร์ที่ผิดกฎหมายหรือมีความเสี่ยงสูงได้โดยอัตโนมัติ Anthropic หวังว่าจะได้รับประสบการณ์จากการใช้งานจริงของมาตรการความปลอดภัยเหล่านี้ เพื่อให้บรรลุเป้าหมายในการเปิดตัวโมเดลระดับ Mythos อย่างกว้างขวางในที่สุด

โดยรวมแล้ว ประสิทธิภาพด้านความปลอดภัยของ Opus 4.7 คล้ายกับ Opus 4.6 การประเมินของ Anthropic แสดงให้เห็นว่ามีสัดส่วนของพฤติกรรมที่น่ากังวล เช่น การหลอกลวง การประจบสอพลอ หรือการร่วมมือกับผู้ละเมิดต่ำ ในบางตัวชี้วัด เช่น ความซื่อสัตย์และความสามารถในการต้านทานการโจมตี “prompt injection” ที่เป็นอันตราย Opus 4.7 ดีกว่า Opus 4.6; แต่ในตัวชี้วัดอื่นๆ เช่น การให้คำแนะนำเกี่ยวกับการลดอันตรายจากยาที่ควบคุมอย่างละเอียดเกินไป Opus 4.7 ด้อยกว่าเล็กน้อย

รายงานการประเมินความสอดคล้องของ Anthropic ระบุว่า Claude Opus 4.7 “โดยรวมมีความสอดคล้องดีและน่าเชื่อถือ แต่พฤติกรรมของมันไม่ใช่ในอุดมคติอย่างสมบูรณ์” การประเมินยังแสดงให้เห็นว่าโมเดล Mythos Preview มีประสิทธิภาพดีที่สุดในด้านความสอดคล้อง

ภาพด้านบนแสดงคะแนนเบี่ยงเบนพฤติกรรมโดยรวมจากการตรวจสอบพฤติกรรมอัตโนมัติ

นอกจากอัปเดตโมเดลหลักแล้ว Anthropic ยังเปิดตัวการปรับปรุงฟังก์ชันต่อไปนี้พร้อมกัน:

การควบคุมความยากที่ละเอียดยิ่งขึ้น: Opus 4.7 เพิ่มระดับ xhigh (สูงมาก) ใหม่ระหว่างระดับ high และ max เดิม ซึ่งช่วยให้ผู้ใช้สามารถปรับสมดุลระหว่างความเร็วในการให้เหตุผลและความล่าช้าเมื่อแก้ไขปัญหาที่ซับซ้อนได้อย่างแม่นยำยิ่งขึ้น ใน Claude Code ระดับความยากเริ่มต้นสำหรับทุกแผนได้ถูกปรับเพิ่มเป็น xhigh แล้ว คำแนะนำอย่างเป็นทางการคือ ให้เริ่มต้นที่ระดับ high หรือ xhigh เมื่อทดสอบการเข้ารหัสและสถานการณ์ตัวแทนอัจฉริยะ
อัปเดตแพลตฟอร์ม Claude (API): นอกจากสนับสนุนการป้อนภาพที่มีความละเอียดสูงขึ้นแล้ว Anthropic ยังเปิดตัวฟังก์ชัน “งบประมาณงาน” ในรุ่นเบต้าสาธารณะ นักพัฒนาสามารถใช้สิ่งนี้เพื่อชี้นำการจัดสรรการใช้โทเค็นของ Claude ทำให้สามารถให้ความสำคัญกับงานที่ทำงานนานได้
อัปเดต Claude Code:
- เพิ่มคำสั่งทับใหม่ /ultrareview ซึ่งสามารถสร้างเซสชันตรวจสอบโค้ดเฉพาะทาง อ่านการเปลี่ยนแปลงทั้งหมด และทำเครื่องหมายข้อผิดพลาดและปัญหาการออกแบบที่อาจถูกมองข้าม ผู้ใช้ Claude Code Pro และ Max จะได้รับโอกาสทดลองใช้ฟรีสามครั้ง
- โหมดอัตโนมัติ (Auto Mode) ขยายไปยังผู้ใช้ Max แล้ว ภายใต้ตัวเลือกสิทธิ์นี้ Claude สามารถตัดสินใจได้ด้วยตัวเอง ทำให้สามารถทำงานที่ใช้เวลานานขึ้น ลดการขัดจังหวะ และลดความเสี่ยงจากการที่มนุษย์เลือกข้ามการขอสิทธิ์

Opus 4.7 เป็นการอัปเกรดโดยตรงจาก Opus 4.6 แต่มีสองการเปลี่ยนแปลงที่ส่งผลต่อการใช้โทเค็นที่ควรทราบ:
1. Opus 4.7 ใช้ตัวแบ่งคำ (tokenizer) รุ่นใหม่ที่ปรับปรุงวิธีการประมวลผลข้อสมบูรณ์แล้ว คาดการณ์จากภายนอกว่ามีความเป็นไปได้สูงที่มันจะเป็นโมเดลพื้นฐานใหม่ หรือแม้แต่กลั่นกรองมาจาก Mythos ข้อเสียคือ เนื้อหาอินพุตเดียวกันอาจถูกแมปเป็นโทเค็นมากขึ้น โดยเพิ่มขึ้นประมาณ 1.0 ถึง 1.35 เท่าขึ้นอยู่กับประเภทของเนื้อหา
2. โมเดลจะ “คิด” มากขึ้นในงานระดับ high ขึ้นไป โดยเฉพาะอย่างยิ่งในภายหลังของการสนทนาหลายรอบ ซึ่งช่วยเพิ่มความน่าเชื่อถือในการแก้ปัญหาที่ซับซ้อน แต่ก็หมายความว่าอาจสร้างโทเค็นเอาต์พุตมากขึ้น

นอกจากนี้ วันที่ตัดความรู้ของ Opus 4.7 ก็ได้รับการอัปเดตแล้ว:

ผู้ใช้สามารถจัดการการใช้โทเค็นได้หลายวิธี เช่น การใช้พารามิเตอร์ระดับความพยายาม การปรับงบประมาณงาน หรือการชี้นำโมเดลให้ลดความซับซ้อนของเอาต์พุต จากการทดสอบภายในของ Anthropic ผลลัพธ์สุดท้ายเป็นไปในทางบวก — การประเมินการเข้ารหัสภายในแสดงให้เห็นว่าคุณภาพโค้ดที่ระดับความพยายามทั้งหมดดีขึ้นเมื่อเทียบกับอัตราการใช้โทเค็น (ดังแสดงในภาพด้านล่าง) แต่ Anthropic ยังแนะนำให้ประเมินในการใช้งานจริง

(ภาพด้านบน: เปรียบเทียบคะแนนการประเมินการเข้ารหัสอัจฉริยะภายในกับการใช้โทเค็นที่ระดับความพยายามต่างๆ ในการประเมินนี้ โมเดลทำงานด้วยตัวเองภายใต้คำสั่งผู้ใช้ครั้งเดียว ดังนั้นผลลัพธ์อาจไม่สามารถแสดงถึงการใช้โทเค็นในสถานการณ์การเข้ารหัสแบบโต้ตอบได้อย่างเต็มที่)

Anthropic ได้เขียนคู่มือการย้ายข้อมูล ซึ่งให้คำแนะนำเพิ่มเติมเกี่ยวกับการอัปเกรดจาก Opus 4.6 เป็น Opus 4.7

หลังจากเปิดตัว Opus 4.7 ผู้ใช้ได้ทำการทดสอบอย่างกว้างขวาง ความคิดเห็นส่วนใหญ่เห็นว่าโมเดลใหม่มีประสิทธิภาพอย่างเห็นได้ชัด แต่ผู้ใช้บางคนชี้ให้เห็นว่ามันใช้โทเค็นจำนวนมากอย่างมาก

เป็นที่น่าสังเกตว่าในช่วงเวลาเดียวกัน Qwen ได้เปิดตัวโมเดล Qwen3.6-35B-A3B (พารามิเตอร์

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง