Anthropic เปิดตัวเบนช์มาร์คลับ ‘Mythos’ อย่างเป็นทางการ คะแนนพุ่งทะลุสถิติ! เปิดเผยรายละเอียด Capybara รองรับคอนเท็กซ์ 1M โทเค็น


ข้อมูลเบนช์มาร์ก Anthropic Mythos 疑似รั่วไหล ทำสถิติใหม่หลายรายการ

ในช่วง 24 ชั่วโมงที่ผ่านมา เกิดเหตุข้อมูลรั่วไหลต่อเนื่องในวงการ AI หลังจากซอร์สโค้ดของเครื่องมือบรรทัดคำสั่ง Claude Code ของ Anthropic รั่วไหลโดยไม่ได้ตั้งใจ ข้อมูลเบนช์มาร์กของโมเดลเรือธงรุ่นต่อไปที่คาดว่าเป็น Mythos ก็ถูกเปิดเผยเช่นกัน

Anthropic เปิดตัวเบนช์มาร์คลับ 'Mythos' อย่างเป็นทางการ คะแนนพุ่งทะลุสถิติ! เปิดเผยรายละเอียด Capybara รองรับคอนเท็กซ์ 1M โทเค็น

จากข้อมูลที่รั่วไหลแสดงให้เห็นว่า Mythos ถูกกำหนดตำแหน่งเป็นไลน์ผลิตภัณฑ์ระดับไฮเอนด์ที่แยกออกจากซีรีส์ Claude ที่มีอยู่ในปัจจุบัน ผลการทดสอบเบนช์มาร์กเมื่อเทียบกับ Opus 4.6 เวอร์ชันปัจจุบัน มีการปรับปรุงที่โดดเด่นในหลายตัวชี้วัดสำคัญ:

  • Terminal-Bench 2.0: 78.4%(เพิ่มขึ้น 13.0%)
  • SWE-bench Verified: 87.4%(เพิ่มขึ้น 6.6%)
  • OSWorld: 79.6%(เพิ่มขึ้น 6.9%)
  • BrowseComp: 92.3%(เพิ่มขึ้น 8.3%)
  • MCP Atlas: 75.7%(เพิ่มขึ้น 16.2%)
  • Finance Agent: 82.1%(เพิ่มขึ้น 21.4%)
  • GDPVal-AA-Elo: 2668(เพิ่มขึ้น 1062)
  • Humanity‘s Last Exam: 52.3%(ไม่มีเครื่องมือ,เพิ่มขึ้น 12.3%),71.5%(มีเครื่องมือ,เพิ่มขึ้น 18.5%)

Anthropic เปิดตัวเบนช์มาร์คลับ 'Mythos' อย่างเป็นทางการ คะแนนพุ่งทะลุสถิติ! เปิดเผยรายละเอียด Capybara รองรับคอนเท็กซ์ 1M โทเค็น

โดยเฉพาะอย่างยิ่งประสิทธิภาพในงานเขียนโค้ดของเอเจนต์นั้นโดดเด่นเป็นพิเศษ สำหรับความน่าเชื่อถือของข้อมูลที่รั่วไหล มีนักวิเคราะห์ใช้เครื่องมือตรวจจับเนื้อหา AI เพื่อตรวจสอบเบื้องต้น

Anthropic เปิดตัวเบนช์มาร์คลับ 'Mythos' อย่างเป็นทางการ คะแนนพุ่งทะลุสถิติ! เปิดเผยรายละเอียด Capybara รองรับคอนเท็กซ์ 1M โทเค็น

ในเวลาเดียวกัน มีภาพหน้าจอผลการทดสอบเบนช์มาร์กเวอร์ชันไม่มีลายน้ำปรากฏบนอินเทอร์เน็ต

Anthropic เปิดตัวเบนช์มาร์คลับ 'Mythos' อย่างเป็นทางการ คะแนนพุ่งทะลุสถิติ! เปิดเผยรายละเอียด Capybara รองรับคอนเท็กซ์ 1M โทเค็น

หากข้อมูลที่รั่วไหลเป็นความจริง ประสิทธิภาพของ Mythos จะก้าวกระโดดครั้งสำคัญ

Anthropic เปิดตัวเบนช์มาร์คลับ 'Mythos' อย่างเป็นทางการ คะแนนพุ่งทะลุสถิติ! เปิดเผยรายละเอียด Capybara รองรับคอนเท็กซ์ 1M โทเค็น

รายละเอียดโมเดล “คาปิบารา” เริ่มปรากฏ

ในซอร์สโค้ดที่รั่วไหลของ Claude Code พบเบาะแสเกี่ยวกับโมเดลใหม่ที่มีรหัสว่า capybara-v2-fast

Anthropic เปิดตัวเบนช์มาร์คลับ 'Mythos' อย่างเป็นทางการ คะแนนพุ่งทะลุสถิติ! เปิดเผยรายละเอียด Capybara รองรับคอนเท็กซ์ 1M โทเค็น

โมเดลนี้รองรับความยาวคอนเท็กซ์ 1M ซึ่งบ่งชี้ว่าคอนเท็กซ์ยาวพิเศษได้กลายเป็นมาตรฐานของโมเดลรุ่นใหม่แล้ว ตามธรรมเนียม หลังจากเวอร์ชัน “fast” อาจมีเวอร์ชันเรือธงที่ทรงพลังยิ่งกว่าถูกปล่อยออกมา

Anthropic เปิดตัวเบนช์มาร์คลับ 'Mythos' อย่างเป็นทางการ คะแนนพุ่งทะลุสถิติ! เปิดเผยรายละเอียด Capybara รองรับคอนเท็กซ์ 1M โทเค็น
Anthropic เปิดตัวเบนช์มาร์คลับ 'Mythos' อย่างเป็นทางการ คะแนนพุ่งทะลุสถิติ! เปิดเผยรายละเอียด Capybara รองรับคอนเท็กซ์ 1M โทเค็น
Anthropic เปิดตัวเบนช์มาร์คลับ 'Mythos' อย่างเป็นทางการ คะแนนพุ่งทะลุสถิติ! เปิดเผยรายละเอียด Capybara รองรับคอนเท็กซ์ 1M โทเค็น

รายละเอียดทางเทคนิค: การปรับปรุง Prompt Engineering สำหรับการเรียกใช้เครื่องมือ

นักพัฒนาพบจากโค้ดว่า Anthropic ได้ทำการปรับแต่ง Prompt Engineering อย่างละเอียดสำหรับปัญหาที่อาจเกิดขึ้นกับโมเดลในสภาพแวดล้อมการผลิต ตัวอย่างเช่น เมื่อผลลัพธ์ที่ส่งคืนจากการเรียกใช้เครื่องมือมีรูปแบบคล้ายกับ “ขอบเขตรอบ” มากเกินไป โมเดลอาจตัดสินผิดพลาดว่าการสนทนาจบลง ส่งผลให้หยุดการสร้างล่วงหน้า

เพื่อแก้ไขปัญหานี้ Anthropic ไม่ได้เลือกฝึกโมเดลใหม่ แต่ทำการแก้ไขผ่านชุดของ “การผ่าตัดพรอมต์” ซึ่งรวมถึง:
* การแนะนำเครื่องหมายขอบเขตที่ชัดเจน (เช่น Tool loaded.)
* การปรับตำแหน่งใหม่ของ “โมดูลระดับเดียวกัน” ที่มีความเสี่ยง
* การบีบอัดและฝังข้อมูลพรอมต์สำคัญลงในผลลัพธ์เครื่องมือ
* การบังคับเพิ่มเครื่องหมายที่ไม่ว่างเปล่าสำหรับผลลัพธ์เครื่องมือที่ว่างเปล่า เพื่อป้องกันไม่ให้โมเดลเข้าใจผิด

การปล่อยแบบกราเดชันและการควบคุมความปลอดภัย

นอกจากนี้ โค้ดยังแสดงให้เห็นว่า Anthropic มีระบบสวิตช์กราเดชันภายในชื่อ tengu_*

Anthropic เปิดตัวเบนช์มาร์คลับ 'Mythos' อย่างเป็นทางการ คะแนนพุ่งทะลุสถิติ! เปิดเผยรายละเอียด Capybara รองรับคอนเท็กซ์ 1M โทเค็น

ซึ่งหมายความว่าการปรับปรุงทั้งหมดสำหรับ Capybara จะถูกปล่อยออกมาอย่างค่อยเป็นค่อยไปผ่านการทดสอบ A/B และติดตั้ง “สวิตช์ฆ่าตัวตาย” ที่สามารถย้อนกลับได้อย่างรวดเร็วหากเกิดความผิดปกติ ฟังก์ชันใหม่มักจะเปิดให้พนักงานภายใน (ผู้ใช้ ant/internal) ก่อน หลังจากตรวจสอบแล้วจึงปล่อยให้ผู้ใช้ภายนอก

Anthropic เปิดตัวเบนช์มาร์คลับ 'Mythos' อย่างเป็นทางการ คะแนนพุ่งทะลุสถิติ! เปิดเผยรายละเอียด Capybara รองรับคอนเท็กซ์ 1M โทเค็น

มาตรการป้องกันการครอว์ลในโค้ด

นักพัฒนาที่วิเคราะห์โค้ดที่รั่วไหลยังพบว่า Anthropic ได้ฝังกลไกป้องกันไม่ให้ข้อมูลถูกครอว์ลไปใช้ในการกลั่นโมเดลไว้ในโค้ด

มาตรการแรกคือ “การปล่อยพิษแบบสตรีม” ซึ่งเป็นการสุ่มฉีดคำสั่งเรียกใช้เครื่องมือปลอมลงในสตรีมเอาต์พุต เพื่อปนเปื้อนชุดข้อมูลที่อาจถูกครอว์ล

Anthropic เปิดตัวเบนช์มาร์คลับ 'Mythos' อย่างเป็นทางการ คะแนนพุ่งทะลุสถิติ! เปิดเผยรายละเอียด Capybara รองรับคอนเท็กซ์ 1M โทเค็น

มาตรการที่สองคือ “การทำให้ข้อมูลคลุมเครือ” ซึ่งเป็นการลดทอนขั้นตอนตรรกะโดยละเอียดของการเรียกใช้เครื่องมือให้เหลือเพียงบทสรุปที่ปลายทางเอาต์พุต เพิ่มความยากให้กับคู่แข่งในการสร้างตรรกะการทำงานของเอเจนต์ของตนขึ้นใหม่

Anthropic เปิดตัวเบนช์มาร์คลับ 'Mythos' อย่างเป็นทางการ คะแนนพุ่งทะลุสถิติ! เปิดเผยรายละเอียด Capybara รองรับคอนเท็กซ์ 1M โทเค็น

การค้นพบเหล่านี้แสดงให้เห็นว่า Anthropic ให้ความสำคัญกับรายละเอียดทางวิศวกรรมและความแข็งแกร่งของระบบควบคู่ไปกับการแสวงหาประสิทธิภาพของโมเดล จากระดับความสมบูรณ์ของโค้ดตัดสินได้ว่าโมเดลซีรีส์ Capybara อาจใกล้ถึงขั้นตอนการเปิดตัวแล้ว

การตอบสนองของ Anthropic

เมื่อเผชิญกับการรั่วไหลของซอร์สโค้ดครั้งใหญ่ครั้งนี้ Anthropic ตอบสนองค่อนข้างเงียบๆ โดยจัดการเพียงส่งคำขอลบ DMCA ไปยัง GitHub คำอธิบายอย่างเป็นทางการระบุว่าเหตุการณ์นี้เกิดจากปัญหาการแพ็คเกจที่เกิดจากความผิดพลาดของมนุษย์ หัวหน้าโครงการก็ระบุว่ามีสาเหตุมาจากความผิดพลาดของนักพัฒนาเช่นกัน

Anthropic เปิดตัวเบนช์มาร์คลับ 'Mythos' อย่างเป็นทางการ คะแนนพุ่งทะลุสถิติ! เปิดเผยรายละเอียด Capybara รองรับคอนเท็กซ์ 1M โทเค็น

มีผู้สังเกตการณ์ในอุตสาหกรรมวิเคราะห์ว่า สาเหตุที่ Anthropic ยังคงสงบนิ่ง อาจเป็นเพราะกำแพงป้องกันที่แท้จริงของบริษัทไม่ใช่เฟรมเวิร์กโค้ดเอง การทบทวนแสดงให้เห็นว่า การออกแบบเฟรมเวิร์กของ Claude Code มีทางเลือกที่คล้ายคลึงหรือดีกว่าในชุมชนโอเพ่นซอร์สแล้ว

Anthropic เปิดตัวเบนช์มาร์คลับ 'Mythos' อย่างเป็นทางการ คะแนนพุ่งทะลุสถิติ! เปิดเผยรายละเอียด Capybara รองรับคอนเท็กซ์ 1M โทเค็น

ขีดความสามารถในการแข่งขันหลักอาจอยู่ที่ความสามารถทางวิศวกรรมสถาปัตยกรรม เช่น การซ้อนพรอมต์อย่างละเอียด การผสานรวมเครื่องมืออย่างราบรื่น และกลไกการทนต่อข้อผิดพลาดและการแก้ไขตัวเองของโมเดล รายละเอียดทางวิศวกรรมที่ซับซ้อนเหล่านี้ยากที่จะได้มาผ่านการสร้างโค้ดขึ้นใหม่แบบง่ายๆ

Anthropic เปิดตัวเบนช์มาร์คลับ 'Mythos' อย่างเป็นทางการ คะแนนพุ่งทะลุสถิติ! เปิดเผยรายละเอียด Capybara รองรับคอนเท็กซ์ 1M โทเค็น

ซอร์สโค้ดสามารถถูกคัดลอกได้ แต่ความสามารถในการควบคุมระบบที่ซับซ้อนอย่างลึกซึ้ง ไม่สามารถได้มาผ่านคำสั่ง git clone แบบง่ายๆ

ความสำเร็จของโปรแกรมแก้ไข Cursor ได้พิสูจน์แล้วว่า แม้จะอิงจากโมเดลของผู้อื่น แต่ตราบใดที่สามารถทำให้ประสบการณ์ผลิตภัณฑ์และความลึกของสถาปัตยกรรมถึงขีดสุด ก็ยังสามารถสร้าง “แอปพลิเคชันที่ต้องมี” ที่นักพัฒนาไม่อาจละทิ้งได้

Anthropic เปิดตัวเบนช์มาร์คลับ 'Mythos' อย่างเป็นทางการ คะแนนพุ่งทะลุสถิติ! เปิดเผยรายละเอียด Capybara รองรับคอนเท็กซ์ 1M โทเค็น

ดังนั้น การรั่วไหลของซอร์สโค้ด Claude Code (CC) ครั้งนี้ ในสาระสำคัญคือการโยน “กล่องเครื่องมือระดับอุตสาหกรรม” ที่เดิมเป็นของเอกชนออกสู่พื้นที่เปิด ซึ่งลดอุปสรรคสำหรับทุกคนในการสร้างเอเจนต์เขียนโค้ดที่สมบูรณ์

การแข่งขันในอนาคตจะมุ่งเน้นไปที่: ใครจะสามารถสร้างอาคารผลิตภัณฑ์ที่สอดคล้องกับความต้องการของผู้ใช้มากที่สุดบนรากฐานโอเพ่นซอร์สนี้ อีกสามเดือนต่อจากนี้ ใครจะเติบโตเป็นยักษ์ใหญ่รายใหม่?

ยามวิกฤติ: “ภาพลักษณ์” ของ Anthropic เผชิญความท้าทาย?

ภาพลักษณ์ที่ Anthropic สร้างมายาวนานคือ: บริษัท AI ที่ดำเนินงานอย่างรอบคอบ มีเป้าหมายเพื่อประโยชน์ต่อมนุษยชาติ

บริษัทเผยแพร่รายงานวิจัยโดยละเอียดเกี่ยวกับความเสี่ยงของ AI อย่างต่อเนื่อง และจ้างนักวิจัยชั้นนำจำนวนมากในสาขานี้ บริษัทยังคงอภิปรายในที่สาธารณะเกี่ยวกับความรับผิดชอบที่ควรมีเมื่อพัฒนาเทคโนโลยี AI ที่ทรงพลัง

ด้วยเหตุนี้ เมื่อก่อนหน้านี้เกิดความขัดแย้งกับกระทรวงกลาโหมสหรัฐฯ Anthropic ได้รับการสนับสนุนจากทั่วทั้งอินเทอร์เน็ต

อย่างไรก็ตาม ตามรายงานของสื่อต่างประเทศเมื่อวันพฤหัสบดีที่ผ่านมา Anthropic ได้ยอมรับว่ากำลังทดสอบโมเดล AI ใหม่ที่แสดงถึงความสามารถ “วิวัฒนาการแบบก้าวกระโดด”

Anthropic เปิดตัวเบนช์มาร์คลับ 'Mythos' อย่างเป็นทางการ คะแนนพุ่งทะลุสถิติ! เปิดเผยรายละเอียด Capybara รองรับคอนเท็กซ์ 1M โทเค็น

Anthropic เปิดเผยไฟล์ภายในเกือบ 3,000 ไฟล์โดยไม่ได้ตั้งใจ ซึ่งรวมถึงร่างบล็อกที่อธิบายโมเดลดังกล่าว

Anthropic เปิดตัวเบนช์มาร์คลับ 'Mythos' อย่างเป็นทางการ คะแนนพุ่งทะลุสถิติ! เปิดเผยรายละเอียด Capybara รองรับคอนเท็กซ์ 1M โทเค็น

ต่อมา Anthropic ยืนยันเรื่องนี้:
โมเดลใหม่มีรหัสว่า “Capybara” ซึ่งแสดงให้เห็นถึงการปรับปรุงประสิทธิภาพอย่างมีนัยสำคัญในหลายมิติ เช่น วิศวกรรมซอฟต์แวร์ การให้เหตุผลทางวิชาการ และความปลอดภัยทางไซเบอร์
ปัจจุบันได้เปิดสิทธิ์การเข้าถึงให้กับกลุ่มผู้ใช้ต้นๆ จำนวนน้อยที่มุ่งเน้นการทดสอบความปลอดภัยทางไซเบอร์และการเตรียมพร้อมด้านการป้องกัน

Anthropic เปิดตัวเบนช์มาร์คลับ 'Mythos' อย่างเป็นทางการ คะแนนพุ่งทะลุสถิติ! เปิดเผยรายละเอียด Capybara รองรับคอนเท็กซ์ 1M โทเค็น

สิ่งที่น่าสังเกตคือ Anthropic ไม่ได้ป้องกันไม่ให้ไฟล์รั่วไหลอย่างต่อเนื่อง

เหตุการณ์รั่วไหลที่เกิดขึ้นต่อเนื่องกันอาจไม่ทำให้ความสามารถของโมเดลของ Anthropic อ่อนแอลงในทันที แต่ได้เริ่มสั่นคลอนสินทรัพย์ไม่มีตัวตนที่มีค่าอีกอย่างหนึ่ง: ความไว้วางใจจากภายนอกต่อการกำกับดูแลภายใน วินัยทางวิศวกรรม และเรื่องเล่า “ความปลอดภัยมาก่อน” ของบริษัท

เมื่อบริษัทที่ขึ้นชื่อเรื่องความรอบคอบ กลายเป็นจุดสนใจซ้ำๆ เนื่องจากเหตุการณ์รั่วไหล การทดสอบที่เผชิญจึงไม่ใช่เพียงจังหวะการเปิดตัวผลิตภัณฑ์อีกต่อไป แต่เป็น “ภาพลักษณ์” ที่บริษัทเองให้คุณค่ามากที่สุด

ข้อมูลอ้างอิง
– https://x.com/synthwavedd/status/2039102384241049956
– https://x.com/forloopcodes/status/2038942169311195432
– https://techcrunch.com/2026/03/31/anthropic-is-having-a-month/


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/th/archives/28325

Like (0)
Previous 7 hours ago
Next 7 hours ago

相关推荐