ข้อมูลเบนช์มาร์ก Anthropic Mythos 疑似รั่วไหล ทำสถิติใหม่หลายรายการ
ในช่วง 24 ชั่วโมงที่ผ่านมา เกิดเหตุข้อมูลรั่วไหลต่อเนื่องในวงการ AI หลังจากซอร์สโค้ดของเครื่องมือบรรทัดคำสั่ง Claude Code ของ Anthropic รั่วไหลโดยไม่ได้ตั้งใจ ข้อมูลเบนช์มาร์กของโมเดลเรือธงรุ่นต่อไปที่คาดว่าเป็น Mythos ก็ถูกเปิดเผยเช่นกัน

จากข้อมูลที่รั่วไหลแสดงให้เห็นว่า Mythos ถูกกำหนดตำแหน่งเป็นไลน์ผลิตภัณฑ์ระดับไฮเอนด์ที่แยกออกจากซีรีส์ Claude ที่มีอยู่ในปัจจุบัน ผลการทดสอบเบนช์มาร์กเมื่อเทียบกับ Opus 4.6 เวอร์ชันปัจจุบัน มีการปรับปรุงที่โดดเด่นในหลายตัวชี้วัดสำคัญ:
- Terminal-Bench 2.0: 78.4%(เพิ่มขึ้น 13.0%)
- SWE-bench Verified: 87.4%(เพิ่มขึ้น 6.6%)
- OSWorld: 79.6%(เพิ่มขึ้น 6.9%)
- BrowseComp: 92.3%(เพิ่มขึ้น 8.3%)
- MCP Atlas: 75.7%(เพิ่มขึ้น 16.2%)
- Finance Agent: 82.1%(เพิ่มขึ้น 21.4%)
- GDPVal-AA-Elo: 2668(เพิ่มขึ้น 1062)
- Humanity‘s Last Exam: 52.3%(ไม่มีเครื่องมือ,เพิ่มขึ้น 12.3%),71.5%(มีเครื่องมือ,เพิ่มขึ้น 18.5%)

โดยเฉพาะอย่างยิ่งประสิทธิภาพในงานเขียนโค้ดของเอเจนต์นั้นโดดเด่นเป็นพิเศษ สำหรับความน่าเชื่อถือของข้อมูลที่รั่วไหล มีนักวิเคราะห์ใช้เครื่องมือตรวจจับเนื้อหา AI เพื่อตรวจสอบเบื้องต้น

ในเวลาเดียวกัน มีภาพหน้าจอผลการทดสอบเบนช์มาร์กเวอร์ชันไม่มีลายน้ำปรากฏบนอินเทอร์เน็ต

หากข้อมูลที่รั่วไหลเป็นความจริง ประสิทธิภาพของ Mythos จะก้าวกระโดดครั้งสำคัญ

รายละเอียดโมเดล “คาปิบารา” เริ่มปรากฏ
ในซอร์สโค้ดที่รั่วไหลของ Claude Code พบเบาะแสเกี่ยวกับโมเดลใหม่ที่มีรหัสว่า capybara-v2-fast

โมเดลนี้รองรับความยาวคอนเท็กซ์ 1M ซึ่งบ่งชี้ว่าคอนเท็กซ์ยาวพิเศษได้กลายเป็นมาตรฐานของโมเดลรุ่นใหม่แล้ว ตามธรรมเนียม หลังจากเวอร์ชัน “fast” อาจมีเวอร์ชันเรือธงที่ทรงพลังยิ่งกว่าถูกปล่อยออกมา



รายละเอียดทางเทคนิค: การปรับปรุง Prompt Engineering สำหรับการเรียกใช้เครื่องมือ
นักพัฒนาพบจากโค้ดว่า Anthropic ได้ทำการปรับแต่ง Prompt Engineering อย่างละเอียดสำหรับปัญหาที่อาจเกิดขึ้นกับโมเดลในสภาพแวดล้อมการผลิต ตัวอย่างเช่น เมื่อผลลัพธ์ที่ส่งคืนจากการเรียกใช้เครื่องมือมีรูปแบบคล้ายกับ “ขอบเขตรอบ” มากเกินไป โมเดลอาจตัดสินผิดพลาดว่าการสนทนาจบลง ส่งผลให้หยุดการสร้างล่วงหน้า
เพื่อแก้ไขปัญหานี้ Anthropic ไม่ได้เลือกฝึกโมเดลใหม่ แต่ทำการแก้ไขผ่านชุดของ “การผ่าตัดพรอมต์” ซึ่งรวมถึง:
* การแนะนำเครื่องหมายขอบเขตที่ชัดเจน (เช่น Tool loaded.)
* การปรับตำแหน่งใหม่ของ “โมดูลระดับเดียวกัน” ที่มีความเสี่ยง
* การบีบอัดและฝังข้อมูลพรอมต์สำคัญลงในผลลัพธ์เครื่องมือ
* การบังคับเพิ่มเครื่องหมายที่ไม่ว่างเปล่าสำหรับผลลัพธ์เครื่องมือที่ว่างเปล่า เพื่อป้องกันไม่ให้โมเดลเข้าใจผิด
การปล่อยแบบกราเดชันและการควบคุมความปลอดภัย
นอกจากนี้ โค้ดยังแสดงให้เห็นว่า Anthropic มีระบบสวิตช์กราเดชันภายในชื่อ tengu_*

ซึ่งหมายความว่าการปรับปรุงทั้งหมดสำหรับ Capybara จะถูกปล่อยออกมาอย่างค่อยเป็นค่อยไปผ่านการทดสอบ A/B และติดตั้ง “สวิตช์ฆ่าตัวตาย” ที่สามารถย้อนกลับได้อย่างรวดเร็วหากเกิดความผิดปกติ ฟังก์ชันใหม่มักจะเปิดให้พนักงานภายใน (ผู้ใช้ ant/internal) ก่อน หลังจากตรวจสอบแล้วจึงปล่อยให้ผู้ใช้ภายนอก

มาตรการป้องกันการครอว์ลในโค้ด
นักพัฒนาที่วิเคราะห์โค้ดที่รั่วไหลยังพบว่า Anthropic ได้ฝังกลไกป้องกันไม่ให้ข้อมูลถูกครอว์ลไปใช้ในการกลั่นโมเดลไว้ในโค้ด
มาตรการแรกคือ “การปล่อยพิษแบบสตรีม” ซึ่งเป็นการสุ่มฉีดคำสั่งเรียกใช้เครื่องมือปลอมลงในสตรีมเอาต์พุต เพื่อปนเปื้อนชุดข้อมูลที่อาจถูกครอว์ล

มาตรการที่สองคือ “การทำให้ข้อมูลคลุมเครือ” ซึ่งเป็นการลดทอนขั้นตอนตรรกะโดยละเอียดของการเรียกใช้เครื่องมือให้เหลือเพียงบทสรุปที่ปลายทางเอาต์พุต เพิ่มความยากให้กับคู่แข่งในการสร้างตรรกะการทำงานของเอเจนต์ของตนขึ้นใหม่

การค้นพบเหล่านี้แสดงให้เห็นว่า Anthropic ให้ความสำคัญกับรายละเอียดทางวิศวกรรมและความแข็งแกร่งของระบบควบคู่ไปกับการแสวงหาประสิทธิภาพของโมเดล จากระดับความสมบูรณ์ของโค้ดตัดสินได้ว่าโมเดลซีรีส์ Capybara อาจใกล้ถึงขั้นตอนการเปิดตัวแล้ว
การตอบสนองของ Anthropic
เมื่อเผชิญกับการรั่วไหลของซอร์สโค้ดครั้งใหญ่ครั้งนี้ Anthropic ตอบสนองค่อนข้างเงียบๆ โดยจัดการเพียงส่งคำขอลบ DMCA ไปยัง GitHub คำอธิบายอย่างเป็นทางการระบุว่าเหตุการณ์นี้เกิดจากปัญหาการแพ็คเกจที่เกิดจากความผิดพลาดของมนุษย์ หัวหน้าโครงการก็ระบุว่ามีสาเหตุมาจากความผิดพลาดของนักพัฒนาเช่นกัน

มีผู้สังเกตการณ์ในอุตสาหกรรมวิเคราะห์ว่า สาเหตุที่ Anthropic ยังคงสงบนิ่ง อาจเป็นเพราะกำแพงป้องกันที่แท้จริงของบริษัทไม่ใช่เฟรมเวิร์กโค้ดเอง การทบทวนแสดงให้เห็นว่า การออกแบบเฟรมเวิร์กของ Claude Code มีทางเลือกที่คล้ายคลึงหรือดีกว่าในชุมชนโอเพ่นซอร์สแล้ว

ขีดความสามารถในการแข่งขันหลักอาจอยู่ที่ความสามารถทางวิศวกรรมสถาปัตยกรรม เช่น การซ้อนพรอมต์อย่างละเอียด การผสานรวมเครื่องมืออย่างราบรื่น และกลไกการทนต่อข้อผิดพลาดและการแก้ไขตัวเองของโมเดล รายละเอียดทางวิศวกรรมที่ซับซ้อนเหล่านี้ยากที่จะได้มาผ่านการสร้างโค้ดขึ้นใหม่แบบง่ายๆ

ซอร์สโค้ดสามารถถูกคัดลอกได้ แต่ความสามารถในการควบคุมระบบที่ซับซ้อนอย่างลึกซึ้ง ไม่สามารถได้มาผ่านคำสั่ง git clone แบบง่ายๆ
ความสำเร็จของโปรแกรมแก้ไข Cursor ได้พิสูจน์แล้วว่า แม้จะอิงจากโมเดลของผู้อื่น แต่ตราบใดที่สามารถทำให้ประสบการณ์ผลิตภัณฑ์และความลึกของสถาปัตยกรรมถึงขีดสุด ก็ยังสามารถสร้าง “แอปพลิเคชันที่ต้องมี” ที่นักพัฒนาไม่อาจละทิ้งได้

ดังนั้น การรั่วไหลของซอร์สโค้ด Claude Code (CC) ครั้งนี้ ในสาระสำคัญคือการโยน “กล่องเครื่องมือระดับอุตสาหกรรม” ที่เดิมเป็นของเอกชนออกสู่พื้นที่เปิด ซึ่งลดอุปสรรคสำหรับทุกคนในการสร้างเอเจนต์เขียนโค้ดที่สมบูรณ์
การแข่งขันในอนาคตจะมุ่งเน้นไปที่: ใครจะสามารถสร้างอาคารผลิตภัณฑ์ที่สอดคล้องกับความต้องการของผู้ใช้มากที่สุดบนรากฐานโอเพ่นซอร์สนี้ อีกสามเดือนต่อจากนี้ ใครจะเติบโตเป็นยักษ์ใหญ่รายใหม่?
ยามวิกฤติ: “ภาพลักษณ์” ของ Anthropic เผชิญความท้าทาย?
ภาพลักษณ์ที่ Anthropic สร้างมายาวนานคือ: บริษัท AI ที่ดำเนินงานอย่างรอบคอบ มีเป้าหมายเพื่อประโยชน์ต่อมนุษยชาติ
บริษัทเผยแพร่รายงานวิจัยโดยละเอียดเกี่ยวกับความเสี่ยงของ AI อย่างต่อเนื่อง และจ้างนักวิจัยชั้นนำจำนวนมากในสาขานี้ บริษัทยังคงอภิปรายในที่สาธารณะเกี่ยวกับความรับผิดชอบที่ควรมีเมื่อพัฒนาเทคโนโลยี AI ที่ทรงพลัง
ด้วยเหตุนี้ เมื่อก่อนหน้านี้เกิดความขัดแย้งกับกระทรวงกลาโหมสหรัฐฯ Anthropic ได้รับการสนับสนุนจากทั่วทั้งอินเทอร์เน็ต
อย่างไรก็ตาม ตามรายงานของสื่อต่างประเทศเมื่อวันพฤหัสบดีที่ผ่านมา Anthropic ได้ยอมรับว่ากำลังทดสอบโมเดล AI ใหม่ที่แสดงถึงความสามารถ “วิวัฒนาการแบบก้าวกระโดด”

Anthropic เปิดเผยไฟล์ภายในเกือบ 3,000 ไฟล์โดยไม่ได้ตั้งใจ ซึ่งรวมถึงร่างบล็อกที่อธิบายโมเดลดังกล่าว

ต่อมา Anthropic ยืนยันเรื่องนี้:
โมเดลใหม่มีรหัสว่า “Capybara” ซึ่งแสดงให้เห็นถึงการปรับปรุงประสิทธิภาพอย่างมีนัยสำคัญในหลายมิติ เช่น วิศวกรรมซอฟต์แวร์ การให้เหตุผลทางวิชาการ และความปลอดภัยทางไซเบอร์
ปัจจุบันได้เปิดสิทธิ์การเข้าถึงให้กับกลุ่มผู้ใช้ต้นๆ จำนวนน้อยที่มุ่งเน้นการทดสอบความปลอดภัยทางไซเบอร์และการเตรียมพร้อมด้านการป้องกัน

สิ่งที่น่าสังเกตคือ Anthropic ไม่ได้ป้องกันไม่ให้ไฟล์รั่วไหลอย่างต่อเนื่อง
เหตุการณ์รั่วไหลที่เกิดขึ้นต่อเนื่องกันอาจไม่ทำให้ความสามารถของโมเดลของ Anthropic อ่อนแอลงในทันที แต่ได้เริ่มสั่นคลอนสินทรัพย์ไม่มีตัวตนที่มีค่าอีกอย่างหนึ่ง: ความไว้วางใจจากภายนอกต่อการกำกับดูแลภายใน วินัยทางวิศวกรรม และเรื่องเล่า “ความปลอดภัยมาก่อน” ของบริษัท
เมื่อบริษัทที่ขึ้นชื่อเรื่องความรอบคอบ กลายเป็นจุดสนใจซ้ำๆ เนื่องจากเหตุการณ์รั่วไหล การทดสอบที่เผชิญจึงไม่ใช่เพียงจังหวะการเปิดตัวผลิตภัณฑ์อีกต่อไป แต่เป็น “ภาพลักษณ์” ที่บริษัทเองให้คุณค่ามากที่สุด
ข้อมูลอ้างอิง
– https://x.com/synthwavedd/status/2039102384241049956
– https://x.com/forloopcodes/status/2038942169311195432
– https://techcrunch.com/2026/03/31/anthropic-is-having-a-month/
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/th/archives/28325
