Anthropic เปิดตัวเบนช์มาร์คลับ ‘Mythos’ อย่างเป็นทางการ คะแนนพุ่งทะลุสถิติ! เปิดเผยรายละเอียด Capybara รองรับคอนเท็กซ์ 1M โทเค็น

7 hours ago • ข่าวสารอุตสาหกรรม AI • 11 views

ข้อมูลเบนช์มาร์ก Anthropic Mythos 疑似รั่วไหล ทำสถิติใหม่หลายรายการ

ในช่วง 24 ชั่วโมงที่ผ่านมา เกิดเหตุข้อมูลรั่วไหลต่อเนื่องในวงการ AI หลังจากซอร์สโค้ดของเครื่องมือบรรทัดคำสั่ง Claude Code ของ Anthropic รั่วไหลโดยไม่ได้ตั้งใจ ข้อมูลเบนช์มาร์กของโมเดลเรือธงรุ่นต่อไปที่คาดว่าเป็น Mythos ก็ถูกเปิดเผยเช่นกัน

Anthropic เปิดตัวเบนช์มาร์คลับ 'Mythos' อย่างเป็นทางการ คะแนนพุ่งทะลุสถิติ! เปิดเผยรายละเอียด Capybara รองรับคอนเท็กซ์ 1M โทเค็น

จากข้อมูลที่รั่วไหลแสดงให้เห็นว่า Mythos ถูกกำหนดตำแหน่งเป็นไลน์ผลิตภัณฑ์ระดับไฮเอนด์ที่แยกออกจากซีรีส์ Claude ที่มีอยู่ในปัจจุบัน ผลการทดสอบเบนช์มาร์กเมื่อเทียบกับ Opus 4.6 เวอร์ชันปัจจุบัน มีการปรับปรุงที่โดดเด่นในหลายตัวชี้วัดสำคัญ:

Terminal-Bench 2.0： 78.4%（เพิ่มขึ้น 13.0%）
SWE-bench Verified： 87.4%（เพิ่มขึ้น 6.6%）
OSWorld： 79.6%（เพิ่มขึ้น 6.9%）
BrowseComp： 92.3%（เพิ่มขึ้น 8.3%）
MCP Atlas： 75.7%（เพิ่มขึ้น 16.2%）
Finance Agent： 82.1%（เพิ่มขึ้น 21.4%）
GDPVal-AA-Elo： 2668（เพิ่มขึ้น 1062）
Humanity‘s Last Exam： 52.3%（ไม่มีเครื่องมือ，เพิ่มขึ้น 12.3%），71.5%（มีเครื่องมือ，เพิ่มขึ้น 18.5%）

โดยเฉพาะอย่างยิ่งประสิทธิภาพในงานเขียนโค้ดของเอเจนต์นั้นโดดเด่นเป็นพิเศษ สำหรับความน่าเชื่อถือของข้อมูลที่รั่วไหล มีนักวิเคราะห์ใช้เครื่องมือตรวจจับเนื้อหา AI เพื่อตรวจสอบเบื้องต้น

ในเวลาเดียวกัน มีภาพหน้าจอผลการทดสอบเบนช์มาร์กเวอร์ชันไม่มีลายน้ำปรากฏบนอินเทอร์เน็ต

หากข้อมูลที่รั่วไหลเป็นความจริง ประสิทธิภาพของ Mythos จะก้าวกระโดดครั้งสำคัญ

รายละเอียดโมเดล “คาปิบารา” เริ่มปรากฏ

ในซอร์สโค้ดที่รั่วไหลของ Claude Code พบเบาะแสเกี่ยวกับโมเดลใหม่ที่มีรหัสว่า capybara-v2-fast

โมเดลนี้รองรับความยาวคอนเท็กซ์ 1M ซึ่งบ่งชี้ว่าคอนเท็กซ์ยาวพิเศษได้กลายเป็นมาตรฐานของโมเดลรุ่นใหม่แล้ว ตามธรรมเนียม หลังจากเวอร์ชัน “fast” อาจมีเวอร์ชันเรือธงที่ทรงพลังยิ่งกว่าถูกปล่อยออกมา

รายละเอียดทางเทคนิค: การปรับปรุง Prompt Engineering สำหรับการเรียกใช้เครื่องมือ

นักพัฒนาพบจากโค้ดว่า Anthropic ได้ทำการปรับแต่ง Prompt Engineering อย่างละเอียดสำหรับปัญหาที่อาจเกิดขึ้นกับโมเดลในสภาพแวดล้อมการผลิต ตัวอย่างเช่น เมื่อผลลัพธ์ที่ส่งคืนจากการเรียกใช้เครื่องมือมีรูปแบบคล้ายกับ “ขอบเขตรอบ” มากเกินไป โมเดลอาจตัดสินผิดพลาดว่าการสนทนาจบลง ส่งผลให้หยุดการสร้างล่วงหน้า

เพื่อแก้ไขปัญหานี้ Anthropic ไม่ได้เลือกฝึกโมเดลใหม่ แต่ทำการแก้ไขผ่านชุดของ “การผ่าตัดพรอมต์” ซึ่งรวมถึง:
* การแนะนำเครื่องหมายขอบเขตที่ชัดเจน (เช่น Tool loaded.)
* การปรับตำแหน่งใหม่ของ “โมดูลระดับเดียวกัน” ที่มีความเสี่ยง
* การบีบอัดและฝังข้อมูลพรอมต์สำคัญลงในผลลัพธ์เครื่องมือ
* การบังคับเพิ่มเครื่องหมายที่ไม่ว่างเปล่าสำหรับผลลัพธ์เครื่องมือที่ว่างเปล่า เพื่อป้องกันไม่ให้โมเดลเข้าใจผิด

การปล่อยแบบกราเดชันและการควบคุมความปลอดภัย

นอกจากนี้ โค้ดยังแสดงให้เห็นว่า Anthropic มีระบบสวิตช์กราเดชันภายในชื่อ tengu_*

ซึ่งหมายความว่าการปรับปรุงทั้งหมดสำหรับ Capybara จะถูกปล่อยออกมาอย่างค่อยเป็นค่อยไปผ่านการทดสอบ A/B และติดตั้ง “สวิตช์ฆ่าตัวตาย” ที่สามารถย้อนกลับได้อย่างรวดเร็วหากเกิดความผิดปกติ ฟังก์ชันใหม่มักจะเปิดให้พนักงานภายใน (ผู้ใช้ ant/internal) ก่อน หลังจากตรวจสอบแล้วจึงปล่อยให้ผู้ใช้ภายนอก

มาตรการป้องกันการครอว์ลในโค้ด

นักพัฒนาที่วิเคราะห์โค้ดที่รั่วไหลยังพบว่า Anthropic ได้ฝังกลไกป้องกันไม่ให้ข้อมูลถูกครอว์ลไปใช้ในการกลั่นโมเดลไว้ในโค้ด

มาตรการแรกคือ “การปล่อยพิษแบบสตรีม” ซึ่งเป็นการสุ่มฉีดคำสั่งเรียกใช้เครื่องมือปลอมลงในสตรีมเอาต์พุต เพื่อปนเปื้อนชุดข้อมูลที่อาจถูกครอว์ล

มาตรการที่สองคือ “การทำให้ข้อมูลคลุมเครือ” ซึ่งเป็นการลดทอนขั้นตอนตรรกะโดยละเอียดของการเรียกใช้เครื่องมือให้เหลือเพียงบทสรุปที่ปลายทางเอาต์พุต เพิ่มความยากให้กับคู่แข่งในการสร้างตรรกะการทำงานของเอเจนต์ของตนขึ้นใหม่

การค้นพบเหล่านี้แสดงให้เห็นว่า Anthropic ให้ความสำคัญกับรายละเอียดทางวิศวกรรมและความแข็งแกร่งของระบบควบคู่ไปกับการแสวงหาประสิทธิภาพของโมเดล จากระดับความสมบูรณ์ของโค้ดตัดสินได้ว่าโมเดลซีรีส์ Capybara อาจใกล้ถึงขั้นตอนการเปิดตัวแล้ว

การตอบสนองของ Anthropic

เมื่อเผชิญกับการรั่วไหลของซอร์สโค้ดครั้งใหญ่ครั้งนี้ Anthropic ตอบสนองค่อนข้างเงียบๆ โดยจัดการเพียงส่งคำขอลบ DMCA ไปยัง GitHub คำอธิบายอย่างเป็นทางการระบุว่าเหตุการณ์นี้เกิดจากปัญหาการแพ็คเกจที่เกิดจากความผิดพลาดของมนุษย์ หัวหน้าโครงการก็ระบุว่ามีสาเหตุมาจากความผิดพลาดของนักพัฒนาเช่นกัน

มีผู้สังเกตการณ์ในอุตสาหกรรมวิเคราะห์ว่า สาเหตุที่ Anthropic ยังคงสงบนิ่ง อาจเป็นเพราะกำแพงป้องกันที่แท้จริงของบริษัทไม่ใช่เฟรมเวิร์กโค้ดเอง การทบทวนแสดงให้เห็นว่า การออกแบบเฟรมเวิร์กของ Claude Code มีทางเลือกที่คล้ายคลึงหรือดีกว่าในชุมชนโอเพ่นซอร์สแล้ว

ขีดความสามารถในการแข่งขันหลักอาจอยู่ที่ความสามารถทางวิศวกรรมสถาปัตยกรรม เช่น การซ้อนพรอมต์อย่างละเอียด การผสานรวมเครื่องมืออย่างราบรื่น และกลไกการทนต่อข้อผิดพลาดและการแก้ไขตัวเองของโมเดล รายละเอียดทางวิศวกรรมที่ซับซ้อนเหล่านี้ยากที่จะได้มาผ่านการสร้างโค้ดขึ้นใหม่แบบง่ายๆ

ซอร์สโค้ดสามารถถูกคัดลอกได้ แต่ความสามารถในการควบคุมระบบที่ซับซ้อนอย่างลึกซึ้ง ไม่สามารถได้มาผ่านคำสั่ง git clone แบบง่ายๆ

ความสำเร็จของโปรแกรมแก้ไข Cursor ได้พิสูจน์แล้วว่า แม้จะอิงจากโมเดลของผู้อื่น แต่ตราบใดที่สามารถทำให้ประสบการณ์ผลิตภัณฑ์และความลึกของสถาปัตยกรรมถึงขีดสุด ก็ยังสามารถสร้าง “แอปพลิเคชันที่ต้องมี” ที่นักพัฒนาไม่อาจละทิ้งได้

ดังนั้น การรั่วไหลของซอร์สโค้ด Claude Code (CC) ครั้งนี้ ในสาระสำคัญคือการโยน “กล่องเครื่องมือระดับอุตสาหกรรม” ที่เดิมเป็นของเอกชนออกสู่พื้นที่เปิด ซึ่งลดอุปสรรคสำหรับทุกคนในการสร้างเอเจนต์เขียนโค้ดที่สมบูรณ์

การแข่งขันในอนาคตจะมุ่งเน้นไปที่: ใครจะสามารถสร้างอาคารผลิตภัณฑ์ที่สอดคล้องกับความต้องการของผู้ใช้มากที่สุดบนรากฐานโอเพ่นซอร์สนี้ อีกสามเดือนต่อจากนี้ ใครจะเติบโตเป็นยักษ์ใหญ่รายใหม่?

ยามวิกฤติ: “ภาพลักษณ์” ของ Anthropic เผชิญความท้าทาย?

ภาพลักษณ์ที่ Anthropic สร้างมายาวนานคือ: บริษัท AI ที่ดำเนินงานอย่างรอบคอบ มีเป้าหมายเพื่อประโยชน์ต่อมนุษยชาติ

บริษัทเผยแพร่รายงานวิจัยโดยละเอียดเกี่ยวกับความเสี่ยงของ AI อย่างต่อเนื่อง และจ้างนักวิจัยชั้นนำจำนวนมากในสาขานี้ บริษัทยังคงอภิปรายในที่สาธารณะเกี่ยวกับความรับผิดชอบที่ควรมีเมื่อพัฒนาเทคโนโลยี AI ที่ทรงพลัง

ด้วยเหตุนี้ เมื่อก่อนหน้านี้เกิดความขัดแย้งกับกระทรวงกลาโหมสหรัฐฯ Anthropic ได้รับการสนับสนุนจากทั่วทั้งอินเทอร์เน็ต

อย่างไรก็ตาม ตามรายงานของสื่อต่างประเทศเมื่อวันพฤหัสบดีที่ผ่านมา Anthropic ได้ยอมรับว่ากำลังทดสอบโมเดล AI ใหม่ที่แสดงถึงความสามารถ “วิวัฒนาการแบบก้าวกระโดด”

Anthropic เปิดเผยไฟล์ภายในเกือบ 3,000 ไฟล์โดยไม่ได้ตั้งใจ ซึ่งรวมถึงร่างบล็อกที่อธิบายโมเดลดังกล่าว

ต่อมา Anthropic ยืนยันเรื่องนี้:
โมเดลใหม่มีรหัสว่า “Capybara” ซึ่งแสดงให้เห็นถึงการปรับปรุงประสิทธิภาพอย่างมีนัยสำคัญในหลายมิติ เช่น วิศวกรรมซอฟต์แวร์ การให้เหตุผลทางวิชาการ และความปลอดภัยทางไซเบอร์
ปัจจุบันได้เปิดสิทธิ์การเข้าถึงให้กับกลุ่มผู้ใช้ต้นๆ จำนวนน้อยที่มุ่งเน้นการทดสอบความปลอดภัยทางไซเบอร์และการเตรียมพร้อมด้านการป้องกัน

สิ่งที่น่าสังเกตคือ Anthropic ไม่ได้ป้องกันไม่ให้ไฟล์รั่วไหลอย่างต่อเนื่อง

เหตุการณ์รั่วไหลที่เกิดขึ้นต่อเนื่องกันอาจไม่ทำให้ความสามารถของโมเดลของ Anthropic อ่อนแอลงในทันที แต่ได้เริ่มสั่นคลอนสินทรัพย์ไม่มีตัวตนที่มีค่าอีกอย่างหนึ่ง: ความไว้วางใจจากภายนอกต่อการกำกับดูแลภายใน วินัยทางวิศวกรรม และเรื่องเล่า “ความปลอดภัยมาก่อน” ของบริษัท

เมื่อบริษัทที่ขึ้นชื่อเรื่องความรอบคอบ กลายเป็นจุดสนใจซ้ำๆ เนื่องจากเหตุการณ์รั่วไหล การทดสอบที่เผชิญจึงไม่ใช่เพียงจังหวะการเปิดตัวผลิตภัณฑ์อีกต่อไป แต่เป็น “ภาพลักษณ์” ที่บริษัทเองให้คุณค่ามากที่สุด

ข้อมูลอ้างอิง
– https://x.com/synthwavedd/status/2039102384241049956
– https://x.com/forloopcodes/status/2038942169311195432
– https://techcrunch.com/2026/03/31/anthropic-is-having-a-month/

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/th/archives/28325

Like (0)

0 0

Anthropic ลบ GitHub Repository 8,100 รายการโดยไม่ได้ตั้งใจ! ซอร์สโค้ด Claude Code จำนวน 510,000 บรรทัดรั่วไหลสู่สาธารณะ โดย 8,000 รายการเป็น “การลบผิดพลาด”

Previous 7 hours ago

GLM-5.1-Turbo การทดสอบจริง: โมเดลอันดับหนึ่งโอเพ่นซอร์สพัฒนาแอปพลิเคชันสมบูรณ์ใน 1 ชั่วโมงและประมวลผลข้อมูล 100,000 รายการได้อย่างไร

Next 7 hours ago

ข่าวสารอุตสาหกรรม AI

MiniCPM-o 4.5: โมเดลโอเพนซอร์สพารามิเตอร์ 9B รองรับทุกโหมด ทางเลือกแทน GPT-4o บนอุปกรณ์ปลายทาง

MiniCPM-o 4.5: โมเดลโอเพ่นซอร์สออลโมดัลขนาด 9B พารามิเตอร์ ทางเลือกแทน GPT-4o บนอุปกรณ์ปลายทาง MiniCPM-o 4.5 เป็นโมเดลเรือธงออลโมดัลรุ่นใหม่ที่เปิดตัวโดย OpenBMB ของ Mianbi AI โดยม…

2026年2月13日
186000
ข่าวสารอุตสาหกรรม AI

การปฏิวัติการเขียนโปรแกรม AI บนมือถือ: โครงการโอเพนซอร์ส OpenCode Manager ช่วยจัดการโค้ดและทำงานร่วมกับ AI บนสมาร์ทโฟน

ปีม้ามงคล อยากสัมผัสความสนุกในการเขียนโค้ดระหว่างเดินทางทำอย่างไรดี? มีนักพัฒนาซอฟต์แวร์ได้เปิดตัวโครงการ OpenCode Manager ซึ่งเป็นเว็บอินเทอร์เฟซที่ออกแบบมาสำหรับอุปกรณ์เคลื่อนที่…

2026年2月17日
200000
ข่าวสารอุตสาหกรรม AI

ปริมาณการเรียกใช้โมเดลภาษาขนาดใหญ่ของจีนพุ่งสูงถึง 4.19 ล้านล้านโทเค็นต่อสัปดาห์ ครองอันดับหนึ่งของโลกอีกครั้ง

จากข้อมูลล่าสุดของ OpenRouter ในสัปดาห์ระหว่างวันที่ 2 ถึง 8 มีนาคม ปริมาณการเรียกใช้โมเดลภาษาขนาดใหญ่ของจีนในสัปดาห์นั้นพุ่งสูงถึง 4.19 ล้านล้านโทเค็น เพิ่มขึ้น 34.9% จากสัปดาห์ก่…

2026年3月11日
118000
ข่าวสารอุตสาหกรรม AI

อัปเกรดสถาปัตยกรรมอัลกอริทึม Huawei MindScale: Agent อุตสาหกรรมบรรลุการวิวัฒนาการเวิร์กโฟลว์อัตโนมัติและคำสั่งอัตโนมัติ, การเพิ่มประสิทธิภาพ KV Cache เพิ่มประสิทธิภาพ 5.7 เท่า

อัปเกรดสถาปัตยกรรมอัลกอริทึม Huawei MindScale: เอเจนต์อุตสาหกรรมบรรลุการวิวัฒนาการด้วยตนเองของเวิร์กโฟลว์และระบบอัตโนมัติของพรอมต์ พร้อมการเพิ่มประสิทธิภาพ KV Cache ที่เพิ่มประสิทธ…

2026年2月12日
157000
ข่าวสารอุตสาหกรรม AI

อาลีเปิดตัว Zvec: ฐานข้อมูลเวกเตอร์ต้อนรับการปฏิวัติแบบเบา AI เข้าสู่ยุคใหม่ของการพัฒนาแอปพลิเคชัน

อาลีบาบาเปิดตัวฐานข้อมูลเวกเตอร์ Zvec เป็นโอเพนซอร์ส สำหรับผู้อ่านที่ไม่คุ้นเคยกับฐานข้อมูลเวกเตอร์ อธิบายง่ายๆ คือ มันถูกออกแบบมาเพื่อจัดเก็บและค้นหาข้อมูลเวกเตอร์โดยเฉพาะ มักใช้ใ…

2026年2月23日
282000

ข้อมูลเบนช์มาร์ก Anthropic Mythos 疑似รั่วไหล ทำสถิติใหม่หลายรายการ

รายละเอียดโมเดล “คาปิบารา” เริ่มปรากฏ

มาตรการป้องกันการครอว์ลในโค้ด

การตอบสนองของ Anthropic

☕ สนับสนุนค่ากาแฟทีมงาน

相关推荐

MiniCPM-o 4.5: โมเดลโอเพนซอร์สพารามิเตอร์ 9B รองรับทุกโหมด ทางเลือกแทน GPT-4o บนอุปกรณ์ปลายทาง

การปฏิวัติการเขียนโปรแกรม AI บนมือถือ: โครงการโอเพนซอร์ส OpenCode Manager ช่วยจัดการโค้ดและทำงานร่วมกับ AI บนสมาร์ทโฟน

อาลีเปิดตัว Zvec: ฐานข้อมูลเวกเตอร์ต้อนรับการปฏิวัติแบบเบา AI เข้าสู่ยุคใหม่ของการพัฒนาแอปพลิเคชัน