การประเมินตัวแทน

การประเมินโมเดลขนาดใหญ่

PinchBench เปิดตัว: การแข่งขันความสามารถ “เลี้ยงกุ้ง” ของโมเดลใหญ่ เปิดเผยระดับความสามารถจริงใน 3 มิติ – อัตราความสำเร็จ ความเร็ว และต้นทุน

เกณฑ์มาตรฐานสำหรับประเมินประสิทธิภาพของโมเดลภาษาขนาดใหญ่ในงาน “เลี้ยงกุ้ง” (OpenClaw) ชื่อ PinchBench ได้รับการเปิดตัวอย่างเป็นทางการแล้ว เกณฑ์มาตรฐานนี้ได้รับความสนใจแ…

2026年3月9日
171000
ข่าวสารอุตสาหกรรม AI

การกำหนดค่าสาธารณูปโภคพื้นฐานทำให้คะแนนการประเมิน Agent ผันผวน 6%: Anthropic เผยตัวแปรแฝงในการทดสอบมาตรฐาน

บทคัดย่อ : Anthropic พบว่าความแตกต่างในการกำหนดค่าสาธารณูปโภคพื้นฐานในการประเมิน Agent Programming สามารถทำให้คะแนนเปลี่ยนแปลงได้หลายเปอร์เซ็นต์ — บางครั้งมากกว่าช่องว่างระหว่างโมเ…

2026年2月7日
201000

การประเมินตัวแทน

การกำหนดค่าสาธารณูปโภคพื้นฐานทำให้คะแนนการประเมิน Agent ผันผวน 6%: Anthropic เผยตัวแปรแฝงในการทดสอบมาตรฐาน