Anthropic เปิดตัวเฟรมเวิร์คประเมินทักษะ: ทดสอบและปรับปรุงทักษะ Claude ได้โดยไม่ต้องเขียนโค้ด

2026年3月6日 pm6:32 • การประเมินโมเดลขนาดใหญ่ • 174 views

Anthropic เพิ่งเปิดตัวเฟรมเวิร์กการประเมินใหม่สำหรับเครื่องมือ Skill Creator ตั้งแต่เดือนตุลาคมปีที่แล้ว พวกเขาสังเกตว่าผู้สร้างสกิลส่วนใหญ่เป็นผู้เชี่ยวชาญทางธุรกิจมากกว่าวิศวกร พวกเขาคุ้นเคยกับเวิร์กโฟลว์ของตนเอง แต่ขาดเครื่องมือที่มีประสิทธิภาพในการประเมินว่าสกิลนั้นมีประสิทธิภาพจริงหรือไม่ ถูกเรียกใช้ในเวลาที่เหมาะสมหรือไม่ และการแก้ไขนั้นนำมาซึ่งการปรับปรุงจริงหรือไม่

เฟรมเวิร์กการประเมินใหม่นี้มีเป้าหมายเพื่อแก้ไขปัญหาดังกล่าว โดยนำความเข้มงวดจากการพัฒนาซอฟต์แวร์—ซึ่งรวมถึงการทดสอบ การทดสอบมาตรฐาน และการปรับปรุงแบบวนซ้ำ—เข้ามาสู่กระบวนการพัฒนาสกิล โดยไม่จำเป็นต้องเขียนโค้ดเลย

Anthropic เปิดตัวเฟรมเวิร์คประเมินทักษะ: ทดสอบและปรับปรุงทักษะ Claude ได้โดยไม่ต้องเขียนโค้ด

สกิลสองประเภท ความต้องการทดสอบที่แตกต่าง

สกิลสามารถแบ่งออกเป็นสองประเภทหลัก:

สกิลเสริมความสามารถ: สกิลประเภทนี้ช่วยให้ Claude ดำเนินงานที่โมเดลพื้นฐานไม่สามารถทำได้หรือทำได้ไม่ดี ตัวอย่างเช่น สกิลการสร้างเอกสารของ Anthropic ซึ่งเข้ารหัสเทคนิคและรูปแบบเฉพาะ มีประสิทธิภาพเหนือกว่าการใช้พรอมต์ง่ายๆ

สกิลเข้ารหัสความชอบ: สกิลประเภทนี้ใช้สำหรับบันทึกเวิร์กโฟลว์เฉพาะ Claude สามารถดำเนินการแต่ละขั้นตอนในกระบวนการได้ด้วยตัวเอง แต่สกิลจะเชื่อมโยงขั้นตอนเหล่านั้นตามวิธีที่ทีมต้องการ ตัวอย่างเช่น สกิลสำหรับตรวจสอบ NDA ตามมาตรฐานเฉพาะ หรือสกิลสำหรับสรุปและสร้างรายงานประจำสัปดาห์จากแหล่งข้อมูลหลายแห่ง

การแยกแยะระหว่างสกิลสองประเภทนี้มีความสำคัญ เนื่องจากเหตุผลที่ต้องทดสอบนั้นแตกต่างกัน:
* สกิลเสริมความสามารถ อาจไม่จำเป็นอีกต่อไปเมื่อโมเดลพื้นฐานได้รับการปรับปรุง การประเมินสามารถช่วยระบุได้ว่าเหตุการณ์นี้เกิดขึ้นเมื่อใด
* สกิลเข้ารหัสความชอบ มีวงจรชีวิตที่ยาวนานกว่า แต่คุณค่าของมันขึ้นอยู่กับความแม่นยำในการสะท้อนเวิร์กโฟลว์จริง การประเมินสามารถตรวจสอบความเที่ยงตรงนี้ได้

ใช้การประเมินเพื่อทดสอบและปรับปรุงสกิล

Skill Creator ตอนนี้สามารถช่วยผู้ใช้สร้างการประเมินได้ การประเมินคือการทดสอบเพื่อตรวจสอบว่า Claude ให้การตอบสนองตามที่คาดหวังสำหรับพรอมต์ที่กำหนดหรือไม่ หากคุณคุ้นเคยกับการทดสอบซอฟต์แวร์ แนวคิดนี้จะเข้าใจได้ง่าย: กำหนดชุดของพรอมต์ทดสอบ (แนบไฟล์หากจำเป็น) และอธิบายว่าผลลัพธ์ที่ดีคืออะไร Skill Creator จะประเมินว่าสกิลผ่านเกณฑ์หรือไม่

ยกตัวอย่างสกิลสำหรับประมวลผล PDF สกิลนี้เคยเผชิญกับความท้าทายในการจัดการกับฟอร์มที่ไม่สามารถกรอกได้ Claude จำเป็นต้องวางข้อความบนพิกัดที่แม่นยำโดยไม่มีฟิลด์ที่กำหนดไว้ล่วงหน้าเป็นแนวทาง การประเมินช่วยระบุปัญหานี้ และการแก้ไขที่ปล่อยออกมาภายหลังได้แก้ไขปัญหาโดยการยึดตำแหน่งกับพิกัดข้อความที่ดึงมา

การประเมินมีประโยชน์หลักสองประการ: จับการถดถอยของคุณภาพ และทำความเข้าใจความก้าวหน้าของโมเดล

อย่างแรกคือ การจับการถดถอยของคุณภาพ ขณะที่โมเดลและโครงสร้างพื้นฐานรอบข้างพัฒนาขึ้น สกิลที่ทำงานได้ดีในเดือนที่แล้วอาจทำงานแตกต่างออกไปในสภาพแวดล้อมปัจจุบัน การรันการประเมินบนโมเดลใหม่สามารถให้การเตือนล่วงหน้าก่อนที่ปัญหาจะส่งผลกระทบต่อการทำงานของทีม

อย่างที่สองคือ การตัดสินว่าโมเดลทั่วไปมีความสามารถเกินกว่าสกิลของคุณแล้วหรือไม่ สิ่งนี้ใช้ได้กับสกิลเสริมความ能力เป็นหลัก หากโมเดลพื้นฐานสามารถผ่านการประเมินของคุณได้โดยไม่โหลดสกิล นี่อาจหมายความว่าเทคนิคที่สกิลห่อหุ้มไว้ถูกรวมเข้ากับความสามารถพื้นฐานของโมเดลแล้ว สกิลเองไม่ได้ล้มเหลว เพียงแต่กลายเป็นสิ่งที่ไม่จำเป็น

เวอร์ชันใหม่ยังแนะนำ โหมดมาตรฐาน ซึ่งอนุญาตให้รันการประเมินมาตรฐานโดยใช้ชุดการประเมินของคุณ คุณสามารถรันการทดสอบมาตรฐานได้หลังจากอัปเดตโมเดลหรือเมื่อทำการวนซ้ำปรับปรุงสกิลเอง โหมดนี้จะติดตามเมตริกต่างๆ เช่น อัตราการผ่านการประเมิน เวลาที่ใช้ และปริมาณโทเค็นที่ใช้

การประเมินทั้งหมดและผลลัพธ์เป็นของผู้ใช้ สามารถจัดเก็บในเครื่อง บูรณาการเข้ากับแดชบอร์ด หรือแทรกเข้าไปในระบบ Continuous Integration (CI)

การสนับสนุนหลายเอเจนต์: การประเมินที่เร็วขึ้นและแม่นยำขึ้น

การรันการประเมินแบบเรียงลำดับอาจช้า และคอนเท็กซ์ที่สะสมอาจรบกวนระหว่างการรันทดสอบหลายครั้ง Skill Creator ตอนนี้ใช้ การสนับสนุนหลายเอเจนต์ เพื่อเปิดตัวเอเจนต์อิสระสำหรับรันการประเมินแบบขนานกัน โดยแต่ละเอเจนต์มีสภาพแวดล้อมคอนเท็กซ์ที่สะอาดและมีเมตริกโทเค็นและเวลาอิสระของตัวเอง นี่ไม่เพียงเร่งความเร็วในการประเมิน แต่ยังหลีกเลี่ยงการปนเปื้อนข้ามกัน

นอกจากนี้ เอเจนต์ตัวเปรียบเทียบ ที่เพิ่มเข้ามายังสนับสนุนการเปรียบเทียบแบบ A/B testing: ตัวอย่างเช่น เปรียบเทียบสองเวอร์ชันของสกิลเดียวกัน หรือเปรียบเทียบผลลัพธ์ระหว่างการใช้สกิลกับไม่ใช้สกิล ตัวเปรียบเทียบจะประเมินผลลัพธ์โดยไม่รู้ข้อมูล ซึ่งช่วยตัดสินว่าการแก้ไขนั้นนำมาซึ่งการปรับปรุงจริงหรือไม่

ทำให้แน่ใจว่าสกิลถูกเรียกใช้ในเวลาที่เหมาะสม

การประเมินวัดคุณภาพของผลลัพธ์ แต่มีเงื่อนไขว่าสกิลต้องถูกเรียกใช้ในเวลาที่เหมาะสม เมื่อจำนวนสกิลเพิ่มขึ้น ความแม่นยำของคำอธิบายสกิลจึงมีความสำคัญ: คำอธิบายที่กว้างเกินไปอาจทำให้ถูกเรียกใช้โดยผิดพลาด ในขณะที่แคบเกินไปอาจไม่เคยถูกเรียกใช้เลย

Skill Creator ตอนนี้สามารถช่วยผู้ใช้ปรับปรุงคำอธิบายสกิลเพื่อเพิ่มความน่าเชื่อถือในการเรียกใช้ได้ โดยจะวิเคราะห์คำอธิบายปัจจุบันและตัวอย่างพรอมต์ของคุณ และแนะนำการแก้ไขเพื่อลดการแจ้งเตือนผิดพลาด (false positive) และการพลาดการแจ้งเตือน (false negative)

Anthropic ได้รันฟังก์ชันนี้บนสกิลการสร้างเอกสารของพวกเขา และพบว่าสกิลสาธารณะ 6 สกิล มี 5 สกิลที่ประสิทธิภาพการเรียกใช้ดีขึ้น

สรุป

ในขณะที่ความสามารถของโมเดลพัฒนาต่อไป เส้นแบ่งระหว่าง “สกิล” กับ “ข้อกำหนด” อาจพร่ามัว ในปัจจุบัน ไฟล์ SKILL.md เป็นแผนการนำไปปฏิบัติโดยพื้นฐาน ซึ่งให้คำแนะนำโดยละเอียดเพื่อบอก Claude ว่าจะทำงานบางอย่างอย่างไร ในอนาคต บางทีอาจเพียงพอที่จะมีคำอธิบายภาษาธรรมชาติเกี่ยวกับงานที่สกิลควรทำ และโมเดลจะจัดการส่วนที่เหลือเอง

เฟรมเวิร์กการประเมินที่เปิดตัวในครั้งนี้เป็นก้าวไปสู่ทิศทางนั้น การประเมินเองได้อธิบาย “สิ่งที่ต้องทำ” ไปแล้ว ในท้ายที่สุด คำอธิบายนี้อาจเป็นสกิลเอง

การอัปเดตทั้งหมดของ Skill Creator เปิดให้ผู้ใช้ Claude.ai และ Claude for Teams แล้ว ผู้ใช้ Claude Code สามารถติดตั้งปลั๊กอินอย่างเป็นทางการหรือรับจากที่เก็บ GitHub

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง