หัวเว่ย CLI-Gym: เปิดครั้งแรกเทอร์มินัล Bench ปฏิสัมพันธ์สิ่งแวดล้อมภารกิจขนาดข้อมูลโซลูชั่นที่เพิ่มขึ้น 20%

2026年2月25日 pm6:45 • วิศวกรรมโมเดลขนาดใหญ่ • 242 views

「เปิดตัวไปแล้ว! แนวทางการผลิตข้อมูลขนาดใหญ่สำหรับงานเชิงโต้ตอบกับ Terminal-Bench เป็นครั้งแรกที่เผยแพร่สู่สาธารณะ」

เผยแพร่โอเพ่นซอร์สอัลกอริธึมการสร้างข้อมูลอัตโนมัติแบบสมบูรณ์
สร้างอิมเมจสภาพแวดล้อมสำหรับงาน CLI ที่มีความน่าเชื่อถือสูง 1,655 งาน
นำข้อมูลเส้นทางการดำเนินงาน 291 ชุดมาใช้ เพิ่มอัตราการแก้ไขปัญหาได้ 20%

ในด้าน Agentic Coding การวิจัยเกี่ยวกับแนวทางการสร้างข้อมูลโดยอิงจาก SWE-bench ได้ก้าวหน้าไปอย่างมาก ในช่วงปีที่ผ่านมา มีงานวิจัยที่เกี่ยวข้องจำนวนมากปรากฏขึ้นในวงการ เช่น SWE-Gym, SWE-Smith และ R2E-Gym เป็นต้น ซึ่งได้ส่งเสริมการพัฒนา Agentic Coding ที่มีแกนหลักอยู่ที่การสร้างโค้ดอย่างมาก และยังทำให้ช่องว่างประสิทธิภาพระหว่างโมเดลโอเพ่นซอร์สและโมเดลปิดซอร์สที่ทันสมัยที่สุดในปัจจุบันลดลงอย่างเห็นได้ชัด อย่างไรก็ตาม สำหรับปัญหาทางโต้ตอบกับสภาพแวดล้อมที่กว้างขวางยิ่งขึ้น (เช่น งานที่ครอบคลุมโดย Terminal-Bench) ยังไม่มีวิธีการผลิตข้อมูลที่มีประสิทธิภาพและสามารถขยายขนาดได้อย่างเป็นสาธารณะในปัจจุบัน ทำให้การสร้างข้อมูลที่เกี่ยวข้องเป็นเรื่องยาก ต้องพึ่งพาการมีส่วนร่วมของมนุษย์ในระดับสูง ซึ่งได้กลายเป็นอุปสรรคสำคัญที่จำกัดการพัฒนาของทิศทางนี้ และยังทำให้ประสิทธิภาพของโมเดลโอเพ่นซอร์สในงานที่เกี่ยวข้องล้าหลังกว่าโมเดลปิดซอร์สอย่างมาก

หัวเว่ย CLI-Gym: เปิดครั้งแรกเทอร์มินัล Bench ปฏิสัมพันธ์สิ่งแวดล้อมภารกิจขนาดข้อมูลโซลูชั่นที่เพิ่มขึ้น 20%

ดังนั้น CLI-Gym จึงถือกำเนิดขึ้นมา เราลองใช้ Dockerfile เพื่อกำหนดโครงสร้างและความสามารถในการทำซ้ำของสภาพแวดล้อมเป็นลำดับแรก ต่อมา ได้ปรับรูปแบบแนวทางการผลิตข้อมูลเองให้เป็นงาน Agentic Coding ประเภทหนึ่ง: ขับเคลื่อน Code Agent ในสภาพแวดล้อมที่สมบูรณ์ให้ดำเนินการ “Inversion” ของสภาพแวดล้อม (คือการดำเนินการ “ทำให้เสื่อมลง”) เพื่อสร้างสภาพแวดล้อมที่มีปัญหาและแบบทดสอบหน่วยที่แม่นยำโดยอัตโนมัติ จึงทำให้สามารถสร้างตัวอย่างปัญหาและเครื่องมือตรวจสอบได้โดยอัตโนมัติ เราได้สร้างตัวอย่างสำหรับ Terminal-Bench จำนวน 1,655 ตัวอย่างบนอิมเมจพื้นฐาน 29 อิมเมจ และผลิตเส้นทางการดำเนินงานที่สำเร็จและมีคุณภาพสูง 291 เส้นทาง โมเดล LiberCoder 32B และ 235B ที่ปรับแต่งด้วยข้อมูลเหล่านี้ บรรลุการเพิ่มขึ้นของอัตราการแก้ไขปัญหาใน Terminal Bench ที่ +28.6% (เป็น 38.9%) และ +21.1% (เป็น 46.1%) ตามลำดับ

แนวทางของเราใช้ Codebase, Dockerfile และ Base Image เป็นนามธรรมหลักอย่างสร้างสรรค์ กำหนดเอนทิตี CLI Coding ใดๆ อย่างครบถ้วน ทำให้กลไกการสร้างสภาพแวดล้อม การสร้างปัญหา และการตรวจสอบกลายเป็นกรอบการแสดงออกที่เป็นเอกภาพ มีความสามารถในการประกอบและความเป็นสากลที่ดี เราหวังว่าข้อกำหนดรูปแบบนี้จะสามารถขยายไปสู่สถานการณ์ Agentic Coding อีกมากมายต่อไปได้ ส่งเสริมการพัฒนาของอัลกอริธึมการผลิตข้อมูลและวิธีการสร้างเกณฑ์มาตรฐานที่มีความเป็นสากลยิ่งขึ้น

เอกสารงานวิจัย รหัส และข้อมูลอิมเมจ ได้เผยแพร่แล้วที่ลิงก์ต่อไปนี้:

ลิงก์เอกสารงานวิจัย: https://arxiv.org/pdf/2602.10999
รหัสโอเพ่นซอร์ส: https://github.com/LiberCoders/CLI-Gym
ข้อมูลอิมเมจ: https://huggingface.co/datasets/LiberCoders/CLI-Gym

แนะนำภูมิหลัง

ในปีที่ผ่านมา Agentic Coding กำลังเปลี่ยนแปลงวิธีการแก้ไขงานวิศวกรรมซอฟต์แวร์อย่างรวดเร็ว ขอบเขตความสามารถของโมเดลกำลังขยายจาก “การเขียนโค้ด” ไปสู่ “การแก้ไขปัญหาที่ซับซ้อนในระบบซอฟต์แวร์จริง” จุดเน้นการวิจัยในปัจจุบันยังคงอยู่ที่การวิจัยระดับโค้ดที่มี SWE-bench เป็นแกนหลัก แต่ในสถานการณ์วิศวกรรมซอฟต์แวร์และการบำรุงรักษาระบบจริง ปัญหาจำนวนมากไม่ได้มาจากโค้ดเอง แต่มาจากสภาพแวดล้อมในการทำงาน เช่น ความขัดแย้งของเวอร์ชันการพึ่งพา ข้อผิดพลาดของตัวแปรสภาพแวดล้อม ปัญหาการกำหนดค่าสิทธิ์ ความเสียหายของไลบรารีระบบ ข้อผิดพลาดในการกำหนดค่าเครือข่าย เป็นต้น ปัญหาประเภทนี้โดยทั่วไปไม่สามารถหรือยากที่จะแก้ไขด้วยการแก้ไขโค้ด แต่ต้องอาศัยเอเจนต์ทำความเข้าใจสถานะของระบบผ่านอินเทอร์เฟซบรรทัดคำสั่ง ระบุแหล่งที่มาของปัญหา และดำเนินการชุดการดำเนินงานระดับระบบเพื่อคืนสภาพการทำงานของสภาพแวดล้อม ดังนั้น ความต้องการความสามารถในการเข้าใจและแทรกแซงสภาพแวดล้อมของเอเจนต์จึงสูงขึ้นเรื่อยๆ

งานของ Terminal-Bench สอดคล้องกับความต้องการนี้พอดี เกณฑ์มาตรฐานของงานมีงานจำนวนมากที่มีเป้าหมายหลักคือการซ่อมแซมสภาพแวดล้อม ซึ่งเรียกร้องความสามารถในการโต้ตอบ วินิจฉัย และซ่อมแซมของเอเจนต์ในสภาพแวดล้อม CLI ในระดับที่สูงขึ้น อย่างไรก็ตาม จากกระดานผู้นำทางการในปัจจุบันสามารถสังเกตได้ว่า โซลูชันประสิทธิภาพสูงมักพึ่งพาเฟรมเวิร์กเอเจนต์ที่ซับซ้อนซึ่งสร้างขึ้นรอบโมเดลปิดซอร์สที่แข็งแกร่ง โดยใช้การออกแบบคำสั่งจำนวนมากและกลไกการสะท้อนคิดหลายรอบเพื่อชดเชยความไม่เพียงพอของความสามารถของโมเดลในการเข้าใจสภาพแวดล้อมและระบุตำแหน่งปัญหา ในทางตรงกันข้าม การวิจัยเกี่ยวกับวิธีการเพิ่มความสามารถในการซ่อมแซมสภาพแวดล้อมของโมเดลโอเพ่นซอร์สผ่านการฝึกอบรมอย่างเป็นระบบยังคงค่อนข้างจำกัด

อุปสรรคพื้นฐานอยู่ที่: งานที่เน้นสภาพแวดล้อมยากที่จะสร้างในระดับใหญ่ ปัญหาประเภทโค้ดสามารถสร้างข้อมูลการฝึกอบรมโดยอัตโนมัติผ่านการขุดค้นประวัติศาสตร์คลังและ pull request แต่สถานะสภาพแวดล้อมมักขาดบันทึกวิวัฒนาการที่สามารถติดตามได้ ทำให้ยากต่อการสร้างและติดป้ายกำกับใหม่โดยอัตโนมัติ สิ่งนี้ทำให้ข้อมูลของงานสภาพแวดล้อมต้องพึ่งพาการสร้างโดยมนุษย์ในระยะยาว ขนาดยากที่จะขยาย และยังจำกัดการฝึกอบรมอย่างต่อเนื่องและการเพิ่มความสามารถของโมเดลในทิศทางนี้

CLI-Gym ถูกเสนอขึ้นภายใต้ภูมิหลังนี้ โดยมีเป้าหมายเพื่อก้าวข้ามปัญหาความยากในการสร้างข้อมูลงานที่พึ่งพาสภาพแวดล้อมในระดับใหญ่ผ่านกลไกอัตโนมัติ และจัดหาแหล่งข้อมูลที่ยั่งยืนสำหรับการฝึกอบรมความสามารถของเอเจนต์ เราได้ปรับรูปแบบแนวทางการผลิตข้อมูลเองให้เป็นงาน Agentic Coding ประเภทหนึ่งอย่างสร้างสรรค์: ขับเคลื่อน Code Agent ในสภาพแวดล้อมที่สมบูรณ์ให้ดำเนินการ “Inversion” ของสภาพแวดล้อม (คือการดำเนินการ “ทำให้เสื่อมลง”) เพื่อสร้างสภาพแวดล้อมที่มีปัญหาและแบบทดสอบหน่วยที่แม่นยำโดยอัตโนมัติ จึงทำให้สามารถสร้างตัวอย่างปัญหาและกลไกการตรวจสอบได้โดยอัตโนมัติ

ดังที่แสดงในตารางด้านบน แนวคิดการปรับรูปแบบนี้มีความเป็นสากลที่ดี ไม่เพียงแต่ใช้กับการสร้างงานที่พึ่งพาสภาพแวดล้อมเท่านั้น แต่ยังครอบคลุมข้อกำหนดรูปแบบหลักของวิธีการชุด SWE ก่อนหน้านี้ภายใต้กรอบที่เป็นเอกภาพ บรรลุการบูรณาการและขยายในระดับระเบียบวิธี

Pipeline: สร้างงานความผิดพลาดโดยอัตโนมัติผ่านการ Inversion สภาพแวดล้อม

แนวคิดหลักของ CLI-Gym ค่อนข้างฉลาดลึกซึ้ง โดยสร้างสถานการณ์ความผิดพลาดโดยอัตโนมัติผ่านการจำลองประวัติศาสตร์สภาพแวดล้อม ต่างจากวิธีการดั้งเดิม เราไม่ได้สร้างสภาพแวดล้อมที่เสียหายตั้งแต่เริ่มต้น แต่ขับเคลื่อนเอเจนต์ “ผู้ทำลาย” ให้แทรกแซงสภาพแวดล้อมที่สมบูรณ์อย่างแข็งขัน สร้างความผิดพลาดที่หลากหลาย แล้วแปลงเป็นตัวอย่างงานที่สามารถซ่อมแซมได้

แนวคิดหลักของ CLI-Gym อยู่ที่การทบทวนวิธีการสร้างงานใหม่: เนื่องจากปัญหาสภาพแวดล้อมจริงมักเกิดจากข้อผิดพลาดของสถานะสภาพแวดล้อม ดังนั้นเราไม่สร้างสภาพแวดล้อมที่เสียหายด้วยมือตั้งแต่เริ่มต้นอีกต่อไป แต่เริ่มจากสภาพแวดล้อมที่สมบูรณ์ จำลองว่าสภาพแวดล้อมถูกทำลายได้อย่างไรโดยอัตโนมัติ จึงสร้างงานที่สามารถซ่อมแซมได้ในทางกลับกัน แนวคิดนี้เรียกว่า “การ Inversion สภาพแวดล้อม” คือการใช้เอเจนต์ทำลายสภาพแวดล้อมที่ทำงานปกติเดิมอย่างแข็งขัน ทำให้กลับไปสู่สถานะที่มีข้อผิดพลาดในการทำงาน แล้วแปลงกระบวนการเสื่อมลงนี้เป็นตัวอย่างปัญหาที่เอเจนต์จำเป็นต้องซ่อมแซม

ในขั้นตอนเฉพาะ ระบบสร้างอิมเมจ Docker ที่มีสภาพแวดล้อมที่สมบูรณ์จากคลังโอเพ่นซอร์สจริงเป็นลำดับแรก สภาพแวดล้อมนี้สามารถทำงานสำเร็จและผ่านแบบทดสอบหน่วยทั้งหมดได้ เป็นจุดเริ่มต้นสำหรับการสร้างงานต่อไป จากนั้นระบบดึง Unit Test เป้าหมายจาก Unit Tests โดยอัตโนมัติ สร้างคำสั่งที่ชักนำให้เอเจนต์ดำเนินการทำลายสภาพแวดล้อมผ่านโมเดลภาษา เช่น ลบการพึ่งพาที่สำคัญ แทรกแซงไฟล์กำหนดค่า ทำลายไลบรารีระบบ แก้ไขพาธหรือสิทธิ์ เป็นต้น เอเจนต์จะเปลี่ยนสถานะสภาพแวดล้อมอย่างต่อเนื่องในระหว่างการดำเนินการ ทำให้แบบทดสอบบางส่วนล้มเหลว จึงจำลองกระบวนการทางประวัติศาสตร์ที่เกิดจากการเสื่อมลงของระบบจริงหรือข้อผิดพลาดในการกำหนดค่า

เมื่อมีแบบทดสอบที่ล้มเหลวในสภาพแวดล้อม ระบบจะสร้างคำอธิบายปัญหาและเป้าหมายการซ่อมแซมโดยอัตโนมัติตามบันทึกความล้มเหลว เส้นทางการดำเนินงาน และการเปลี่ยนแปลงสภาพแวดล้อม จึงกลายเป็นตัวอย่างงาน CLI ที่สมบูรณ์ เป้าหมายของเอเจนต์คือคืนสภาพแวดล้อมผ่านการดำเนินงานบรรทัดคำสั่ง ทำให้แบบทดสอบที่ล้มเหลวผ่านอีกครั้ง ขั้นตอนทั้งหมดไม่ต้องอาศัยการมีส่วนร่วมของมนุษย์ ตั้งแต่การสร้างสภาพแวดล้อมที่มีปัญหาจากสภาพแวดล้อมที่สมบูรณ์ ไปจนถึงการสร้างงานซ่อมแซมจากสภาพแวดล้อมที่มีปัญหา บรรลุการสร้างปัญหาสภาพแวดล้อมโดยอัตโนมัติในระดับใหญ่ กระบวนการนี้ไม่เพียงแต่สามารถจำลองวิธีการเกิดปัญหาของระบบจริงเท่านั้น แต่เนื่องจากเส้นทางการทำลายแต่ละครั้งแตกต่างกัน จึงยังนำมาซึ่งประเภทงานที่หลากหลาย ทำให้งานที่สร้างขึ้นครอบคลุมหลายสถานการณ์ เช่น วิศวกรรมซอฟต์แวร์ การจัดการระบบ การดีบั๊กความปลอดภัย เป็นต้น เพิ่มความหลากหลายและความสมจริงของข้อมูลการฝึกอบรมอย่างเห็นได้ชัด

ผลผลิต: ข้อมูลที่มีขนาดใหญ่และคุณภาพสูง

จาก pipeline อัตโนมัตินี้ CLI-Gym ได้สร้างตัวอย่างงาน CLI ที่เน้นสภาพแวดล้อม 1,655 ตัวอย่างในคลังโอเพ่นซอร์สจริง 29 คลัง มีขนาดใหญ่กว่าข้อมูลที่สร้างด้วยมือของ Terminal-Bench อย่างมาก ในขณะเดียวกันประเภทงานครอบคลุมหลายสาขาการใช้งาน แสดงให้เห็นถึงความสามารถในการขยายที่แข็งแกร่ง เมื่อเทียบกับ benchmark ที่มีอยู่ งานเหล่านี้มีความซับซ้อนสูงกว่า แต่ละงานมีแบบทดสอบที่ล้มเหลวเฉลี่ยมากกว่า 20 รายการ ให้สัญญาณการวินิจฉัยและข้อเสนอแนะการซ่อมแซมที่อุดมสมบูรณ์ยิ่งขึ้นแก่เอเจนต์ ทำให้โมเดลต้องเข้าใจสถานะระบบและดำเนินการหลายขั้นตอนอย่างแท้จริงจึงจะสามารถซ่อมแซมสำเร็จได้ แทนที่จะผ่านการทดสอบด้วยการแก้ไขโค้ดง่ายๆ หรือกลยุทธ์การคาดเดา นอกจากนี้ กระบวนการนี้ทำงานโดยอัตโนมัติสมบูรณ์ ใช้เพียงทรัพยากรการคำนวณโดยไม่ต้องติดป้ายกำกับด้วยมือ ลดต้นทุนอย่างมากเมื่อเทียบกับวิธีการดั้งเดิมที่พึ่งพาการสร้างงานโดยวิศวกรจำนวนมาก ทำให้ข้อมูลงานสภาพแวดล้อมสามารถขยายได้อย่างต่อเนื่อง

ในขั้นตอนการรวบรวมข้อมูลเส้นทางการดำเนินงาน ระบบรันงานที่สร้างขึ้นโดยอัตโนมัติผ่านโมเดลที่แข็งแกร่ง รวบรวมเส้นทางการดำเนินงานที่ซ่อมแซมสำเร็จ และใช้กลไกการกรองที่เข้มงวด เพื่อแยกเส้นทางการดำเนินงานที่ง่ายเกินไปหรือมีเส้นทางโกงออก สุดท้ายเก็บเส้นทางการดำเนินงานพฤติกรรมเอเจนต์คุณภาพสูงหลายร้อยเส้นทางที่สะท้อนกระบวนการซ่อมแซมสภาพแวดล้อมที่ซับซ้อนอย่างแท้จริง เส้นทางการดำเนินงานเหล่านี้ครอบคลุมกลยุทธ์การซ่อมแซมที่หลากหลาย เช่น การคืนสภาพการพึ่งพา การดีบั๊กการกำหนดค่าระบบ การจัดการปัญหาสิทธิ์ และการซ่อมแซมส่วนประกอบสภาพแวดล้อม เป็นต้น ให้สัญญาณการกำกับดูแลที่มีค่าสำหรับโมเดลในการเรียนรู้รูปแบบการแก้ไขปัญหาสภาพแวดล้อมจริง

ผลลัพธ์ภาคปฏิบัติ: เพิ่มความสามารถในการแก้ไขปัญหาสภาพแวดล้อมอย่างเห็นได้ชัด

หลังจากปรับแต่งโมเดลชุด Qwen3 ด้วยข้อมูลที่สร้างโดย CLI-Gym แล้ว ได้รับโมเดลชุด LiberCoder ชุดโมเดลนี้บรรลุการเพิ่มประสิทธิภาพที่เห็นได้ชัดในการทดสอบมาตรฐาน Terminal-Bench ในจำนวนนี้ LiberCoder-32B บรรลุ Pass@1 ที่ 38.9% บน Terminal-Bench 1.0 เพิ่มขึ้นอย่างมากเมื่อเทียบกับโมเดลพื้นฐาน ส่วน LiberCoder-235B-A22B ที่มีขนาดใหญ่กว่าบรรลุ 46.1% มีประสิทธิภาพเหนือกว่าโมเดลโอเพ่นซอร์สส่วนใหญ่ และใกล้เคียงกับโมเดลปิดซอร์สบางส่วน

การวิเคราะห์เพิ่มเติมแสดงให้เห็นว่า โมเดลที่ปรับแต่งแล้วมีการเปลี่ยนแปลงที่ชัดเจนในความสามารถในการจัดการปัญหาสภาพแวดล้อม โมเดลไม่ล้มเหลวบ่อยครั้งจากข้อผิดพลาดในการแก้ไขหรือการระบุตำแหน่งปัญหาอีกต่อไป จุดคอขวดหันไปสู่ปัจจัยภายนอก เช่น ความยาวบริบทและเวลาการดำเนินงานมากขึ้น ซึ่งเป็นสัญญาณว่าความสามารถหลักในการซ่อมแซมสภาพแวดล้อมได้เพิ่มขึ้นอย่างเห็นได้ชัด ในขณะเดียวกัน ยังสังเกตเห็นการเพิ่มประสิทธิภาพที่สม่ำเสมอในหลายหมวดหมู่ของงาน เช่น วิศวกรรมซอฟต์แวร์ การจัดการระบบ การซ่อมแซมความปลอดภัย และการดีบั๊ก เป็นต้น แสดงว่าข้อมูลที่สร้างโดย CLI-Gym ไม่ได้ปรับให้เหมาะสมกับสถานการณ์เดียว แต่เพิ่มความสามารถในการสรุปภาพรวมของโมเดลในงานโต้ตอบกับสภาพแวดล้อมอย่างรอบด้าน

บทสรุป

CLI-Gym เป็นวิธีการสาธารณะครั้งแรกที่ใช้สำหรับขยายสภาพแวดล้อมการฝึกอบรมงานการเข้ารหัสเอเจนต์อินเทอร์เฟซบรรทัดคำสั่ง (CLI) วิธีการนี้ใช้ Dockerfile เพื่อแสดงและควบคุมการกำหนดค่าและเวอร์ชันของแต่ละสภาพแวดล้อมอย่างแม่นยำ และใช้เอเจนต์เพื่อจำลองประวัติศาสตร์สภาพแวดล้อม การวิจัยได้รวบรวมตัวอย่างงาน 1,655 ตัวอย่าง และรวบรวมเส้นทางการดำเนินงานซ่อมแซมที่สำเร็จ 291 เส้นทาง ผลการทดลองแสดงให้เห็นว่า การปรับแต่งด้วยข้อมูลเหล่านี้สามารถเพิ่มความสามารถในการเข้ารหัสเอเจนต์ที่เน้นสภาพแวดล้อมได้อย่างมาก จึงทำให้โมเดลโอเพ่นซอร์สบรรลุระดับประสิทธิภาพชั้นนำในการทดสอบมาตรฐาน Terminal-Bench

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง