ทีมวิจัยจากมหาวิทยาลัยฟู่ตั้นและปักกิ่งเสนอ AHE: กรอบการทำงานที่ให้ AI ปรับปรุงความสามารถของตัวเองโดยอัตโนมัติ ประสิทธิภาพพุ่งสูงขึ้นในเร็ววัน

7 hours ago • วิศวกรรมโมเดลขนาดใหญ่ • 9 views

ตั้งแต่ปี 2026 เป็นต้นมา OpenAI, Anthropic, LangChain และองค์กรอื่นๆ ได้เผยแพร่บล็อกทางเทคนิคเกี่ยวกับ Harness Engineering อย่างต่อเนื่อง ในขณะที่โครงการอย่าง OpenClaw และ Hermes Agent ได้รับความนิยมมากขึ้น ผลักดันให้ Harness Engineering กลายเป็นจุดสนใจของอุตสาหกรรม วงการเริ่มมีความเห็นพ้องต้องกันว่า การปลดปล่อยประสิทธิภาพของโมเดลนั้น ขึ้นอยู่กับกรอบงานภายนอกที่ซับซ้อนเป็นอย่างมาก

การออกแบบและปรับแต่ง Harness โดยพื้นฐานแล้วเป็นปัญหาทางวิศวกรรม ซึ่งต้องอาศัยการออกแบบร่วมกันระหว่างความสามารถของโมเดลและสภาพแวดล้อมของงาน อย่างไรก็ตาม โมเดลต่างๆ มีการอัปเกรดเป็นรอบรายเดือน ในขณะที่สถานการณ์งานมีแนวโน้มเป็นการกระจายแบบหางยาวมากขึ้นเรื่อยๆ แต่การพัฒนาของ Harness ยังคงต้องพึ่งพาประสบการณ์ของมนุษย์เป็นอย่างมาก สิ่งนี้นำไปสู่ประเด็นหลัก: ในวงจรปิดของการทำซ้ำของ Harness Engineering ขั้นตอนใดบ้างที่สามารถทำให้เป็นอัตโนมัติได้? จะทำให้ Harness สามารถเรียนรู้จากประสบการณ์และปรับปรุงอย่างต่อเนื่องได้อย่างไร?

ทีมวิจัยจากมหาวิทยาลัย Fudan, มหาวิทยาลัยปักกิ่ง และ Shanghai Qiji Zhifeng ได้เสนอ Agentic Harness Engineering (AHE) ซึ่งเป็นวิธีการปรับแต่ง Harness แบบอัตโนมัติที่ขับเคลื่อนด้วยการสังเกตการณ์ (Observability) ครอบคลุมกระบวนการทั้งหมดของ Harness Engineering อย่างสมบูรณ์ โดยมีเป้าหมายเพื่อปลดปล่อยความสามารถในการดำเนินการของโมเดลให้สูงสุด

ชื่อบทความ: Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses
ลิงก์บทความ: arxiv.org/abs/2604.25850
คลังรหัส: github.com/china-qijizhifeng/agentic-Harness-engineering
บล็อกโครงการ: https://dawning-road.github.io/blog/agentic-Harness-engineering

ในการทดลอง โดยใช้ GPT-5.4 คะแนนของ AHE บน Terminal-Bench 2 เพิ่มขึ้นจาก 69.7 เป็น 77.0 หลังจากการทำซ้ำ หลังจาก GPT-5.5 เปิดตัว AHE ก็ทำซ้ำ Harness ที่เข้ากันได้อย่างรวดเร็ว และติดอันดับที่สามของโลกบน Leaderboard

นอกจากนี้ Harness ที่สร้างขึ้นจากการทำซ้ำอัตโนมัติยังแสดงให้เห็นถึงความสามารถในการสรุปทั่วไปข้ามโมเดลและข้ามงานได้ดี ทำให้มั่นใจได้ว่าไม่ได้เกิดการโอเวอร์ฟิตกับชุดประเมินผล

ปัจจุบัน บทความนี้ได้รับความสนใจอย่างกว้างขวางบนแพลตฟอร์มโซเชียล X โดยมียอดเข้าชมและพูดคุยมากกว่า 100,000 ครั้ง

เหตุใดจึงต้องสร้างระบบสังเกตการณ์?

สามมุมมองของ Harness Engineering

ในแง่ของรูปแบบ โมเดลและ Harness ร่วมกันก่อตัวเป็นหน่วยงานหนึ่ง ซึ่งมีปฏิสัมพันธ์กับสภาพแวดล้อม พฤติกรรมทั้งหมดของโมเดลเกิดขึ้นในพื้นที่ความน่าจะเป็น ซึ่งเป็นแหล่งที่มาของการบีบอัดข้อมูล การเกิดปัญญา และความไม่แน่นอน ในขณะที่ Harness เป็นส่วนประกอบที่แน่นอนซึ่งห่อหุ้มอยู่ภายนอก รวมถึง system prompt, คำจำกัดความและการใช้งานเครื่องมือ, middleware/hook, เอกสารทักษะ, การจัดเรียง sub-agent, ความจำระยะยาว, บันทึกและการสังเกตการณ์ ในกระบวนการที่ agent มุ่งสู่ภารกิจระยะยาวและงานด้านการผลิต Harness คือการรับประกันสำคัญที่ทำให้พฤติกรรมของโมเดลมีเสถียรภาพ สอดคล้อง และควบคุมได้

ในแง่ของวัตถุประสงค์ หน้าที่หลักอย่างหนึ่งของ Harness คือการจัดการกระแสบริบทแบบสองทิศทางระหว่างโมเดลและสภาพแวดล้อม: ในด้านหนึ่ง จะส่งงาน ความตั้งใจของผู้ใช้ สถานะสภาพแวดล้อม และข้อมูลภายนอกไปยังโมเดลในเวลาที่เหมาะสม อีกด้านหนึ่ง จะบันทึกการกระทำของโมเดลอย่างซื่อสัตย์ ตรวจสอบความถูกต้อง แล้วส่งกลับไปยังสภาพแวดล้อมเพื่อดำเนินการ

ในอดีต นักพัฒนาต้องออกแบบ prompt ด้วยตนเอง คัดลอกเอาต์พุตของ terminal คัดลอกเนื้อหาเอกสารภายนอกให้กับโมเดล บริบทกระจายอยู่ในพื้นที่ที่ไม่เชื่อมต่อถึงกัน มนุษย์อาศัยเพียงสัญชาตญาณและการสังเกตเพื่อตัดสินใจว่า context ประกอบด้วยอะไร ดังนั้น เป้าหมายการออกแบบอย่างหนึ่งของ Harness คือการทำให้การไหลของ context แม่นยำและเป็นอิสระมากขึ้น

จากรูปแบบและวัตถุประสงค์ข้างต้น ระเบียบวิธีของ Harness Engineering คืออะไร?

วิธีที่ตรงที่สุดคือการปรับแต่งโค้ดของแต่ละส่วนประกอบอย่างอิสระ หรือที่เรียกว่า Agent Infra ชุมชนนักพัฒนาได้มีส่วนร่วมในส่วนประกอบ Harness ที่มีประโยชน์มากมาย สำหรับความจำ การจัดการบริบท สภาพแวดล้อมแซนด์บ็อกซ์ การจัดการร่องรอย ฯลฯ ซึ่งอาศัยการพัฒนาทางวิศวกรรมและการปรับแต่งอย่างแข็งแกร่ง ทำให้แต่ละส่วนมีประสิทธิภาพ ปลอดภัย และเสถียรมากขึ้นโดยอิสระ

ยิ่งไปกว่านั้น สำหรับสภาพแวดล้อมเฉพาะใดๆ หากต้องการค้นหา Harness ที่ดีที่สุด สิ่งนี้จะกลายเป็นปัญหาการปรับแต่งแบบผสมผสานของโมเดล x Harness x สภาพแวดล้อม ไม่มีกฎเกณฑ์ที่ชัดเจนเหมือนกับการพัฒนาส่วนประกอบเดี่ยวๆ และไม่สามารถใช้ความรู้มาก่อนของนักพัฒนามนุษย์เพื่อค้นหาชุดค่าผสมที่ดีที่สุดในครั้งเดียว แต่จำเป็นต้องพัฒนา สังเกตการณ์ ทำซ้ำ และปรับเปลี่ยนซ้ำๆ ตามร่องรอยการทำงานของโมเดลและคะแนนการประเมิน

ความสนใจของมนุษย์นั้นหายาก ดังนั้นจึงจำเป็นต้องให้ agent เข้ามามีส่วนร่วมในกระบวนการปรับแต่ง Harness ด้วย ตราบใดที่เป้าหมายการปรับแต่ง พื้นที่การกระทำ และพื้นที่สถานะถูกนำเสนอในรูปแบบที่ agent อ่านได้ ก็สามารถนำ agent เข้ามาทำการปรับแต่งอย่างอิสระได้ นี่คือจุดเริ่มต้นของการออกแบบระบบสังเกตการณ์ของ AHE

ระบบสังเกตการณ์: ส่วนประกอบ ประสบการณ์ การตัดสินใจ

การพัฒนา Harness แบ่งออกเป็นหลายขั้นตอน: การเขียนส่วนประกอบ การรัน agent การรวบรวมข้อเสนอแนะ กระบวนการนี้ทำซ้ำและดำเนินต่อไปอย่างต่อเนื่อง หากต้องการให้ agent ทำงานแทนมนุษย์ จำเป็นต้องทำให้ context ที่เกิดขึ้นในกระบวนการนี้สามารถสังเกตการณ์ได้ และจัดโครงสร้างและลำดับชั้นของ context ให้ดี

ในกระบวนการนี้ จะไม่จำกัดพื้นที่การตัดสินใจที่เป็นอิสระของ agent อาศัยเพียงผลการประเมินและข้อมูลแบบแบ่งชั้นเพิ่มเติมเพื่อช่วยให้มันแก้ไขได้อย่างแม่นยำและระบุสาเหตุได้ถูกต้อง

วิธีการ AHE ประกอบด้วยสามบทบาท: Coding Agent ทำหน้าที่รันการทดสอบ, Agent Debugger ทำหน้าที่จัดระเบียบร่องรอย, Evolve Agent ทำหน้าที่แก้ไข Harness ของ Coding Agent เพื่อให้เกิดวิวัฒนาการ

ระบบสังเกตการณ์ทั้งหมดแบ่งออกเป็นสามส่วน:

NexAU จัดหา Harness ที่แยกส่วนต่างๆ ออกจากกัน ทำให้ส่วนประกอบ Harness สามารถสังเกตการณ์ได้
Agent Debugger กลั่นกรอง raw trace ปริมาณ 10M token ให้เป็นความคิดเห็นแบบหลายมิติแบบแบ่งชั้นและสามารถสืบย้อนต้นตอได้ ทำให้ประสบการณ์สามารถสังเกตการณ์ได้
Evolve Agent สร้างห่วงโซ่การแก้ไขที่สมบูรณ์ซึ่งขับเคลื่อนด้วยหลักฐาน โดยอิงจากประวัติส่วนประกอบที่สืบย้อนผ่าน git และผลลัพธ์ของข้อเสนอแนะ จากนั้นแก้ไขส่วนประกอบที่เกี่ยวข้อง ทำให้พฤติกรรมการปรับแต่งสามารถสังเกตการณ์ได้

(1) การสังเกตการณ์ส่วนประกอบ: “Harness แบบประกาศ” ที่แยกส่วน

Coding Agent ทำงานบนกรอบงาน NexAU AHE แยก Harness ออกเป็นส่วนประกอบระดับไฟล์แบบตั้งฉากเจ็ดประเภท: System Prompt, Tool Description, Tool Implementation, Middleware, Skill, Sub-agent Config, Long-term Memory แต่ละส่วนประกอบเป็นไฟล์อิสระ มีจุดเชื่อมต่อที่ชัดเจน และโครงสร้างแยกออกจากกัน

ความชาญฉลาดของการออกแบบนี้คือ: ทำให้ความสัมพันธ์แบบแผนที่ “รูปแบบความล้มเหลว – ส่วนประกอบเดียว” ชัดเจนอย่างยิ่ง การแก้ไขทั้งหมดได้รับการจัดการเวอร์ชันผ่าน Git การเปลี่ยนแปลงแต่ละครั้งคือ commit ที่สามารถสืบย้อน ตรวจสอบ และย้อนกลับได้

Coding Agent เป้าหมายเริ่มต้นจากรูปแบบที่เรียบง่ายที่สุดแบบ “ไม่มีความรู้มาก่อน” อย่างจงใจ: มีเพียงเครื่องมือ run_shell_command ไม่มี Middleware, Skill หรือ Sub-agent ใดๆ การทำเช่นนี้เพื่อให้แน่ใจว่าการเพิ่มส่วนประกอบใหม่หรือการเขียน Prompt ใหม่ในภายหลังแต่ละครั้ง สามารถระบุสาเหตุได้อย่างสะอาด

(2) การสังเกตการณ์ประสบการณ์: Agent Debugger เปลี่ยนร่องรอยให้เป็นสินทรัพย์ที่บริโภคได้

ร่องรอยดิบที่เกิดจากการประเมินผลที่สมบูรณ์หนึ่งครั้งมีจำนวน Token นับสิบล้าน หากโยนให้ Evolve Agent โดยตรง หน้าต่างบริบทของมันจะถูกท่วมทับทันที และไม่สามารถแก้ไขโค้ดใดๆ ได้

AHE พัฒนาสายการกลั่นกรองแบบแบ่งชั้นที่เรียกว่า Agent Debugger: ชั้นล่างบันทึกร่องรอยดิบทั้งหมดอย่างสมบูรณ์ ชั้นกลางใช้ Cleaner เพื่อลบเอาต์พุตเครื่องมือที่ซ้ำซ้อน ชั้นบนใช้ QA Sub-agent เพื่อสลับกลยุทธ์การถามโดยอัตโนมัติตามผลลัพธ์การรันหลายครั้งของแต่ละคำถาม สุดท้าย การวิเคราะห์แต่ละคำถามจะถูกรวบรวมเป็นรายงานสรุปประมาณ 10K Token ส่งให้ Evolve Agent บริโภค

โดยพื้นฐานแล้ว สิ่งนี้สะท้อนถึงแนวคิดการออกแบบการเปิดเผยแบบค่อยเป็นค่อยไป โดยค่าเริ่มต้น Evolve Agent จำเป็นต้องดูรายงานสรุปเท่านั้น แต่สามารถดูรายละเอียดของแต่ละคำถามได้ตลอดเวลา และย้อนกลับไปยังร่องรอยดิบเมื่อต้องการตรวจสอบข้อสรุป ด้วยวิธีนี้ ข้อมูลระดับ 10M จะถูกแปลงเป็นสินทรัพย์ประสบการณ์ที่สามารถประมวลผลแบบขนาน บริโภค และตรวจสอบได้

(3) การสังเกตการณ์การตัดสินใจ: “การแก้ไขที่ขับเคลื่อนด้วยหลักฐาน” ของ Evolve Agent

หลักการออกแบบของ Evolve Agent นั้นจำกัดอย่างมาก เป้าหมายหลักคือการบรรลุวิวัฒนาการที่มั่นคง:

อนุญาตให้แก้ไขเฉพาะไฟล์ส่วนประกอบ Harness ภายใน workspace เท่านั้น ในขณะที่กรอบงานการประเมิน การกำหนดค่า LLM และ System Prompt ดั้งเดิมถูกตั้งค่าเป็นแบบอ่านอย่างเดียว เพื่อป้องกันพฤติกรรมการแฮ็กที่เลี่ยงการประเมิน
การแก้ไขแต่ละครั้งต้องมาพร้อมกับ “รายการการเปลี่ยนแปลง” ซึ่งประกอบด้วย: หลักฐานของความล้มเหลว (งานใดล้มเหลวโดยเฉพาะ), สาเหตุหลักที่อนุมาน, แผนการแก้ไขที่ตรงเป้าหมาย และการคาดการณ์ที่ประกาศด้วยตนเอง (คาดว่าจะแก้ไขงานใด อาจทำให้งานใดเสียหาย) หลังจากการแก้ไขแต่ละรอบ รอบการประเมินถัดไปจะทำหน้าที่เป็นผู้ตรวจสอบ: การแก้ไขที่คาดการณ์ถูกต้องจะถูกเก็บไว้ ส่วนการแก้ไขที่คาดการณ์ผิด ระบบจะตัดสินใจย้อนกลับโดยอิสระ

ด้วยวิธีนี้ การเปลี่ยนแปลง Harness แต่ละครั้งจะไม่ใช่สัญชาตญาณหรือประสบการณ์นามธรรมของวิศวกรอีกต่อไป แต่เป็นสมมติฐานที่สามารถพิสูจน์หักล้างได้จากการทดลองรอบถัดไป วิวัฒนาการของ Harness จึงเปลี่ยนจากศิลปะไปสู่วิศวกรรม จากประสบการณ์ไปสู่วิทยาศาสตร์

ผลการทดลอง: เหนือกว่าผู้เชี่ยวชาญมนุษย์, การสรุปทั่วไปข้ามโมเดล

ในการทดลองหลัก AHE เพิ่มคะแนน pass@1 ของ Coding Agent ที่ขับเคลื่อนด้วย GPT-5.4 บน Terminal-Bench 2 จาก 69.7% เป็น 77.0% เพิ่มขึ้นสัมบูรณ์ 7.3 จุดเปอร์เซ็นต์ หรือเพิ่มขึ้นสัมพัทธ์ 10.5% ผลลัพธ์นี้ไม่เพียงแต่เหนือกว่า Codex-CLI (71.9%) อย่างเป็นทางการของ OpenAI ที่ใช้ GPT-5.4 เช่นเดียวกัน แต่ยังเหนือกว่าเกณฑ์พื้นฐานหลักอย่าง ACE และ Training Free-GRPO อย่างมีนัยสำคัญ

ที่น่าประหลาดใจยิ่งกว่าคือความสามารถในการสรุปทั่วไป

(1) การสรุปทั่วไปข้ามงาน: เมื่อแช่แข็ง Harness ที่วิวัฒนาการบน Terminal-Bench 2 แล้วย้ายไปยัง SWE-Bench Verified โดยตรง AHE บรรลุอัตราความสำเร็จที่สูงกว่า ACE และ TF-GRPO โดยใช้ Token น้อยกว่า ซึ่งบ่งชี้ว่าสิ่งที่วิวัฒนาการเรียนรู้ไม่ใช่ความรู้เฉพาะทาง “วิธีการทำคะแนน Terminal-Bench 2” แต่เป็นประสบการณ์ทางวิศวกรรมทั่วไปที่สามารถถ่ายโอนได้

(2) การสรุปทั่วไปข้ามโมเดล: Harness เดียวกันที่วิวัฒนาการโดย GPT-5.4 ถูกนำไปใช้กับ Qwen-3.6-Plus, Gemini-3.1-Flash และ DeepSeek-V4 โดยไม่มีการวิวัฒนาการซ้ำและประเมินผลโดยตรง ผลลัพธ์แสดงให้เห็นว่าโมเดลทั้งสามได้รับคะแนนเพิ่มขึ้นอย่างมีนัยสำคัญตั้งแต่ +5.1 ถึง +10.1 จุดเปอร์เซ็นต์ และยิ่งโมเดลอ่อนแอ ขนาดการเพิ่มขึ้นก็ยิ่งมากขึ้น Harness นี้ไม่ได้ถูกปรับแต่งสำหรับโมเดลเฉพาะใดๆ แต่ได้เรียนรู้หลักการเชิงโครงสร้างที่เป็นสากลอย่างแท้จริง

คุณค่าที่แท้จริงอยู่ที่ไหน? ข้อเท็จจริงสามารถถ่ายโอนได้ดีกว่ากลยุทธ์

ในบล็อก ผู้เขียนยังกล่าวถึงการสำรวจที่ล้มเหลวในช่วงแรกอีกด้วย เพื่อการทำซ้ำอย่างรวดเร็ว ทีมงานเริ่มแรกทำการวิวัฒนาการเพียง 10 รอบใน 30 ข้อที่มีความยากระดับ hard ของ Terminal-Bench 2 ผลลัพธ์คือจำนวนข้อที่ผ่านผันผวนระหว่าง 16-20 โดยพื้นฐานแล้วแก้หนึ่งข้อก็เสียอีกข้อหนึ่ง การวิเคราะห์ Harness เวอร์ชันสุดท้ายพบว่า Evolve Agent เขียนแฮ็กเฉพาะสำหรับงานบางอย่าง: การตรวจจับ splice-offset ของ Golden Gate, เทมเพลตเวิร์กโฟลว์ที่สมบูรณ์ของ Caffe เป็นต้น ซึ่งบ่งชี้ว่าชุดข้อสอบที่เล็กเกินไปทำให้สัญญาณของข้อเดียวแรงเกินไป ไม่สามารถยับยั้งแนวโน้มการแฮ็กของ agent ได้

จากนั้นทีมงานขยายชุดข้อสอบเป็น 89 ข้อเต็ม และเพิ่มคำแนะนำระเบียบวิธีที่ชัดเจนใน System Prompt ของ Evolve Agent เช่น หลักการ “Safety/Creativity/Generality” และการจัดลำดับชั้นข้อจำกัด “Middleware > Tool Desc > Skill > Prompt” ผลลัพธ์คือ overfit ลดลงบ้าง แต่เส้นโค้งการฝึกถึงจุดสูงสุดที่ 75.3% และไม่เพิ่มขึ้นอีก การแก้ไข 78% กระจุกตัวอยู่ที่ชั้น Middleware ความรู้มาก่อนเกี่ยวกับพฤติกรรมที่นำเข้ามาโดยมนุษย์กลับกลายเป็นแหล่งที่มาของความแข็งแกร่งในวิวัฒนาการ

เวอร์ชันสุดท้ายทำการเปลี่ยนแปลงสำคัญสองประการ: ประการแรกคือรันแต่ละข้อสองครั้งในการประเมิน ใช้ diff ของ partial-pass เพื่อระบุสัญญาณการวินิจฉัยที่แม่นยำที่สุด ประการที่สองคือลบคำแนะนำพฤติกรรมทั้งหมด เหลือเพียงข้อกำหนดกระบวนการที่ขับเคลื่อนด้วยหลักฐานและกฎการย้อนกลับ

ผลลัพธ์คือ ไม่เพียงแต่คะแนนจะเพิ่มขึ้นอย่างต่อเนื่องเป็น 77.0% เท่านั้น แต่การกระจายการแก้ไขยังดีต่อสุขภาพมากขึ้น: middleware 37% + tool 48% + prompt 10% ไม่มีชั้นใดครอบครองเกินครึ่ง และสามารถปรับเปลี่ยนได้อย่างยืดหยุ่นในแต่ละช่วง

ความคิดเชิงนิสัยจากชุมชนคือ “ปรับ Prompt ก่อน” อย่างไรก็ตาม เมื่อนำส่วนประกอบสี่ประเภท (Memory, Tools, Middleware, System Prompt) ที่วิวัฒนาการโดย AHE กลับไปวางทีละชิ้นใน Harness ดั้งเดิมเพื่อทำการทดสอบการตัดออก ผลลัพธ์กลับตรงกันข้าม: Memory เพียงอย่างเดียวสามารถฟื้นฟูการเพิ่มขึ้นโดยรวมได้มากกว่า 95% Tool มีการปรับปรุงอย่างมีนัยสำคัญในข้อที่มีความยากปานกลาง ในขณะที่การย้าย System Prompt เพียงอย่างเดียวกลับทำให้ประสิทธิภาพลดลง

สาเหตุที่เป็นไปได้ประการหนึ่งคือ: ความหมายของ Prompt เป็นเชิงกลยุทธ์ (คุณควรทำสิ่งนี้) ในขณะที่ความหมายของ Memory และ Tool เป็นเชิงข้อเท็จจริง (นี่คือโค้ดที่ใช้ซ้ำได้) ข้อเท็จจริงสามารถถ่ายโอนได้ดีกว่ากลยุทธ์ พวกมันเก็บรักษาข้อมูลไว้ ในขณะที่ยังคงรักษาความสามารถในการสรุปทั่วไปไว้ได้ สิ่งนี้อาจอธิบายได้ว่าทำไมมนุษย์ถึงล้มเหลวเมื่อพยายามชี้แนะ Evolve Agent โดยการใส่ระเบียบวิธี: นักพัฒนามักจะสอนกลยุทธ์ ในขณะที่โมเดลเก่งกว่าในการเรียนรู้ข้อเท็จจริง

บทสรุป: วงจรวิวัฒนาการที่สังเกตได้จะทำให้ AGI มาถึงเร็วขึ้น

บางทีบทเรียนที่ยิ่งใหญ่ที่สุดจาก AHE คือ: เมื่อโมเดลแข็งแกร่งพอ การสร้างสภาพแวดล้อมวิวัฒนาการที่มีโครงสร้างและสังเกตได้นั้นสำคัญกว่าการพัฒนา Harness โดยตรง สร้างระบบสังเกตการณ์ (ให้ Evolve Agent เข้าถึงส่วนประกอบ ร่องรอย ข้อเสนอแนะ) จากนั้นรันการทดสอบบนข้อมูลทั้งหมด ก็เพียงพอที่จะวิวัฒนาการ Harness ที่มีการแข่งขันได้ ไม่จำเป็นต้องคิดระเบียบวิธีใดๆ แทน Agent แค่ให้ workspace ที่ชัดเจน อินเทอร์เฟซการแก้ไขที่แน่นอน และสัญญาณข้อเสนอแนะที่มีคุณภาพสูง พฤติกรรมของ Evolve Agent ก็จะบรรจบกับวิศวกรจริงโดยอัตโนมัติ

ถึงเวลาแล้วที่จะก้าวแรก ปล่อยให้ Harness เริ่มวิวัฒนาการ

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง