ทีมวิจัยจากมหาวิทยาลัยฟู่ตั้นและปักกิ่งเสนอ AHE: กรอบการทำงานที่ให้ AI ปรับปรุงความสามารถของตัวเองโดยอัตโนมัติ ประสิทธิภาพพุ่งสูงขึ้นในเร็ววัน

ทีมวิจัยจากมหาวิทยาลัยฟู่ตั้นและปักกิ่งเสนอ AHE: กรอบการทำงานที่ให้ AI ปรับปรุงความสามารถของตัวเองโดยอัตโนมัติ ประสิทธิภาพพุ่งสูงขึ้นในเร็ววัน

ตั้งแต่ปี 2026 เป็นต้นมา OpenAI, Anthropic, LangChain และองค์กรอื่นๆ ได้เผยแพร่บล็อกทางเทคนิคเกี่ยวกับ Harness Engineering อย่างต่อเนื่อง ในขณะที่โครงการอย่าง OpenClaw และ Hermes Agent ได้รับความนิยมมากขึ้น ผลักดันให้ Harness Engineering กลายเป็นจุดสนใจของอุตสาหกรรม วงการเริ่มมีความเห็นพ้องต้องกันว่า การปลดปล่อยประสิทธิภาพของโมเดลนั้น ขึ้นอยู่กับกรอบงานภายนอกที่ซับซ้อนเป็นอย่างมาก

การออกแบบและปรับแต่ง Harness โดยพื้นฐานแล้วเป็นปัญหาทางวิศวกรรม ซึ่งต้องอาศัยการออกแบบร่วมกันระหว่างความสามารถของโมเดลและสภาพแวดล้อมของงาน อย่างไรก็ตาม โมเดลต่างๆ มีการอัปเกรดเป็นรอบรายเดือน ในขณะที่สถานการณ์งานมีแนวโน้มเป็นการกระจายแบบหางยาวมากขึ้นเรื่อยๆ แต่การพัฒนาของ Harness ยังคงต้องพึ่งพาประสบการณ์ของมนุษย์เป็นอย่างมาก สิ่งนี้นำไปสู่ประเด็นหลัก: ในวงจรปิดของการทำซ้ำของ Harness Engineering ขั้นตอนใดบ้างที่สามารถทำให้เป็นอัตโนมัติได้? จะทำให้ Harness สามารถเรียนรู้จากประสบการณ์และปรับปรุงอย่างต่อเนื่องได้อย่างไร?

ทีมวิจัยจากมหาวิทยาลัย Fudan, มหาวิทยาลัยปักกิ่ง และ Shanghai Qiji Zhifeng ได้เสนอ Agentic Harness Engineering (AHE) ซึ่งเป็นวิธีการปรับแต่ง Harness แบบอัตโนมัติที่ขับเคลื่อนด้วยการสังเกตการณ์ (Observability) ครอบคลุมกระบวนการทั้งหมดของ Harness Engineering อย่างสมบูรณ์ โดยมีเป้าหมายเพื่อปลดปล่อยความสามารถในการดำเนินการของโมเดลให้สูงสุด

ทีมวิจัยจากมหาวิทยาลัยฟู่ตั้นและปักกิ่งเสนอ AHE: กรอบการทำงานที่ให้ AI ปรับปรุงความสามารถของตัวเองโดยอัตโนมัติ ประสิทธิภาพพุ่งสูงขึ้นในเร็ววัน

  • ชื่อบทความ: Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses
  • ลิงก์บทความ: arxiv.org/abs/2604.25850
  • คลังรหัส: github.com/china-qijizhifeng/agentic-Harness-engineering
  • บล็อกโครงการ: https://dawning-road.github.io/blog/agentic-Harness-engineering

ในการทดลอง โดยใช้ GPT-5.4 คะแนนของ AHE บน Terminal-Bench 2 เพิ่มขึ้นจาก 69.7 เป็น 77.0 หลังจากการทำซ้ำ หลังจาก GPT-5.5 เปิดตัว AHE ก็ทำซ้ำ Harness ที่เข้ากันได้อย่างรวดเร็ว และติดอันดับที่สามของโลกบน Leaderboard

ทีมวิจัยจากมหาวิทยาลัยฟู่ตั้นและปักกิ่งเสนอ AHE: กรอบการทำงานที่ให้ AI ปรับปรุงความสามารถของตัวเองโดยอัตโนมัติ ประสิทธิภาพพุ่งสูงขึ้นในเร็ววัน

นอกจากนี้ Harness ที่สร้างขึ้นจากการทำซ้ำอัตโนมัติยังแสดงให้เห็นถึงความสามารถในการสรุปทั่วไปข้ามโมเดลและข้ามงานได้ดี ทำให้มั่นใจได้ว่าไม่ได้เกิดการโอเวอร์ฟิตกับชุดประเมินผล

ปัจจุบัน บทความนี้ได้รับความสนใจอย่างกว้างขวางบนแพลตฟอร์มโซเชียล X โดยมียอดเข้าชมและพูดคุยมากกว่า 100,000 ครั้ง

ทีมวิจัยจากมหาวิทยาลัยฟู่ตั้นและปักกิ่งเสนอ AHE: กรอบการทำงานที่ให้ AI ปรับปรุงความสามารถของตัวเองโดยอัตโนมัติ ประสิทธิภาพพุ่งสูงขึ้นในเร็ววัน

เหตุใดจึงต้องสร้างระบบสังเกตการณ์?

สามมุมมองของ Harness Engineering

ทีมวิจัยจากมหาวิทยาลัยฟู่ตั้นและปักกิ่งเสนอ AHE: กรอบการทำงานที่ให้ AI ปรับปรุงความสามารถของตัวเองโดยอัตโนมัติ ประสิทธิภาพพุ่งสูงขึ้นในเร็ววัน

ในแง่ของรูปแบบ โมเดลและ Harness ร่วมกันก่อตัวเป็นหน่วยงานหนึ่ง ซึ่งมีปฏิสัมพันธ์กับสภาพแวดล้อม พฤติกรรมทั้งหมดของโมเดลเกิดขึ้นในพื้นที่ความน่าจะเป็น ซึ่งเป็นแหล่งที่มาของการบีบอัดข้อมูล การเกิดปัญญา และความไม่แน่นอน ในขณะที่ Harness เป็นส่วนประกอบที่แน่นอนซึ่งห่อหุ้มอยู่ภายนอก รวมถึง system prompt, คำจำกัดความและการใช้งานเครื่องมือ, middleware/hook, เอกสารทักษะ, การจัดเรียง sub-agent, ความจำระยะยาว, บันทึกและการสังเกตการณ์ ในกระบวนการที่ agent มุ่งสู่ภารกิจระยะยาวและงานด้านการผลิต Harness คือการรับประกันสำคัญที่ทำให้พฤติกรรมของโมเดลมีเสถียรภาพ สอดคล้อง และควบคุมได้

ในแง่ของวัตถุประสงค์ หน้าที่หลักอย่างหนึ่งของ Harness คือการจัดการกระแสบริบทแบบสองทิศทางระหว่างโมเดลและสภาพแวดล้อม: ในด้านหนึ่ง จะส่งงาน ความตั้งใจของผู้ใช้ สถานะสภาพแวดล้อม และข้อมูลภายนอกไปยังโมเดลในเวลาที่เหมาะสม อีกด้านหนึ่ง จะบันทึกการกระทำของโมเดลอย่างซื่อสัตย์ ตรวจสอบความถูกต้อง แล้วส่งกลับไปยังสภาพแวดล้อมเพื่อดำเนินการ

ในอดีต นักพัฒนาต้องออกแบบ prompt ด้วยตนเอง คัดลอกเอาต์พุตของ terminal คัดลอกเนื้อหาเอกสารภายนอกให้กับโมเดล บริบทกระจายอยู่ในพื้นที่ที่ไม่เชื่อมต่อถึงกัน มนุษย์อาศัยเพียงสัญชาตญาณและการสังเกตเพื่อตัดสินใจว่า context ประกอบด้วยอะไร ดังนั้น เป้าหมายการออกแบบอย่างหนึ่งของ Harness คือการทำให้การไหลของ context แม่นยำและเป็นอิสระมากขึ้น

จากรูปแบบและวัตถุประสงค์ข้างต้น ระเบียบวิธีของ Harness Engineering คืออะไร?

วิธีที่ตรงที่สุดคือการปรับแต่งโค้ดของแต่ละส่วนประกอบอย่างอิสระ หรือที่เรียกว่า Agent Infra ชุมชนนักพัฒนาได้มีส่วนร่วมในส่วนประกอบ Harness ที่มีประโยชน์มากมาย สำหรับความจำ การจัดการบริบท สภาพแวดล้อมแซนด์บ็อกซ์ การจัดการร่องรอย ฯลฯ ซึ่งอาศัยการพัฒนาทางวิศวกรรมและการปรับแต่งอย่างแข็งแกร่ง ทำให้แต่ละส่วนมีประสิทธิภาพ ปลอดภัย และเสถียรมากขึ้นโดยอิสระ

ยิ่งไปกว่านั้น สำหรับสภาพแวดล้อมเฉพาะใดๆ หากต้องการค้นหา Harness ที่ดีที่สุด สิ่งนี้จะกลายเป็นปัญหาการปรับแต่งแบบผสมผสานของโมเดล x Harness x สภาพแวดล้อม ไม่มีกฎเกณฑ์ที่ชัดเจนเหมือนกับการพัฒนาส่วนประกอบเดี่ยวๆ และไม่สามารถใช้ความรู้มาก่อนของนักพัฒนามนุษย์เพื่อค้นหาชุดค่าผสมที่ดีที่สุดในครั้งเดียว แต่จำเป็นต้องพัฒนา สังเกตการณ์ ทำซ้ำ และปรับเปลี่ยนซ้ำๆ ตามร่องรอยการทำงานของโมเดลและคะแนนการประเมิน

ความสนใจของมนุษย์นั้นหายาก ดังนั้นจึงจำเป็นต้องให้ agent เข้ามามีส่วนร่วมในกระบวนการปรับแต่ง Harness ด้วย ตราบใดที่เป้าหมายการปรับแต่ง พื้นที่การกระทำ และพื้นที่สถานะถูกนำเสนอในรูปแบบที่ agent อ่านได้ ก็สามารถนำ agent เข้ามาทำการปรับแต่งอย่างอิสระได้ นี่คือจุดเริ่มต้นของการออกแบบระบบสังเกตการณ์ของ AHE

ระบบสังเกตการณ์: ส่วนประกอบ ประสบการณ์ การตัดสินใจ

การพัฒนา Harness แบ่งออกเป็นหลายขั้นตอน: การเขียนส่วนประกอบ การรัน agent การรวบรวมข้อเสนอแนะ กระบวนการนี้ทำซ้ำและดำเนินต่อไปอย่างต่อเนื่อง หากต้องการให้ agent ทำงานแทนมนุษย์ จำเป็นต้องทำให้ context ที่เกิดขึ้นในกระบวนการนี้สามารถสังเกตการณ์ได้ และจัดโครงสร้างและลำดับชั้นของ context ให้ดี

ในกระบวนการนี้ จะไม่จำกัดพื้นที่การตัดสินใจที่เป็นอิสระของ agent อาศัยเพียงผลการประเมินและข้อมูลแบบแบ่งชั้นเพิ่มเติมเพื่อช่วยให้มันแก้ไขได้อย่างแม่นยำและระบุสาเหตุได้ถูกต้อง

วิธีการ AHE ประกอบด้วยสามบทบาท: Coding Agent ทำหน้าที่รันการทดสอบ, Agent Debugger ทำหน้าที่จัดระเบียบร่องรอย, Evolve Agent ทำหน้าที่แก้ไข Harness ของ Coding Agent เพื่อให้เกิดวิวัฒนาการ

ระบบสังเกตการณ์ทั้งหมดแบ่งออกเป็นสามส่วน:

  1. NexAU จัดหา Harness ที่แยกส่วนต่างๆ ออกจากกัน ทำให้ส่วนประกอบ Harness สามารถสังเกตการณ์ได้
  2. Agent Debugger กลั่นกรอง raw trace ปริมาณ 10M token ให้เป็นความคิดเห็นแบบหลายมิติแบบแบ่งชั้นและสามารถสืบย้อนต้นตอได้ ทำให้ประสบการณ์สามารถสังเกตการณ์ได้
  3. Evolve Agent สร้างห่วงโซ่การแก้ไขที่สมบูรณ์ซึ่งขับเคลื่อนด้วยหลักฐาน โดยอิงจากประวัติส่วนประกอบที่สืบย้อนผ่าน git และผลลัพธ์ของข้อเสนอแนะ จากนั้นแก้ไขส่วนประกอบที่เกี่ยวข้อง ทำให้พฤติกรรมการปรับแต่งสามารถสังเกตการณ์ได้

ทีมวิจัยจากมหาวิทยาลัยฟู่ตั้นและปักกิ่งเสนอ AHE: กรอบการทำงานที่ให้ AI ปรับปรุงความสามารถของตัวเองโดยอัตโนมัติ ประสิทธิภาพพุ่งสูงขึ้นในเร็ววัน

(1) การสังเกตการณ์ส่วนประกอบ: “Harness แบบประกาศ” ที่แยกส่วน

Coding Agent ทำงานบนกรอบงาน NexAU AHE แยก Harness ออกเป็นส่วนประกอบระดับไฟล์แบบตั้งฉากเจ็ดประเภท: System Prompt, Tool Description, Tool Implementation, Middleware, Skill, Sub-agent Config, Long-term Memory แต่ละส่วนประกอบเป็นไฟล์อิสระ มีจุดเชื่อมต่อที่ชัดเจน และโครงสร้างแยกออกจากกัน

ความชาญฉลาดของการออกแบบนี้คือ: ทำให้ความสัมพันธ์แบบแผนที่ “รูปแบบความล้มเหลว – ส่วนประกอบเดียว” ชัดเจนอย่างยิ่ง การแก้ไขทั้งหมดได้รับการจัดการเวอร์ชันผ่าน Git การเปลี่ยนแปลงแต่ละครั้งคือ commit ที่สามารถสืบย้อน ตรวจสอบ และย้อนกลับได้

Coding Agent เป้าหมายเริ่มต้นจากรูปแบบที่เรียบง่ายที่สุดแบบ “ไม่มีความรู้มาก่อน” อย่างจงใจ: มีเพียงเครื่องมือ run_shell_command ไม่มี Middleware, Skill หรือ Sub-agent ใดๆ การทำเช่นนี้เพื่อให้แน่ใจว่าการเพิ่มส่วนประกอบใหม่หรือการเขียน Prompt ใหม่ในภายหลังแต่ละครั้ง สามารถระบุสาเหตุได้อย่างสะอาด

(2) การสังเกตการณ์ประสบการณ์: Agent Debugger เปลี่ยนร่องรอยให้เป็นสินทรัพย์ที่บริโภคได้

ร่องรอยดิบที่เกิดจากการประเมินผลที่สมบูรณ์หนึ่งครั้งมีจำนวน Token นับสิบล้าน หากโยนให้ Evolve Agent โดยตรง หน้าต่างบริบทของมันจะถูกท่วมทับทันที และไม่สามารถแก้ไขโค้ดใดๆ ได้

AHE พัฒนาสายการกลั่นกรองแบบแบ่งชั้นที่เรียกว่า Agent Debugger: ชั้นล่างบันทึกร่องรอยดิบทั้งหมดอย่างสมบูรณ์ ชั้นกลางใช้ Cleaner เพื่อลบเอาต์พุตเครื่องมือที่ซ้ำซ้อน ชั้นบนใช้ QA Sub-agent เพื่อสลับกลยุทธ์การถามโดยอัตโนมัติตามผลลัพธ์การรันหลายครั้งของแต่ละคำถาม สุดท้าย การวิเคราะห์แต่ละคำถามจะถูกรวบรวมเป็นรายงานสรุปประมาณ 10K Token ส่งให้ Evolve Agent บริโภค

โดยพื้นฐานแล้ว สิ่งนี้สะท้อนถึงแนวคิดการออกแบบการเปิดเผยแบบค่อยเป็นค่อยไป โดยค่าเริ่มต้น Evolve Agent จำเป็นต้องดูรายงานสรุปเท่านั้น แต่สามารถดูรายละเอียดของแต่ละคำถามได้ตลอดเวลา และย้อนกลับไปยังร่องรอยดิบเมื่อต้องการตรวจสอบข้อสรุป ด้วยวิธีนี้ ข้อมูลระดับ 10M จะถูกแปลงเป็นสินทรัพย์ประสบการณ์ที่สามารถประมวลผลแบบขนาน บริโภค และตรวจสอบได้

(3) การสังเกตการณ์การตัดสินใจ: “การแก้ไขที่ขับเคลื่อนด้วยหลักฐาน” ของ Evolve Agent

ทีมวิจัยจากมหาวิทยาลัยฟู่ตั้นและปักกิ่งเสนอ AHE: กรอบการทำงานที่ให้ AI ปรับปรุงความสามารถของตัวเองโดยอัตโนมัติ ประสิทธิภาพพุ่งสูงขึ้นในเร็ววัน

หลักการออกแบบของ Evolve Agent นั้นจำกัดอย่างมาก เป้าหมายหลักคือการบรรลุวิวัฒนาการที่มั่นคง:

  • อนุญาตให้แก้ไขเฉพาะไฟล์ส่วนประกอบ Harness ภายใน workspace เท่านั้น ในขณะที่กรอบงานการประเมิน การกำหนดค่า LLM และ System Prompt ดั้งเดิมถูกตั้งค่าเป็นแบบอ่านอย่างเดียว เพื่อป้องกันพฤติกรรมการแฮ็กที่เลี่ยงการประเมิน
  • การแก้ไขแต่ละครั้งต้องมาพร้อมกับ “รายการการเปลี่ยนแปลง” ซึ่งประกอบด้วย: หลักฐานของความล้มเหลว (งานใดล้มเหลวโดยเฉพาะ), สาเหตุหลักที่อนุมาน, แผนการแก้ไขที่ตรงเป้าหมาย และการคาดการณ์ที่ประกาศด้วยตนเอง (คาดว่าจะแก้ไขงานใด อาจทำให้งานใดเสียหาย) หลังจากการแก้ไขแต่ละรอบ รอบการประเมินถัดไปจะทำหน้าที่เป็นผู้ตรวจสอบ: การแก้ไขที่คาดการณ์ถูกต้องจะถูกเก็บไว้ ส่วนการแก้ไขที่คาดการณ์ผิด ระบบจะตัดสินใจย้อนกลับโดยอิสระ

ด้วยวิธีนี้ การเปลี่ยนแปลง Harness แต่ละครั้งจะไม่ใช่สัญชาตญาณหรือประสบการณ์นามธรรมของวิศวกรอีกต่อไป แต่เป็นสมมติฐานที่สามารถพิสูจน์หักล้างได้จากการทดลองรอบถัดไป วิวัฒนาการของ Harness จึงเปลี่ยนจากศิลปะไปสู่วิศวกรรม จากประสบการณ์ไปสู่วิทยาศาสตร์

ผลการทดลอง: เหนือกว่าผู้เชี่ยวชาญมนุษย์, การสรุปทั่วไปข้ามโมเดล

ทีมวิจัยจากมหาวิทยาลัยฟู่ตั้นและปักกิ่งเสนอ AHE: กรอบการทำงานที่ให้ AI ปรับปรุงความสามารถของตัวเองโดยอัตโนมัติ ประสิทธิภาพพุ่งสูงขึ้นในเร็ววัน

ในการทดลองหลัก AHE เพิ่มคะแนน pass@1 ของ Coding Agent ที่ขับเคลื่อนด้วย GPT-5.4 บน Terminal-Bench 2 จาก 69.7% เป็น 77.0% เพิ่มขึ้นสัมบูรณ์ 7.3 จุดเปอร์เซ็นต์ หรือเพิ่มขึ้นสัมพัทธ์ 10.5% ผลลัพธ์นี้ไม่เพียงแต่เหนือกว่า Codex-CLI (71.9%) อย่างเป็นทางการของ OpenAI ที่ใช้ GPT-5.4 เช่นเดียวกัน แต่ยังเหนือกว่าเกณฑ์พื้นฐานหลักอย่าง ACE และ Training Free-GRPO อย่างมีนัยสำคัญ

ที่น่าประหลาดใจยิ่งกว่าคือความสามารถในการสรุปทั่วไป

(1) การสรุปทั่วไปข้ามงาน: เมื่อแช่แข็ง Harness ที่วิวัฒนาการบน Terminal-Bench 2 แล้วย้ายไปยัง SWE-Bench Verified โดยตรง AHE บรรลุอัตราความสำเร็จที่สูงกว่า ACE และ TF-GRPO โดยใช้ Token น้อยกว่า ซึ่งบ่งชี้ว่าสิ่งที่วิวัฒนาการเรียนรู้ไม่ใช่ความรู้เฉพาะทาง “วิธีการทำคะแนน Terminal-Bench 2” แต่เป็นประสบการณ์ทางวิศวกรรมทั่วไปที่สามารถถ่ายโอนได้

ทีมวิจัยจากมหาวิทยาลัยฟู่ตั้นและปักกิ่งเสนอ AHE: กรอบการทำงานที่ให้ AI ปรับปรุงความสามารถของตัวเองโดยอัตโนมัติ ประสิทธิภาพพุ่งสูงขึ้นในเร็ววัน

(2) การสรุปทั่วไปข้ามโมเดล: Harness เดียวกันที่วิวัฒนาการโดย GPT-5.4 ถูกนำไปใช้กับ Qwen-3.6-Plus, Gemini-3.1-Flash และ DeepSeek-V4 โดยไม่มีการวิวัฒนาการซ้ำและประเมินผลโดยตรง ผลลัพธ์แสดงให้เห็นว่าโมเดลทั้งสามได้รับคะแนนเพิ่มขึ้นอย่างมีนัยสำคัญตั้งแต่ +5.1 ถึง +10.1 จุดเปอร์เซ็นต์ และยิ่งโมเดลอ่อนแอ ขนาดการเพิ่มขึ้นก็ยิ่งมากขึ้น Harness นี้ไม่ได้ถูกปรับแต่งสำหรับโมเดลเฉพาะใดๆ แต่ได้เรียนรู้หลักการเชิงโครงสร้างที่เป็นสากลอย่างแท้จริง

ทีมวิจัยจากมหาวิทยาลัยฟู่ตั้นและปักกิ่งเสนอ AHE: กรอบการทำงานที่ให้ AI ปรับปรุงความสามารถของตัวเองโดยอัตโนมัติ ประสิทธิภาพพุ่งสูงขึ้นในเร็ววัน

คุณค่าที่แท้จริงอยู่ที่ไหน? ข้อเท็จจริงสามารถถ่ายโอนได้ดีกว่ากลยุทธ์

ในบล็อก ผู้เขียนยังกล่าวถึงการสำรวจที่ล้มเหลวในช่วงแรกอีกด้วย เพื่อการทำซ้ำอย่างรวดเร็ว ทีมงานเริ่มแรกทำการวิวัฒนาการเพียง 10 รอบใน 30 ข้อที่มีความยากระดับ hard ของ Terminal-Bench 2 ผลลัพธ์คือจำนวนข้อที่ผ่านผันผวนระหว่าง 16-20 โดยพื้นฐานแล้วแก้หนึ่งข้อก็เสียอีกข้อหนึ่ง การวิเคราะห์ Harness เวอร์ชันสุดท้ายพบว่า Evolve Agent เขียนแฮ็กเฉพาะสำหรับงานบางอย่าง: การตรวจจับ splice-offset ของ Golden Gate, เทมเพลตเวิร์กโฟลว์ที่สมบูรณ์ของ Caffe เป็นต้น ซึ่งบ่งชี้ว่าชุดข้อสอบที่เล็กเกินไปทำให้สัญญาณของข้อเดียวแรงเกินไป ไม่สามารถยับยั้งแนวโน้มการแฮ็กของ agent ได้

จากนั้นทีมงานขยายชุดข้อสอบเป็น 89 ข้อเต็ม และเพิ่มคำแนะนำระเบียบวิธีที่ชัดเจนใน System Prompt ของ Evolve Agent เช่น หลักการ “Safety/Creativity/Generality” และการจัดลำดับชั้นข้อจำกัด “Middleware > Tool Desc > Skill > Prompt” ผลลัพธ์คือ overfit ลดลงบ้าง แต่เส้นโค้งการฝึกถึงจุดสูงสุดที่ 75.3% และไม่เพิ่มขึ้นอีก การแก้ไข 78% กระจุกตัวอยู่ที่ชั้น Middleware ความรู้มาก่อนเกี่ยวกับพฤติกรรมที่นำเข้ามาโดยมนุษย์กลับกลายเป็นแหล่งที่มาของความแข็งแกร่งในวิวัฒนาการ

เวอร์ชันสุดท้ายทำการเปลี่ยนแปลงสำคัญสองประการ: ประการแรกคือรันแต่ละข้อสองครั้งในการประเมิน ใช้ diff ของ partial-pass เพื่อระบุสัญญาณการวินิจฉัยที่แม่นยำที่สุด ประการที่สองคือลบคำแนะนำพฤติกรรมทั้งหมด เหลือเพียงข้อกำหนดกระบวนการที่ขับเคลื่อนด้วยหลักฐานและกฎการย้อนกลับ

ผลลัพธ์คือ ไม่เพียงแต่คะแนนจะเพิ่มขึ้นอย่างต่อเนื่องเป็น 77.0% เท่านั้น แต่การกระจายการแก้ไขยังดีต่อสุขภาพมากขึ้น: middleware 37% + tool 48% + prompt 10% ไม่มีชั้นใดครอบครองเกินครึ่ง และสามารถปรับเปลี่ยนได้อย่างยืดหยุ่นในแต่ละช่วง

ทีมวิจัยจากมหาวิทยาลัยฟู่ตั้นและปักกิ่งเสนอ AHE: กรอบการทำงานที่ให้ AI ปรับปรุงความสามารถของตัวเองโดยอัตโนมัติ ประสิทธิภาพพุ่งสูงขึ้นในเร็ววัน

ความคิดเชิงนิสัยจากชุมชนคือ “ปรับ Prompt ก่อน” อย่างไรก็ตาม เมื่อนำส่วนประกอบสี่ประเภท (Memory, Tools, Middleware, System Prompt) ที่วิวัฒนาการโดย AHE กลับไปวางทีละชิ้นใน Harness ดั้งเดิมเพื่อทำการทดสอบการตัดออก ผลลัพธ์กลับตรงกันข้าม: Memory เพียงอย่างเดียวสามารถฟื้นฟูการเพิ่มขึ้นโดยรวมได้มากกว่า 95% Tool มีการปรับปรุงอย่างมีนัยสำคัญในข้อที่มีความยากปานกลาง ในขณะที่การย้าย System Prompt เพียงอย่างเดียวกลับทำให้ประสิทธิภาพลดลง

สาเหตุที่เป็นไปได้ประการหนึ่งคือ: ความหมายของ Prompt เป็นเชิงกลยุทธ์ (คุณควรทำสิ่งนี้) ในขณะที่ความหมายของ Memory และ Tool เป็นเชิงข้อเท็จจริง (นี่คือโค้ดที่ใช้ซ้ำได้) ข้อเท็จจริงสามารถถ่ายโอนได้ดีกว่ากลยุทธ์ พวกมันเก็บรักษาข้อมูลไว้ ในขณะที่ยังคงรักษาความสามารถในการสรุปทั่วไปไว้ได้ สิ่งนี้อาจอธิบายได้ว่าทำไมมนุษย์ถึงล้มเหลวเมื่อพยายามชี้แนะ Evolve Agent โดยการใส่ระเบียบวิธี: นักพัฒนามักจะสอนกลยุทธ์ ในขณะที่โมเดลเก่งกว่าในการเรียนรู้ข้อเท็จจริง

บทสรุป: วงจรวิวัฒนาการที่สังเกตได้จะทำให้ AGI มาถึงเร็วขึ้น

บางทีบทเรียนที่ยิ่งใหญ่ที่สุดจาก AHE คือ: เมื่อโมเดลแข็งแกร่งพอ การสร้างสภาพแวดล้อมวิวัฒนาการที่มีโครงสร้างและสังเกตได้นั้นสำคัญกว่าการพัฒนา Harness โดยตรง สร้างระบบสังเกตการณ์ (ให้ Evolve Agent เข้าถึงส่วนประกอบ ร่องรอย ข้อเสนอแนะ) จากนั้นรันการทดสอบบนข้อมูลทั้งหมด ก็เพียงพอที่จะวิวัฒนาการ Harness ที่มีการแข่งขันได้ ไม่จำเป็นต้องคิดระเบียบวิธีใดๆ แทน Agent แค่ให้ workspace ที่ชัดเจน อินเทอร์เฟซการแก้ไขที่แน่นอน และสัญญาณข้อเสนอแนะที่มีคุณภาพสูง พฤติกรรมของ Evolve Agent ก็จะบรรจบกับวิศวกรจริงโดยอัตโนมัติ

ถึงเวลาแล้วที่จะก้าวแรก ปล่อยให้ Harness เริ่มวิวัฒนาการ


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/35752

Like (0)
Previous 7 hours ago
Next 7 hours ago

相关推荐