เอเจนต์อัจฉริยะที่พัฒนาตนเองได้ GenericAgent เปิดตัว: ลดการใช้ Token ลง 10 เท่า ความแม่นยำของงาน 100%

2 days ago • ข่าวสารอุตสาหกรรม AI • 26 views

จะเกิดอะไรขึ้นเมื่อเอเจนต์ AI ไม่ใช่ “เครื่องมือใช้ครั้งเดียว” อีกต่อไป แต่เป็น “เพื่อนร่วมทางดิจิทัล” ที่เรียนรู้และวิวัฒนาการตนเองได้อย่างต่อเนื่อง เอเจนต์อัจฉริยะที่วิวัฒนาการตนเองควร遵循หลักการออกแบบอย่างไร

ระบบเอเจนต์อัจฉริยะที่วิวัฒนาการตนเองระบบแรกของโลกที่ยึดหลักการออกแบบ “การเพิ่มความหนาแน่นของข้อมูลบริบทสูงสุด” — GenericAgent (GA) ได้เปิดตัวรายงานทางเทคนิคอย่างเป็นทางการแล้ว

รายงานแสดงให้เห็นว่า ภายใต้เงื่อนไขการรักษาความแม่นยำของงาน GA ลดการใช้ Token ลงเกือบ 10 เท่าเมื่อเทียบกับคู่แข่งในกลุ่มเดียวกัน รายงานนี้เจาะลึกแนวคิดการออกแบบหลักของ GA แนะนำเกณฑ์มาตรฐานสำหรับการประเมินเอเจนต์ที่วิวัฒนาการตนเอง และเปิดเผยข้อมูลการประเมินโดยละเอียด วิเคราะห์ความสามารถในการวิวัฒนาการตนเองของ GA และแนวคิดที่เชื่อถือได้ในการออกแบบเอเจนต์อย่างครอบคลุม

รายงานทางเทคนิคความยาว 47 หน้านี้ พร้อมให้คุณได้อ่านวันนี้

เอเจนต์อัจฉริยะที่พัฒนาตนเองได้ GenericAgent เปิดตัว: ลดการใช้ Token ลง 10 เท่า ความแม่นยำของงาน 100%

ลิงก์อัปเดตแบบเรียลไทม์บน Github: https://github.com/lsdefine/GenericAgent/blob/main/assets/GenericAgent_Technical_Report.pdf
ลิงก์เวอร์ชัน arXiv: https://arxiv.org/abs/2604.17091

GA คืออะไร?

GenericAgent (GA) เป็นระบบเอเจนต์อัจฉริยะโมเดลภาษาขนาดใหญ่ (LLM) แบบทั่วไปที่วิวัฒนาการตนเองได้ สร้างขึ้นโดยห้องปฏิบัติการ A3 (Advantage AI Agent Lab ซึ่งร่วมมือกับ Shenzhen Kuakua Jinling Technology Co., Ltd.) ภายใต้ Knowledge Workspace Lab ของมหาวิทยาลัย Fudan

GA เป็นหนึ่งในตัวแทนของเอเจนต์อัจฉริยะทั่วไปรุ่นถัดไปที่จัดระเบียบตนเอง เรียนรู้ตนเอง และวิวัฒนาการตนเอง มันคือสิ่งมีชีวิตดิจิทัลที่มี “ความรู้สึกมีชีวิต” สามารถเรียนรู้และเติบโตได้อย่างรวดเร็วภายใต้การใช้งานและการปรับแต่งอย่างต่อเนื่องของผู้ใช้ เวอร์ชันประยุกต์ใช้เชิงพาณิชย์ของเทคโนโลยี GA คือ DinTal Claw ซึ่งมีเป้าหมายเพื่อนำสถาปัตยกรรมการวิวัฒนาการตนเองนี้ไปประยุกต์ใช้ในเชิงลึกในสถานการณ์ภาครัฐและองค์กร สร้างมาตรฐานการปฏิบัติจริงของ “พนักงานดิจิทัลอัจฉริยะ” ที่มีต้นทุนต่ำ ประสิทธิภาพสูง ปลอดภัยและควบคุมได้

นับตั้งแต่เปิดตัวเป็นโอเพนซอร์สเมื่อวันที่ 11 มกราคม 2026 GA เคยขึ้นอันดับหนึ่งในการจัดอันดับภาษาโปรแกรม Python บน GitHub Trending เอาชนะระบบโอเพนซอร์สของบริษัท AI ชั้นนำอย่าง OpenAI และ Google

สรุปผลก่อน: GA เก่งตรงไหน?

อัตราความสำเร็จของงานสูงขึ้น: ในการทดสอบเกณฑ์มาตรฐานหลายรายการ GA ทำความแม่นยำได้ 100% นำหน้าระบบเอเจนต์กระแสหลักอย่างครอบคลุม
การใช้ Token ต่ำลง: ภายใต้ภารกิจเดียวกัน การใช้ Token เพียง 15% ถึง 35% ของระบบเอเจนต์กระแสหลัก มีข้อได้เปรียบทั้งด้านต้นทุนและประสิทธิภาพ
ยิ่งใช้ยิ่งฉลาด: เมื่อทำงานเดิมซ้ำๆ การใช้ Token สามารถลดลงได้สูงสุดถึง 89.6% ทำให้เกิด “การนำประสบการณ์กลับมาใช้ใหม่” อย่างแท้จริง
การท่องเว็บแข็งแกร่งขึ้น: ในภารกิจค้นหาแบบหลายขั้นตอนที่ซับซ้อน ความแม่นยำสูงกว่าระบบพื้นฐาน 3 เท่า ในขณะที่ใช้ทรัพยากรน้อยกว่า

แผนภาพสถาปัตยกรรมโดยรวมของ GenericAgent

ทำไมคุณต้องสนใจ GA?

จาก Claude Code, OpenAI Codex ถึง Openclaw AI กำลังเปลี่ยนจากเครื่องมือสร้างข้อความแบบพาสซีฟ มาเป็น “เอเจนต์ที่ขับเคลื่อนด้วยเป้าหมาย” ที่สามารถทำงานบนเทอร์มินัล ระบบไฟล์ และเบราว์เซอร์ได้อย่างอิสระ อย่างไรก็ตาม มีคำถามโดยตรงที่ผู้ใช้ต้องเผชิญ: “พวกมันใช้งานได้ดีจริงหรือ?”

เอเจนต์ “ความจำไม่ดี” คุยไปคุยมาก็ลืม

เอเจนต์แบบดั้งเดิมเมื่อมีการโต้ตอบมากขึ้น บริบทจะยาวขึ้นเรื่อยๆ หรือที่เรียกว่า “การระเบิดของบริบท” ข้อมูลสำคัญกลับถูกกลบ ทำให้ยิ่งมีขั้นตอนมาก อัตราความผิดพลาดก็ยิ่งสูง

ทุกภารกิจเริ่มจากศูนย์ ไม่สามารถสะสมประสบการณ์ได้

ประสบการณ์ที่สรุปได้วันนี้ พรุ่งนี้เปลี่ยนเซสชันก็หายไป เอเจนต์ “สร้างวงล้อซ้ำแล้วซ้ำเล่า” การใช้ Token เพิ่มขึ้นเป็นเส้นตรงตามจำนวนภารกิจ แต่ความสามารถที่มีประสิทธิภาพกลับหยุดนิ่ง เกิดเป็น “วงจรหยุดนิ่ง” ที่ขาดผลตอบแทนจากการโต้ตอบที่สะสม

ข้อมูลเชิงลึกหลัก: ความหนาแน่นของข้อมูลคือกุญแจสำคัญ

เมื่อเผชิญกับปัญหาเหล่านี้ ทีมวิจัยได้เสนอ观点ที่สำคัญ:

ปัจจัยกำหนดประสิทธิภาพในระยะยาว ไม่ใช่ความยาวของบริบท แต่คือปริมาณข้อมูลที่เกี่ยวข้องกับการตัดสินใจที่สามารถคงไว้ภายในงบประมาณบริบทที่จำกัด

กล่าวอีกนัยหนึ่ง ความหนาแน่นของข้อมูลบริบทคือหัวใจสำคัญ โดยการเพิ่มความหนาแน่นของข้อมูลบริบทสูงสุด สามารถรับประกันได้ว่า: ข้อมูลการตัดสินใจไม่สูญหาย ข้อมูลซ้ำซ้อนถูกกำจัด และบริบทมีความสามารถในการอ่านสูง (รองแต่สำคัญ)

GenericAgent: สี่กลไกสร้างเอเจนต์ที่วิวัฒนาการตนเอง

บนพื้นฐานของหลักการสำคัญ “การเพิ่มความหนาแน่นของข้อมูลบริบทสูงสุด” GA บรรลุความสามารถในการวิวัฒนาการตนเองผ่านองค์ประกอบสี่ส่วนที่เชื่อมโยงกันอย่างใกล้ชิด

กลไกที่หนึ่ง: ชุดเครื่องมืออะตอมขั้นต่ำ

การลดเครื่องมือให้เหลือน้อยที่สุดไม่ใช่ข้อจำกัด แต่เป็นกลไกหลักของ GA ในการลดค่าใช้จ่ายในการโต้ตอบในขณะที่ยังคงความสามารถทั่วไป

GA เก็บเครื่องมืออะตอมไว้เพียง 9 รายการ แบ่งเป็นห้าประเภทความสามารถ: การดำเนินการไฟล์, การรันโค้ด, การโต้ตอบเว็บ, การจัดการความจำ, มนุษย์ในวงจร (Human-in-the-loop) เครื่องมืออะตอมเหล่านี้สามารถสร้างเครื่องมือใหม่เพื่อแก้ปัญหาที่ซับซ้อนได้ผ่านการรวมกันและการวางนัยทั่วไป

ที่น่าสนใจคือ เครื่องมือ “code_run” เพียงอย่างเดียวในทางทฤษฎีแล้วสมบูรณ์แบบตามทัวริง (Turing complete) สามารถจำลองฟังก์ชันของเครื่องมืออื่นๆ ทั้งหมดได้ แล้วทำไมต้องเก็บอีก 8 เครื่องมือไว้? คำตอบคือ: ชุดเครื่องมืออะตอมขั้นต่ำสามารถลดต้นทุนการตัดสินใจของภารกิจได้

ตารางด้านบนเป็นผลลัพธ์ของภารกิจที่ซับซ้อนระยะยาว ห้าภารกิจครอบคลุมการสร้างเอกสาร (การสร้าง PDF/PPT), การสร้างคำค้น SQL แบบร่วมมือ, การเขียนรายงานการวิเคราะห์การทดลอง, การตัดสินใจจัดซื้อร่วมกับการค้นหาเครือข่าย และการวิเคราะห์ความเป็นไปได้ในการทำซ้ำงานวิจัย ตารางนี้รายงานผลลัพธ์เฉลี่ยในชุดภารกิจระยะยาว

กลไกที่สอง: ความจำแบบแบ่งชั้นตามความต้องการ

หัวใจของความจำคือการเข้าถึงตามความต้องการ การออกแบบที่สำคัญของ GA คือการฉีดเฉพาะ เมทาเมโมรี (meta-memory) และ ชั้นดัชนี L1 เป็นค่าเริ่มต้น โดย遵循ห่วงโซ่เส้นทาง L1→L2/L3 และดึงข้อมูลข้อเท็จจริงหรือความรู้เชิงขั้นตอนที่ลึกกว่าเมื่อจำเป็นเท่านั้น ด้วยวิธีนี้ ความจำจะไม่ค่อยๆ แย่งงบประมาณบริบทที่ใช้งานอยู่ซึ่งจำเป็นสำหรับภารกิจปัจจุบัน

GA จัดระเบียบความจำเป็นสถาปัตยกรรมสี่ชั้น:

ชั้นดัชนี L1: ตัวชี้แบบกะทัดรัด รวมถึงจุดเข้าใช้งานความถี่สูง การแมปคำสำคัญ และข้อจำกัดแข็งจำนวนเล็กน้อย
ชั้นข้อเท็จจริง L2: ข้อมูลข้อเท็จจริงที่ผ่านการตรวจสอบและมีเสถียรภาพ มีผลในระยะยาว
ชั้น SOP L3: ความรู้เชิงขั้นตอนที่นำกลับมาใช้ใหม่ได้ รวมถึงเวิร์กโฟลว์ภารกิจ เงื่อนไขเบื้องต้น ขั้นตอนการดำเนินการที่สำคัญ กรณีล้มเหลวทั่วไป และกลยุทธ์การดีบัก/กู้คืนที่เกี่ยวข้อง
ชั้นเก็บถาวรเซสชันดั้งเดิม L4: เซสชันการดำเนินการในอดีต ใช้สำหรับการคงอยู่และการตรวจสอบย้อนกลับ

ที่ชาญฉลาดยิ่งขึ้นคือ เมื่อ L2 และ L3 เติบโตขึ้น L1 ยังคงมีขอบเขตจำกัด แต่ละรายการใน L1 บันทึกเฉพาะ “การมีอยู่” ของหมวดหมู่ความรู้ ไม่ใช่เนื้อหา

การบีบอัดที่รุนแรงนี้เป็นไปได้เพราะ LLM ทำหน้าที่เป็นตัวถอดรหัส: เมื่อมันระบุการมีอยู่ของความสามารถหรือข้อเท็จจริงที่เกี่ยวข้อง มันสามารถดึงเนื้อหาทั้งหมดจากชั้นที่ลึกกว่าผ่านการเรียกใช้เครื่องมือ

ตารางด้านบนเป็นการประเมินความจำข้อเท็จจริงระยะยาวของ GA และอื่นๆ บน LoCoMo GA 基于其优越的记忆架构设计，确保了记忆的高效召回。

กลไกที่สาม: กลไกการวิวัฒนาการตนเอง

GA ถือว่าการวิวัฒนาการตนเองเป็นกระบวนการที่ชัดเจนและตรวจสอบได้

อะไรที่กำลังวิวัฒนาการ? กลยุทธ์ ในการแก้ปัญหา ไม่ใช่เครื่องมืออะตอม อินเทอร์เฟซเครื่องมือและการโต้ตอบกับผู้ใช้ไม่ขึ้นกับภารกิจ และคงที่ในระหว่างรันไทม์ ในทางกลับกัน ความสามารถเฉพาะภารกิจทั้งหมดถูกเข้ารหัสในไฟล์ SOP และสคริปต์ที่นำกลับมาใช้ใหม่ได้
ความรู้สะสมอย่างไร? ผ่านความจำแบบแบ่งชั้น GA รับประกันว่าความรู้ที่ได้รับในเซสชันหนึ่งจะพร้อมใช้งานทันทีในเซสชันถัดไป
ควบคุมคุณภาพของวิวัฒนาการอย่างไร? GA เก็บร่องรอยการดำเนินการดั้งเดิมไว้ในชั้นความจำต่ำ (L4) แต่ไม่อนุญาตให้แพร่กระจายขึ้นไปโดยตรง โปรแกรมที่นำกลับมาใช้ใหม่ได้ใน L3 จะถูกสร้างขึ้นผ่านขั้นตอนการรวมที่ชัดเจนเท่านั้น ซึ่งจะถูกกระตุ้น ณ จุดเวลาที่มีความหมาย เช่น เมื่อบรรลุเป้าหมายย่อยหรือกู้คืนจากความล้มเหลวได้สำเร็จ

ในการรันภารกิจเดียวกันซ้ำห้าครั้ง มีเพียง GenericAgent เท่านั้นที่เพิ่มประสิทธิภาพการทำงานอย่างต่อเนื่องตามประสบการณ์ที่สะสม

กลไกที่สี่: การตัดทอนและบีบอัดบริบท

GA มุ่งเน้นไปที่การบีบอัดมากกว่าการขยาย — การบรรจุข้อมูลที่มีความหนาแน่นสูงลงในหน้าต่างที่เล็กกว่า ดีกว่าการป้อนเนื้อหาที่เจือจางลงในหน้าต่างที่ใหญ่กว่า

GA ใช้กลไกการตัดแต่งบริบทสี่แบบที่มีความละเอียดต่างกัน:

การตัดทอนเอาต์พุตเครื่องมือ: ควบคุมขนาดของข้อความแต่ละข้อความ
การบีบอัดระดับแท็ก: ลบส่วนที่มีค่าน้อยออกจากข้อความเก่า
การขับไล่ข้อความ: เมื่องบประมาณโดยรวมเกิน ให้ลบเนื้อหาที่เก่าที่สุด
พรอมพ์จุดยึดหน่วยความจำทำงาน: รับประกันว่าข้อมูลสำคัญของภารกิจยังคงมองเห็นได้หลังจากการขับไล่

กลไกทั้งสี่นี้ทำงานร่วมกันเพื่อให้แน่ใจว่าบริบทที่ใช้งานอยู่จะไม่เพิ่มขึ้นเป็นเส้นตรงตามจำนวนรอบการโต้ตอบ

หลังจากติดตั้ง 20 ทักษะและใช้งานอย่างหนัก มีเพียง GA เท่านั้นที่ป้องกันการขยายตัวของบริบทได้อย่างมีประสิทธิภาพ

ผลการประเมิน: ชัยชนะสองด้านของประสิทธิภาพและสมรรถนะ

ทีมวิจัยได้ทำการประเมิน GA อย่างครอบคลุมบนเกณฑ์มาตรฐานหลายรายการ

ข้อสรุปหลัก: สมรรถนะดีขึ้น ต้นทุนต่ำลง

ในผลการประเมินที่เข้มข้นที่สุด ผลงานของ GA ในการทดสอบเกณฑ์มาตรฐานสามรายการ ได้แก่ SOP-bench, Lifelong AgentBench และ RealFinBench นั้นน่าทึ่งมาก

ในฐานะบรรณาธิการเทคนิคมืออาชีพ ฉันได้เขียนเนื้อหาต้นฉบับใหม่ตามที่คุณต้องการ ด้านล่างนี้คือเนื้อหาในรูปแบบ Markdown ที่ฉันจัดเตรียมให้ ซึ่งลบโฆษณาและข้อมูลคิวอาร์โค้ดแล้ว และคงตัวยึดตำแหน่ง [[IMAGE_X]] ไว้

การก้าวกระโดดของสมรรถนะ: ลดการใช้ Token ลงสิบเท่า ความแม่นยำของงานถึง 100%

ในการทดสอบเกณฑ์มาตรฐานสองรายการคือ SOP-bench และ Lifelong AgentBench GenericAgent (ต่อไปนี้จะเรียกว่า GA) นำหน้าอย่างครอบคลุมด้วยความแม่นยำของงาน 100% ใน RealFinBench ซึ่งใกล้เคียงกับสถานการณ์การใช้งานจริงมากขึ้น GA ก็อยู่ในอันดับหนึ่งของอุตสาหกรรมด้วยความแม่นยำ 65%

คำอธิบายภาพ: แผนภูมิเปรียบเทียบอัตราความสำเร็จของงานและประสิทธิภาพการใช้ Token

ภายใต้ภาระงานที่เท่ากัน การใช้ Token ของ GA อยู่ที่เพียง 15% ถึง 35% ของระบบเอเจนต์กระแสหลักอื่นๆ ทำให้เกิดการเพิ่มประสิทธิภาพสองด้านทั้งประสิทธิภาพและต้นทุน

ยิ่งใช้ยิ่งฉลาด: การเพิ่มประสิทธิภาพการดำเนินการซ้ำแบบก้าวกระโดด

ความสามารถในการวิวัฒนาการตนเองของ GA คือหัวใจสำคัญของการทำงานที่มีประสิทธิภาพ เมื่อระบบอื่นๆ ดำเนินงานประเภทเดียวกันซ้ำ เวลาและปริมาณ Token ที่ใช้จะคงที่โดยประมาณ ในขณะที่สมรรถนะของ GA แสดงแนวโน้มการเพิ่มประสิทธิภาพอย่างต่อเนื่อง ข้อมูลแสดงให้เห็นว่าหลังจากรันซ้ำ 5 ครั้ง เวลาดำเนินการของ GA ลดลงจาก 102 วินาทีเหลือ 66 วินาที และการใช้ Token ลดลงจาก 200,000 เหลือ 100,000 โดยตรง การปรับปรุงนี้ไม่ใช่แค่การนำแคชกลับมาใช้ใหม่ แต่เป็นการที่ GA สกัดประสบการณ์ที่สะสมจากการลองผิดลองถูกในครั้งแรก โดยอัตโนมัติเป็นขั้นตอนการปฏิบัติงานมาตรฐานที่นำกลับมาใช้ใหม่ได้ ทำให้ภารกิจต่อๆ ไปสามารถดำเนินการต่อจากผลลัพธ์ที่มีอยู่ได้โดยตรง

คำอธิบายภาพ: กราฟเส้นโค้งการเพิ่มประสิทธิภาพการรันซ้ำ

ความสามารถในการวิวัฒนาการนี้สามารถขยายผลข้ามภารกิจได้อีกด้วย ในการทดสอบซ้ำของภารกิจเว็บที่แตกต่างกัน 8 ภารกิจ การใช้ Token ในการดำเนินการครั้งต่อๆ ไปของ GA ลดลงโดยเฉลี่ย 79.3% โดยภารกิจเดียวประหยัดได้สูงสุดถึง 92.4% ยิ่งภารกิจซับซ้อนและห่วงโซ่การพึ่งพายาวนานเท่าใด ผลการประหยัดก็ยิ่งมีนัยสำคัญมากขึ้นเท่านั้น ในทางตรงกันข้าม ข้อมูลของระบบเอเจนต์กระแสหลักในการรันหลายครั้งนั้นผันผวนไม่แน่นอน ยังคงอยู่ในขั้นตอนการสำรวจซ้ำ ในขณะที่ GA แสดงรูปแบบ “การเริ่มต้นเย็น → การลู่เข้าอย่างรวดเร็ว” ที่ชัดเจน ซึ่งเป็นการเรียนรู้ด้วยตนเองอย่างแท้จริง

คำอธิบายภาพ: แผนภูมิเปรียบเทียบการลู่เข้าของ Token ข้ามภารกิจ

วิวัฒนาการระยะยาว: การเปลี่ยนแปลงจาก “เด็กฝึกงาน” สู่ “ผู้เชี่ยวชาญ”

การเพิ่มประสิทธิภาพที่เกิดจากวิวัฒนาการระยะยาวนั้นโดดเด่นยิ่งกว่า ในการดำเนินการรอบแรก GA ใช้เวลา 7 นาที 30 วินาที เรียกใช้โมเดลขนาดใหญ่ 32 ครั้ง และใช้ Token 222,000 รายการ ในขณะที่ถึงรอบที่เก้า การทำงานเดียวกันเสร็จสิ้นในเวลาเพียง 1 นาที 38 วินาที เรียกใช้โมเดล 5 ครั้ง และใช้ Token 23,000 รายการ การใช้ Token ลดลง 89.6% และจำนวนการเรียกใช้ลดลง 84.4% วิวัฒนาการจากการสำรวจสู่การดำเนินการ จาก SOP ข้อความสู่โค้ดที่ปฏิบัติการได้นี้ ระบบดำเนินการได้อย่างอิสระโดยสมบูรณ์ โดยไม่ต้องมีการแทรกแซงจากมนุษย์

คำอธิบายภาพ: กราฟข้อมูลเส้นทางวิวัฒนาการเก้ารอบ

การท่องเว็บ: คงความชัดเจนในสภาพแวดล้อมที่ซับซ้อน

เว็บคือ “ห้องสอบสุดท้าย” ของเอเจนต์ การเข้าถึงเพียงครั้งเดียวอาจทำให้เกิดค่าใช้จ่าย Token หลายล้านรายการ GA ก็ทำงานได้ดีเยี่ยมในสถานการณ์นี้เช่นกัน ในภารกิจการให้เหตุผลแบบหลายขั้นตอนที่ท้าทายที่สุดอย่าง BrowseComp-ZH GA มีความแม่นยำถึง 0.60 ซึ่งสูงกว่าระบบเอเจนต์กระแสหลัก (0.20) ถึง 3 เท่า ในขณะที่การใช้ Token เพียงหนึ่งในสามเท่านั้น ในภารกิจเว็บจริง GA ได้คะแนน 0.577 โดยใช้ Token 0.26M ในขณะที่ระบบกระแสหลักใช้ Token 0.76M ได้เพียง 0.50 คะแนน เมื่อเผชิญกับสัญญาณรบกวน HTML จำนวนมหาศาลและองค์ประกอบ DOM แบบไดนามิก กลไกการบีบอัดบริบทและความจำแบบแบ่งชั้นของ GA แสดงให้เห็นถึงข้อได้เปรียบที่ท่วมท้น ทำให้มั่นใจได้ว่าจะไม่ “หลงทาง” ในสภาพแวดล้อมที่ซับซ้อน

คำอธิบายภาพ: แผนภูมิเปรียบเทียบสมรรถนะการท่องเว็บ

การค้นพบที่สำคัญ: คิดใหม่เกี่ยวกับการออกแบบเอเจนต์

จากกระบวนการพัฒนา GenericAgent ทีมวิจัยได้กลั่นกรองการค้นพบที่สำคัญห้าประการ ซึ่งมีแนวทางที่กว้างขวางสำหรับการออกแบบระบบเอเจนต์ LLM

การค้นพบที่หนึ่ง: ความหนาแน่นของข้อมูลบริบทคือข้อจำกัดเชิงโครงสร้าง

ความหนาแน่นของข้อมูลบริบทไม่ใช่เป้าหมายการเพิ่มประสิทธิภาพที่ “เลือกได้” แต่เป็นข้อจำกัดเชิงโครงสร้างที่ทุกระบบเอเจนต์ต้องเผชิญผ่านการออกแบบ ตราบใดที่เอเจนต์ใช้ LLM เป็นเอนจินการให้เหตุผล คุณภาพของขั้นตอนการตัดสินใจแต่ละขั้นตอนจะถูกกำหนดโดยการแพร่กระจายไปข้างหน้าครั้งเดียวในท้ายที่สุด ไม่ว่าจะมีความซับซ้อนของเครื่องมือ ความจุความจำ หรือเวิร์กโฟลว์มากเพียงใด ก็ไม่สามารถหลีกเลี่ยงข้อจำกัดนี้ได้

การค้นพบที่สอง: มีชุดความสามารถที่สมบูรณ์ขั้นต่ำของระบบเอเจนต์

ภายใต้ข้อจำกัดเชิงโครงสร้างของความหนาแน่นของข้อมูล เอเจนต์จำเป็นต้องมีความสามารถหลักเพียงสามประการเท่านั้น การออกแบบใดๆ ที่ไม่ตอบสนองความสามารถหนึ่งในสามประการนี้ จะเพิ่มความซับซ้อนเป็นพิเศษ ซึ่งจะลดความหนาแน่นของข้อมูล

อินเทอร์เฟซเครื่องมือ: ช่องทางเดียวที่เอเจนต์โต้ตอบกับโลกภายนอก
การจัดการบริบท: สอดคล้องกับอินพุตของโมเดลภาษา เนื้อหาทั้งหมด เช่น สถานะภารกิจ ผลลัพธ์ระหว่างกลาง เอาต์พุตเครื่องมือ ต้องได้รับการกรองอย่างจริงจังก่อนเข้าสู่บริบท
การสร้างความจำ: สอดคล้องกับการสะสมความรู้ข้ามภารกิจ หากไม่เก็บรักษาเนื้อหาที่ผ่านการตรวจสอบจากการโต้ตอบเป็นความจำที่นำกลับมาใช้ใหม่ได้ ทุกภารกิจจะเริ่มจากศูนย์

การค้นพบที่สาม: การใช้ Token ที่ต่ำกว่าสอดคล้องกับสมรรถนะของงานที่ดีกว่า

การค้นพบนี้ขัดกับสัญชาตญาณ เพราะโดยทั่วไปสันนิษฐานว่าห่วงโซ่การให้เหตุผลที่ยาวกว่าและรอบการโต้ตอบที่มากกว่าแสดงถึงการไตร่ตรองอย่างถี่ถ้วนมากขึ้น และควรให้ผลลัพธ์ที่ดีกว่า อย่างไรก็ตาม ผลการทดลองแสดงให้เห็นว่าในสถานการณ์การดำเนินการเอเจนต์ระยะยาว ข้อสรุปกลับตรงกันข้าม ใน Lifelong AgentBench GA ใช้เพียง 27.7% ของ Token อินพุตของ Claude Code และ 15.5% ของ OpenClaw แต่ในขณะเดียวกันก็บรรลุอัตราความสำเร็จของงาน 100% เมื่อเกินจุดวิกฤตที่กำหนด Token เพิ่มเติมจะไม่นำข้อมูลที่เป็นประโยชน์มาใช้ แต่กลับลดคุณภาพการให้เหตุผลเนื่องจากปัญหาต่างๆ เช่น อคติตำแหน่ง การเจือจางความสนใจ และการหดตัวของหน้าต่างที่มีประสิทธิภาพ เอเจนต์ที่ใช้ Token มากกว่า โดยแก่นแท้แล้วคือความล้มเหลวอย่างเป็นระบบของการจัดการบริบท ซึ่งพยายามชดเชยการเสื่อมคุณภาพของการตัดสินใจในแต่ละขั้นตอนผ่านการโต้ตอบพิเศษ แทนที่จะปรับปรุงอย่างแท้จริง

การค้นพบที่สี่: สิทธิ์กำหนดขีดจำกัดสูงสุดของความสามารถของเอเจนต์

เอเจนต์สามารถเข้าถึงสภาพแวดล้อมได้มากเพียงใด ก็จะได้รับความฉลาดมากเพียงนั้น สิ่งที่เอเจนต์รับรู้ ดำเนินการ และเรียนรู้จากมันได้ กำหนดโดยตรงถึงความซับซ้อนของห่วงโซ่การให้เหตุผลและความยากของงานที่สามารถแก้ไขได้ เอเจนต์ในแซนด์บ็อกซ์ขนาดเล็ก ไม่ว่าจะปลอดภัยเพียงใด ระดับความฉลาดของมันก็มีจำกัดอย่างยิ่ง การล็อกขอบเขตการดำเนินการในขั้นตอนการสำรวจ เท่ากับเป็นการกำหนดเพดานความสามารถล่วงหน้าในขั้นตอนการออกแบบ การลดขอบเขตการสำรวจไม่ใช่เส้นทางสู่การสร้างเอเจนต์ที่มีประโยชน์ จุดสิ้นสุดของมันคือระบบที่ปลอดภัยแต่ไร้ประโยชน์

การค้นพบที่ห้า: สถาปัตยกรรมขั้นต่ำคือข้อกำหนดเบื้องต้นที่จำเป็นสำหรับการวิวัฒนาการตนเองของเอเจนต์

ทีมพัฒนาได้เสนอ “การวิวัฒนาการตนเอง” สามมิติใหม่ที่มีความหมายในระยะยาวมากขึ้น:

การบูรณาการทักษะ
การสำรวจด้วยตนเอง
การอัปเดตสถาปัตยกรรมด้วยตนเอง

ดังนั้น เฉพาะเมื่อสถาปัตยกรรมมีความกะทัดรัดเพียงพอ เอเจนต์จึงจะสามารถตรวจสอบและแก้ไขตัวเองได้ และในที่สุดก็บรรลุการวิวัฒนาการตนเอง ระบบที่มีโค้ดหลายแสนบรรทัดนั้นไม่โปร่งใสสำหรับเอเจนต์ — มันไม่สามารถเข้าใจหรือแก้ไขได้ ในทางตรงกันข้าม ฐานโค้ดหลักที่มีเพียงไม่กี่พันบรรทัดเท่านั้นที่สามารถอ่าน เข้าใจ และแก้ไขได้ ในสถาปัตยกรรมขั้นต่ำของ GA CLI ที่โฮสต์เองซึ่งเป็นพื้นผิวการดำเนินการดั้งเดิม ทำให้เอเจนต์ย่อยสามารถอ่านและแก้ไขฐานโค้ดหลักได้อย่างเป็นธรรมชาติ ทำให้การอัปเดตสถาปัตยกรรมด้วยตนเองเป็นเป้าหมายที่ทำได้จริง

บทสรุป: ทิศทางที่เชื่อถือได้ของเอเจนต์

รายงานทางเทคนิคของ GenericAgent ได้แยกชุดกรอบการออกแบบสถาปัตยกรรมเอเจนต์ใหม่ เผยให้เห็นความไม่รอบคอบในการออกแบบเอเจนต์ที่มีอยู่มากมาย ความสามารถที่ GA ทำได้ด้วยโค้ดหลักเพียง 3,000 กว่าบรรทัด แสดงให้เห็นถึงอนาคตที่สดใสของการพัฒนาเอเจนต์

GenericAgent เปิดตัวเป็นโอเพนซอร์สเมื่อวันที่ 11 มกราคม 2026 และได้รับดาวมากกว่า 5.2K+ บน GitHub ติดอันดับเทรนด์ GitHub ยินดีต้อนรับร่วมเป็นสักขีพยานในช่วงเวลาแห่งวิวัฒนาการของเอเจนต์

ลิงก์โอเพนซอร์ส: https://github.com/lsdefine/GenericAgent
คู่มือการใช้งาน GA สำหรับมือใหม่ (เวอร์ชันรูปภาพและข้อความ): https://my.feishu.cn/wiki/CGrDw0T76iNFuskmwxdcWrpinPb
บทช่วยสอนอย่างเป็นทางการของ GA: https://github.com/datawhalechina/hello-generic-agent

โปรดติดตามข่าวสารล่าสุดของเวอร์ชันประยุกต์ใช้เชิงพาณิชย์ของ GenericAgent — Dintal Claw ซึ่งจะฉลาดกว่า ประหยัดกว่า ปลอดภัยกว่า และเสถียรกว่า

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง