เอเจนต์อัจฉริยะที่พัฒนาตนเองได้ GenericAgent เปิดตัว: ลดการใช้ Token ลง 10 เท่า ความแม่นยำของงาน 100%

จะเกิดอะไรขึ้นเมื่อเอเจนต์ AI ไม่ใช่ “เครื่องมือใช้ครั้งเดียว” อีกต่อไป แต่เป็น “เพื่อนร่วมทางดิจิทัล” ที่เรียนรู้และวิวัฒนาการตนเองได้อย่างต่อเนื่อง เอเจนต์อัจฉริยะที่วิวัฒนาการตนเองควร遵循หลักการออกแบบอย่างไร

ระบบเอเจนต์อัจฉริยะที่วิวัฒนาการตนเองระบบแรกของโลกที่ยึดหลักการออกแบบ “การเพิ่มความหนาแน่นของข้อมูลบริบทสูงสุด” — GenericAgent (GA) ได้เปิดตัวรายงานทางเทคนิคอย่างเป็นทางการแล้ว

รายงานแสดงให้เห็นว่า ภายใต้เงื่อนไขการรักษาความแม่นยำของงาน GA ลดการใช้ Token ลงเกือบ 10 เท่าเมื่อเทียบกับคู่แข่งในกลุ่มเดียวกัน รายงานนี้เจาะลึกแนวคิดการออกแบบหลักของ GA แนะนำเกณฑ์มาตรฐานสำหรับการประเมินเอเจนต์ที่วิวัฒนาการตนเอง และเปิดเผยข้อมูลการประเมินโดยละเอียด วิเคราะห์ความสามารถในการวิวัฒนาการตนเองของ GA และแนวคิดที่เชื่อถือได้ในการออกแบบเอเจนต์อย่างครอบคลุม

รายงานทางเทคนิคความยาว 47 หน้านี้ พร้อมให้คุณได้อ่านวันนี้

เอเจนต์อัจฉริยะที่พัฒนาตนเองได้ GenericAgent เปิดตัว: ลดการใช้ Token ลง 10 เท่า ความแม่นยำของงาน 100%

GA คืออะไร?

GenericAgent (GA) เป็นระบบเอเจนต์อัจฉริยะโมเดลภาษาขนาดใหญ่ (LLM) แบบทั่วไปที่วิวัฒนาการตนเองได้ สร้างขึ้นโดยห้องปฏิบัติการ A3 (Advantage AI Agent Lab ซึ่งร่วมมือกับ Shenzhen Kuakua Jinling Technology Co., Ltd.) ภายใต้ Knowledge Workspace Lab ของมหาวิทยาลัย Fudan

GA เป็นหนึ่งในตัวแทนของเอเจนต์อัจฉริยะทั่วไปรุ่นถัดไปที่จัดระเบียบตนเอง เรียนรู้ตนเอง และวิวัฒนาการตนเอง มันคือสิ่งมีชีวิตดิจิทัลที่มี “ความรู้สึกมีชีวิต” สามารถเรียนรู้และเติบโตได้อย่างรวดเร็วภายใต้การใช้งานและการปรับแต่งอย่างต่อเนื่องของผู้ใช้ เวอร์ชันประยุกต์ใช้เชิงพาณิชย์ของเทคโนโลยี GA คือ DinTal Claw ซึ่งมีเป้าหมายเพื่อนำสถาปัตยกรรมการวิวัฒนาการตนเองนี้ไปประยุกต์ใช้ในเชิงลึกในสถานการณ์ภาครัฐและองค์กร สร้างมาตรฐานการปฏิบัติจริงของ “พนักงานดิจิทัลอัจฉริยะ” ที่มีต้นทุนต่ำ ประสิทธิภาพสูง ปลอดภัยและควบคุมได้

นับตั้งแต่เปิดตัวเป็นโอเพนซอร์สเมื่อวันที่ 11 มกราคม 2026 GA เคยขึ้นอันดับหนึ่งในการจัดอันดับภาษาโปรแกรม Python บน GitHub Trending เอาชนะระบบโอเพนซอร์สของบริษัท AI ชั้นนำอย่าง OpenAI และ Google

เอเจนต์อัจฉริยะที่พัฒนาตนเองได้ GenericAgent เปิดตัว: ลดการใช้ Token ลง 10 เท่า ความแม่นยำของงาน 100%

เอเจนต์อัจฉริยะที่พัฒนาตนเองได้ GenericAgent เปิดตัว: ลดการใช้ Token ลง 10 เท่า ความแม่นยำของงาน 100%

สรุปผลก่อน: GA เก่งตรงไหน?

  • อัตราความสำเร็จของงานสูงขึ้น: ในการทดสอบเกณฑ์มาตรฐานหลายรายการ GA ทำความแม่นยำได้ 100% นำหน้าระบบเอเจนต์กระแสหลักอย่างครอบคลุม
  • การใช้ Token ต่ำลง: ภายใต้ภารกิจเดียวกัน การใช้ Token เพียง 15% ถึง 35% ของระบบเอเจนต์กระแสหลัก มีข้อได้เปรียบทั้งด้านต้นทุนและประสิทธิภาพ
  • ยิ่งใช้ยิ่งฉลาด: เมื่อทำงานเดิมซ้ำๆ การใช้ Token สามารถลดลงได้สูงสุดถึง 89.6% ทำให้เกิด “การนำประสบการณ์กลับมาใช้ใหม่” อย่างแท้จริง
  • การท่องเว็บแข็งแกร่งขึ้น: ในภารกิจค้นหาแบบหลายขั้นตอนที่ซับซ้อน ความแม่นยำสูงกว่าระบบพื้นฐาน 3 เท่า ในขณะที่ใช้ทรัพยากรน้อยกว่า

เอเจนต์อัจฉริยะที่พัฒนาตนเองได้ GenericAgent เปิดตัว: ลดการใช้ Token ลง 10 เท่า ความแม่นยำของงาน 100%

แผนภาพสถาปัตยกรรมโดยรวมของ GenericAgent

ทำไมคุณต้องสนใจ GA?

จาก Claude Code, OpenAI Codex ถึง Openclaw AI กำลังเปลี่ยนจากเครื่องมือสร้างข้อความแบบพาสซีฟ มาเป็น “เอเจนต์ที่ขับเคลื่อนด้วยเป้าหมาย” ที่สามารถทำงานบนเทอร์มินัล ระบบไฟล์ และเบราว์เซอร์ได้อย่างอิสระ อย่างไรก็ตาม มีคำถามโดยตรงที่ผู้ใช้ต้องเผชิญ: “พวกมันใช้งานได้ดีจริงหรือ?”

  • เอเจนต์ “ความจำไม่ดี” คุยไปคุยมาก็ลืม

เอเจนต์แบบดั้งเดิมเมื่อมีการโต้ตอบมากขึ้น บริบทจะยาวขึ้นเรื่อยๆ หรือที่เรียกว่า “การระเบิดของบริบท” ข้อมูลสำคัญกลับถูกกลบ ทำให้ยิ่งมีขั้นตอนมาก อัตราความผิดพลาดก็ยิ่งสูง

  • ทุกภารกิจเริ่มจากศูนย์ ไม่สามารถสะสมประสบการณ์ได้

ประสบการณ์ที่สรุปได้วันนี้ พรุ่งนี้เปลี่ยนเซสชันก็หายไป เอเจนต์ “สร้างวงล้อซ้ำแล้วซ้ำเล่า” การใช้ Token เพิ่มขึ้นเป็นเส้นตรงตามจำนวนภารกิจ แต่ความสามารถที่มีประสิทธิภาพกลับหยุดนิ่ง เกิดเป็น “วงจรหยุดนิ่ง” ที่ขาดผลตอบแทนจากการโต้ตอบที่สะสม

ข้อมูลเชิงลึกหลัก: ความหนาแน่นของข้อมูลคือกุญแจสำคัญ

เมื่อเผชิญกับปัญหาเหล่านี้ ทีมวิจัยได้เสนอ观点ที่สำคัญ:

ปัจจัยกำหนดประสิทธิภาพในระยะยาว ไม่ใช่ความยาวของบริบท แต่คือปริมาณข้อมูลที่เกี่ยวข้องกับการตัดสินใจที่สามารถคงไว้ภายในงบประมาณบริบทที่จำกัด

กล่าวอีกนัยหนึ่ง ความหนาแน่นของข้อมูลบริบทคือหัวใจสำคัญ โดยการเพิ่มความหนาแน่นของข้อมูลบริบทสูงสุด สามารถรับประกันได้ว่า: ข้อมูลการตัดสินใจไม่สูญหาย ข้อมูลซ้ำซ้อนถูกกำจัด และบริบทมีความสามารถในการอ่านสูง (รองแต่สำคัญ)

GenericAgent: สี่กลไกสร้างเอเจนต์ที่วิวัฒนาการตนเอง

บนพื้นฐานของหลักการสำคัญ “การเพิ่มความหนาแน่นของข้อมูลบริบทสูงสุด” GA บรรลุความสามารถในการวิวัฒนาการตนเองผ่านองค์ประกอบสี่ส่วนที่เชื่อมโยงกันอย่างใกล้ชิด

กลไกที่หนึ่ง: ชุดเครื่องมืออะตอมขั้นต่ำ

การลดเครื่องมือให้เหลือน้อยที่สุดไม่ใช่ข้อจำกัด แต่เป็นกลไกหลักของ GA ในการลดค่าใช้จ่ายในการโต้ตอบในขณะที่ยังคงความสามารถทั่วไป

GA เก็บเครื่องมืออะตอมไว้เพียง 9 รายการ แบ่งเป็นห้าประเภทความสามารถ: การดำเนินการไฟล์, การรันโค้ด, การโต้ตอบเว็บ, การจัดการความจำ, มนุษย์ในวงจร (Human-in-the-loop) เครื่องมืออะตอมเหล่านี้สามารถสร้างเครื่องมือใหม่เพื่อแก้ปัญหาที่ซับซ้อนได้ผ่านการรวมกันและการวางนัยทั่วไป

ที่น่าสนใจคือ เครื่องมือ “code_run” เพียงอย่างเดียวในทางทฤษฎีแล้วสมบูรณ์แบบตามทัวริง (Turing complete) สามารถจำลองฟังก์ชันของเครื่องมืออื่นๆ ทั้งหมดได้ แล้วทำไมต้องเก็บอีก 8 เครื่องมือไว้? คำตอบคือ: ชุดเครื่องมืออะตอมขั้นต่ำสามารถลดต้นทุนการตัดสินใจของภารกิจได้

เอเจนต์อัจฉริยะที่พัฒนาตนเองได้ GenericAgent เปิดตัว: ลดการใช้ Token ลง 10 เท่า ความแม่นยำของงาน 100%

ตารางด้านบนเป็นผลลัพธ์ของภารกิจที่ซับซ้อนระยะยาว ห้าภารกิจครอบคลุมการสร้างเอกสาร (การสร้าง PDF/PPT), การสร้างคำค้น SQL แบบร่วมมือ, การเขียนรายงานการวิเคราะห์การทดลอง, การตัดสินใจจัดซื้อร่วมกับการค้นหาเครือข่าย และการวิเคราะห์ความเป็นไปได้ในการทำซ้ำงานวิจัย ตารางนี้รายงานผลลัพธ์เฉลี่ยในชุดภารกิจระยะยาว

กลไกที่สอง: ความจำแบบแบ่งชั้นตามความต้องการ

หัวใจของความจำคือการเข้าถึงตามความต้องการ การออกแบบที่สำคัญของ GA คือการฉีดเฉพาะ เมทาเมโมรี (meta-memory) และ ชั้นดัชนี L1 เป็นค่าเริ่มต้น โดย遵循ห่วงโซ่เส้นทาง L1→L2/L3 และดึงข้อมูลข้อเท็จจริงหรือความรู้เชิงขั้นตอนที่ลึกกว่าเมื่อจำเป็นเท่านั้น ด้วยวิธีนี้ ความจำจะไม่ค่อยๆ แย่งงบประมาณบริบทที่ใช้งานอยู่ซึ่งจำเป็นสำหรับภารกิจปัจจุบัน

GA จัดระเบียบความจำเป็นสถาปัตยกรรมสี่ชั้น:

  • ชั้นดัชนี L1: ตัวชี้แบบกะทัดรัด รวมถึงจุดเข้าใช้งานความถี่สูง การแมปคำสำคัญ และข้อจำกัดแข็งจำนวนเล็กน้อย
  • ชั้นข้อเท็จจริง L2: ข้อมูลข้อเท็จจริงที่ผ่านการตรวจสอบและมีเสถียรภาพ มีผลในระยะยาว
  • ชั้น SOP L3: ความรู้เชิงขั้นตอนที่นำกลับมาใช้ใหม่ได้ รวมถึงเวิร์กโฟลว์ภารกิจ เงื่อนไขเบื้องต้น ขั้นตอนการดำเนินการที่สำคัญ กรณีล้มเหลวทั่วไป และกลยุทธ์การดีบัก/กู้คืนที่เกี่ยวข้อง
  • ชั้นเก็บถาวรเซสชันดั้งเดิม L4: เซสชันการดำเนินการในอดีต ใช้สำหรับการคงอยู่และการตรวจสอบย้อนกลับ

ที่ชาญฉลาดยิ่งขึ้นคือ เมื่อ L2 และ L3 เติบโตขึ้น L1 ยังคงมีขอบเขตจำกัด แต่ละรายการใน L1 บันทึกเฉพาะ “การมีอยู่” ของหมวดหมู่ความรู้ ไม่ใช่เนื้อหา

การบีบอัดที่รุนแรงนี้เป็นไปได้เพราะ LLM ทำหน้าที่เป็นตัวถอดรหัส: เมื่อมันระบุการมีอยู่ของความสามารถหรือข้อเท็จจริงที่เกี่ยวข้อง มันสามารถดึงเนื้อหาทั้งหมดจากชั้นที่ลึกกว่าผ่านการเรียกใช้เครื่องมือ

เอเจนต์อัจฉริยะที่พัฒนาตนเองได้ GenericAgent เปิดตัว: ลดการใช้ Token ลง 10 เท่า ความแม่นยำของงาน 100%

ตารางด้านบนเป็นการประเมินความจำข้อเท็จจริงระยะยาวของ GA และอื่นๆ บน LoCoMo GA 基于其优越的记忆架构设计,确保了记忆的高效召回。

กลไกที่สาม: กลไกการวิวัฒนาการตนเอง

GA ถือว่าการวิวัฒนาการตนเองเป็นกระบวนการที่ชัดเจนและตรวจสอบได้

  • อะไรที่กำลังวิวัฒนาการ? กลยุทธ์ ในการแก้ปัญหา ไม่ใช่เครื่องมืออะตอม อินเทอร์เฟซเครื่องมือและการโต้ตอบกับผู้ใช้ไม่ขึ้นกับภารกิจ และคงที่ในระหว่างรันไทม์ ในทางกลับกัน ความสามารถเฉพาะภารกิจทั้งหมดถูกเข้ารหัสในไฟล์ SOP และสคริปต์ที่นำกลับมาใช้ใหม่ได้
  • ความรู้สะสมอย่างไร? ผ่านความจำแบบแบ่งชั้น GA รับประกันว่าความรู้ที่ได้รับในเซสชันหนึ่งจะพร้อมใช้งานทันทีในเซสชันถัดไป
  • ควบคุมคุณภาพของวิวัฒนาการอย่างไร? GA เก็บร่องรอยการดำเนินการดั้งเดิมไว้ในชั้นความจำต่ำ (L4) แต่ไม่อนุญาตให้แพร่กระจายขึ้นไปโดยตรง โปรแกรมที่นำกลับมาใช้ใหม่ได้ใน L3 จะถูกสร้างขึ้นผ่านขั้นตอนการรวมที่ชัดเจนเท่านั้น ซึ่งจะถูกกระตุ้น ณ จุดเวลาที่มีความหมาย เช่น เมื่อบรรลุเป้าหมายย่อยหรือกู้คืนจากความล้มเหลวได้สำเร็จ

เอเจนต์อัจฉริยะที่พัฒนาตนเองได้ GenericAgent เปิดตัว: ลดการใช้ Token ลง 10 เท่า ความแม่นยำของงาน 100%

ในการรันภารกิจเดียวกันซ้ำห้าครั้ง มีเพียง GenericAgent เท่านั้นที่เพิ่มประสิทธิภาพการทำงานอย่างต่อเนื่องตามประสบการณ์ที่สะสม

กลไกที่สี่: การตัดทอนและบีบอัดบริบท

GA มุ่งเน้นไปที่การบีบอัดมากกว่าการขยาย — การบรรจุข้อมูลที่มีความหนาแน่นสูงลงในหน้าต่างที่เล็กกว่า ดีกว่าการป้อนเนื้อหาที่เจือจางลงในหน้าต่างที่ใหญ่กว่า

GA ใช้กลไกการตัดแต่งบริบทสี่แบบที่มีความละเอียดต่างกัน:

  1. การตัดทอนเอาต์พุตเครื่องมือ: ควบคุมขนาดของข้อความแต่ละข้อความ
  2. การบีบอัดระดับแท็ก: ลบส่วนที่มีค่าน้อยออกจากข้อความเก่า
  3. การขับไล่ข้อความ: เมื่องบประมาณโดยรวมเกิน ให้ลบเนื้อหาที่เก่าที่สุด
  4. พรอมพ์จุดยึดหน่วยความจำทำงาน: รับประกันว่าข้อมูลสำคัญของภารกิจยังคงมองเห็นได้หลังจากการขับไล่

กลไกทั้งสี่นี้ทำงานร่วมกันเพื่อให้แน่ใจว่าบริบทที่ใช้งานอยู่จะไม่เพิ่มขึ้นเป็นเส้นตรงตามจำนวนรอบการโต้ตอบ

เอเจนต์อัจฉริยะที่พัฒนาตนเองได้ GenericAgent เปิดตัว: ลดการใช้ Token ลง 10 เท่า ความแม่นยำของงาน 100%

หลังจากติดตั้ง 20 ทักษะและใช้งานอย่างหนัก มีเพียง GA เท่านั้นที่ป้องกันการขยายตัวของบริบทได้อย่างมีประสิทธิภาพ

ผลการประเมิน: ชัยชนะสองด้านของประสิทธิภาพและสมรรถนะ

ทีมวิจัยได้ทำการประเมิน GA อย่างครอบคลุมบนเกณฑ์มาตรฐานหลายรายการ

ข้อสรุปหลัก: สมรรถนะดีขึ้น ต้นทุนต่ำลง

ในผลการประเมินที่เข้มข้นที่สุด ผลงานของ GA ในการทดสอบเกณฑ์มาตรฐานสามรายการ ได้แก่ SOP-bench, Lifelong AgentBench และ RealFinBench นั้นน่าทึ่งมาก

ในฐานะบรรณาธิการเทคนิคมืออาชีพ ฉันได้เขียนเนื้อหาต้นฉบับใหม่ตามที่คุณต้องการ ด้านล่างนี้คือเนื้อหาในรูปแบบ Markdown ที่ฉันจัดเตรียมให้ ซึ่งลบโฆษณาและข้อมูลคิวอาร์โค้ดแล้ว และคงตัวยึดตำแหน่ง [[IMAGE_X]] ไว้


การก้าวกระโดดของสมรรถนะ: ลดการใช้ Token ลงสิบเท่า ความแม่นยำของงานถึง 100%

ในการทดสอบเกณฑ์มาตรฐานสองรายการคือ SOP-bench และ Lifelong AgentBench GenericAgent (ต่อไปนี้จะเรียกว่า GA) นำหน้าอย่างครอบคลุมด้วยความแม่นยำของงาน 100% ใน RealFinBench ซึ่งใกล้เคียงกับสถานการณ์การใช้งานจริงมากขึ้น GA ก็อยู่ในอันดับหนึ่งของอุตสาหกรรมด้วยความแม่นยำ 65%

เอเจนต์อัจฉริยะที่พัฒนาตนเองได้ GenericAgent เปิดตัว: ลดการใช้ Token ลง 10 เท่า ความแม่นยำของงาน 100%

คำอธิบายภาพ: แผนภูมิเปรียบเทียบอัตราความสำเร็จของงานและประสิทธิภาพการใช้ Token

ภายใต้ภาระงานที่เท่ากัน การใช้ Token ของ GA อยู่ที่เพียง 15% ถึง 35% ของระบบเอเจนต์กระแสหลักอื่นๆ ทำให้เกิดการเพิ่มประสิทธิภาพสองด้านทั้งประสิทธิภาพและต้นทุน

ยิ่งใช้ยิ่งฉลาด: การเพิ่มประสิทธิภาพการดำเนินการซ้ำแบบก้าวกระโดด

ความสามารถในการวิวัฒนาการตนเองของ GA คือหัวใจสำคัญของการทำงานที่มีประสิทธิภาพ เมื่อระบบอื่นๆ ดำเนินงานประเภทเดียวกันซ้ำ เวลาและปริมาณ Token ที่ใช้จะคงที่โดยประมาณ ในขณะที่สมรรถนะของ GA แสดงแนวโน้มการเพิ่มประสิทธิภาพอย่างต่อเนื่อง ข้อมูลแสดงให้เห็นว่าหลังจากรันซ้ำ 5 ครั้ง เวลาดำเนินการของ GA ลดลงจาก 102 วินาทีเหลือ 66 วินาที และการใช้ Token ลดลงจาก 200,000 เหลือ 100,000 โดยตรง การปรับปรุงนี้ไม่ใช่แค่การนำแคชกลับมาใช้ใหม่ แต่เป็นการที่ GA สกัดประสบการณ์ที่สะสมจากการลองผิดลองถูกในครั้งแรก โดยอัตโนมัติเป็นขั้นตอนการปฏิบัติงานมาตรฐานที่นำกลับมาใช้ใหม่ได้ ทำให้ภารกิจต่อๆ ไปสามารถดำเนินการต่อจากผลลัพธ์ที่มีอยู่ได้โดยตรง

เอเจนต์อัจฉริยะที่พัฒนาตนเองได้ GenericAgent เปิดตัว: ลดการใช้ Token ลง 10 เท่า ความแม่นยำของงาน 100%

คำอธิบายภาพ: กราฟเส้นโค้งการเพิ่มประสิทธิภาพการรันซ้ำ

ความสามารถในการวิวัฒนาการนี้สามารถขยายผลข้ามภารกิจได้อีกด้วย ในการทดสอบซ้ำของภารกิจเว็บที่แตกต่างกัน 8 ภารกิจ การใช้ Token ในการดำเนินการครั้งต่อๆ ไปของ GA ลดลงโดยเฉลี่ย 79.3% โดยภารกิจเดียวประหยัดได้สูงสุดถึง 92.4% ยิ่งภารกิจซับซ้อนและห่วงโซ่การพึ่งพายาวนานเท่าใด ผลการประหยัดก็ยิ่งมีนัยสำคัญมากขึ้นเท่านั้น ในทางตรงกันข้าม ข้อมูลของระบบเอเจนต์กระแสหลักในการรันหลายครั้งนั้นผันผวนไม่แน่นอน ยังคงอยู่ในขั้นตอนการสำรวจซ้ำ ในขณะที่ GA แสดงรูปแบบ “การเริ่มต้นเย็น → การลู่เข้าอย่างรวดเร็ว” ที่ชัดเจน ซึ่งเป็นการเรียนรู้ด้วยตนเองอย่างแท้จริง

เอเจนต์อัจฉริยะที่พัฒนาตนเองได้ GenericAgent เปิดตัว: ลดการใช้ Token ลง 10 เท่า ความแม่นยำของงาน 100%

คำอธิบายภาพ: แผนภูมิเปรียบเทียบการลู่เข้าของ Token ข้ามภารกิจ

วิวัฒนาการระยะยาว: การเปลี่ยนแปลงจาก “เด็กฝึกงาน” สู่ “ผู้เชี่ยวชาญ”

การเพิ่มประสิทธิภาพที่เกิดจากวิวัฒนาการระยะยาวนั้นโดดเด่นยิ่งกว่า ในการดำเนินการรอบแรก GA ใช้เวลา 7 นาที 30 วินาที เรียกใช้โมเดลขนาดใหญ่ 32 ครั้ง และใช้ Token 222,000 รายการ ในขณะที่ถึงรอบที่เก้า การทำงานเดียวกันเสร็จสิ้นในเวลาเพียง 1 นาที 38 วินาที เรียกใช้โมเดล 5 ครั้ง และใช้ Token 23,000 รายการ การใช้ Token ลดลง 89.6% และจำนวนการเรียกใช้ลดลง 84.4% วิวัฒนาการจากการสำรวจสู่การดำเนินการ จาก SOP ข้อความสู่โค้ดที่ปฏิบัติการได้นี้ ระบบดำเนินการได้อย่างอิสระโดยสมบูรณ์ โดยไม่ต้องมีการแทรกแซงจากมนุษย์

เอเจนต์อัจฉริยะที่พัฒนาตนเองได้ GenericAgent เปิดตัว: ลดการใช้ Token ลง 10 เท่า ความแม่นยำของงาน 100%

คำอธิบายภาพ: กราฟข้อมูลเส้นทางวิวัฒนาการเก้ารอบ

การท่องเว็บ: คงความชัดเจนในสภาพแวดล้อมที่ซับซ้อน

เว็บคือ “ห้องสอบสุดท้าย” ของเอเจนต์ การเข้าถึงเพียงครั้งเดียวอาจทำให้เกิดค่าใช้จ่าย Token หลายล้านรายการ GA ก็ทำงานได้ดีเยี่ยมในสถานการณ์นี้เช่นกัน ในภารกิจการให้เหตุผลแบบหลายขั้นตอนที่ท้าทายที่สุดอย่าง BrowseComp-ZH GA มีความแม่นยำถึง 0.60 ซึ่งสูงกว่าระบบเอเจนต์กระแสหลัก (0.20) ถึง 3 เท่า ในขณะที่การใช้ Token เพียงหนึ่งในสามเท่านั้น ในภารกิจเว็บจริง GA ได้คะแนน 0.577 โดยใช้ Token 0.26M ในขณะที่ระบบกระแสหลักใช้ Token 0.76M ได้เพียง 0.50 คะแนน เมื่อเผชิญกับสัญญาณรบกวน HTML จำนวนมหาศาลและองค์ประกอบ DOM แบบไดนามิก กลไกการบีบอัดบริบทและความจำแบบแบ่งชั้นของ GA แสดงให้เห็นถึงข้อได้เปรียบที่ท่วมท้น ทำให้มั่นใจได้ว่าจะไม่ “หลงทาง” ในสภาพแวดล้อมที่ซับซ้อน

เอเจนต์อัจฉริยะที่พัฒนาตนเองได้ GenericAgent เปิดตัว: ลดการใช้ Token ลง 10 เท่า ความแม่นยำของงาน 100%

คำอธิบายภาพ: แผนภูมิเปรียบเทียบสมรรถนะการท่องเว็บ

การค้นพบที่สำคัญ: คิดใหม่เกี่ยวกับการออกแบบเอเจนต์

จากกระบวนการพัฒนา GenericAgent ทีมวิจัยได้กลั่นกรองการค้นพบที่สำคัญห้าประการ ซึ่งมีแนวทางที่กว้างขวางสำหรับการออกแบบระบบเอเจนต์ LLM

การค้นพบที่หนึ่ง: ความหนาแน่นของข้อมูลบริบทคือข้อจำกัดเชิงโครงสร้าง

ความหนาแน่นของข้อมูลบริบทไม่ใช่เป้าหมายการเพิ่มประสิทธิภาพที่ “เลือกได้” แต่เป็นข้อจำกัดเชิงโครงสร้างที่ทุกระบบเอเจนต์ต้องเผชิญผ่านการออกแบบ ตราบใดที่เอเจนต์ใช้ LLM เป็นเอนจินการให้เหตุผล คุณภาพของขั้นตอนการตัดสินใจแต่ละขั้นตอนจะถูกกำหนดโดยการแพร่กระจายไปข้างหน้าครั้งเดียวในท้ายที่สุด ไม่ว่าจะมีความซับซ้อนของเครื่องมือ ความจุความจำ หรือเวิร์กโฟลว์มากเพียงใด ก็ไม่สามารถหลีกเลี่ยงข้อจำกัดนี้ได้

การค้นพบที่สอง: มีชุดความสามารถที่สมบูรณ์ขั้นต่ำของระบบเอเจนต์

ภายใต้ข้อจำกัดเชิงโครงสร้างของความหนาแน่นของข้อมูล เอเจนต์จำเป็นต้องมีความสามารถหลักเพียงสามประการเท่านั้น การออกแบบใดๆ ที่ไม่ตอบสนองความสามารถหนึ่งในสามประการนี้ จะเพิ่มความซับซ้อนเป็นพิเศษ ซึ่งจะลดความหนาแน่นของข้อมูล

  1. อินเทอร์เฟซเครื่องมือ: ช่องทางเดียวที่เอเจนต์โต้ตอบกับโลกภายนอก
  2. การจัดการบริบท: สอดคล้องกับอินพุตของโมเดลภาษา เนื้อหาทั้งหมด เช่น สถานะภารกิจ ผลลัพธ์ระหว่างกลาง เอาต์พุตเครื่องมือ ต้องได้รับการกรองอย่างจริงจังก่อนเข้าสู่บริบท
  3. การสร้างความจำ: สอดคล้องกับการสะสมความรู้ข้ามภารกิจ หากไม่เก็บรักษาเนื้อหาที่ผ่านการตรวจสอบจากการโต้ตอบเป็นความจำที่นำกลับมาใช้ใหม่ได้ ทุกภารกิจจะเริ่มจากศูนย์

การค้นพบที่สาม: การใช้ Token ที่ต่ำกว่าสอดคล้องกับสมรรถนะของงานที่ดีกว่า

การค้นพบนี้ขัดกับสัญชาตญาณ เพราะโดยทั่วไปสันนิษฐานว่าห่วงโซ่การให้เหตุผลที่ยาวกว่าและรอบการโต้ตอบที่มากกว่าแสดงถึงการไตร่ตรองอย่างถี่ถ้วนมากขึ้น และควรให้ผลลัพธ์ที่ดีกว่า อย่างไรก็ตาม ผลการทดลองแสดงให้เห็นว่าในสถานการณ์การดำเนินการเอเจนต์ระยะยาว ข้อสรุปกลับตรงกันข้าม ใน Lifelong AgentBench GA ใช้เพียง 27.7% ของ Token อินพุตของ Claude Code และ 15.5% ของ OpenClaw แต่ในขณะเดียวกันก็บรรลุอัตราความสำเร็จของงาน 100% เมื่อเกินจุดวิกฤตที่กำหนด Token เพิ่มเติมจะไม่นำข้อมูลที่เป็นประโยชน์มาใช้ แต่กลับลดคุณภาพการให้เหตุผลเนื่องจากปัญหาต่างๆ เช่น อคติตำแหน่ง การเจือจางความสนใจ และการหดตัวของหน้าต่างที่มีประสิทธิภาพ เอเจนต์ที่ใช้ Token มากกว่า โดยแก่นแท้แล้วคือความล้มเหลวอย่างเป็นระบบของการจัดการบริบท ซึ่งพยายามชดเชยการเสื่อมคุณภาพของการตัดสินใจในแต่ละขั้นตอนผ่านการโต้ตอบพิเศษ แทนที่จะปรับปรุงอย่างแท้จริง

การค้นพบที่สี่: สิทธิ์กำหนดขีดจำกัดสูงสุดของความสามารถของเอเจนต์

เอเจนต์สามารถเข้าถึงสภาพแวดล้อมได้มากเพียงใด ก็จะได้รับความฉลาดมากเพียงนั้น สิ่งที่เอเจนต์รับรู้ ดำเนินการ และเรียนรู้จากมันได้ กำหนดโดยตรงถึงความซับซ้อนของห่วงโซ่การให้เหตุผลและความยากของงานที่สามารถแก้ไขได้ เอเจนต์ในแซนด์บ็อกซ์ขนาดเล็ก ไม่ว่าจะปลอดภัยเพียงใด ระดับความฉลาดของมันก็มีจำกัดอย่างยิ่ง การล็อกขอบเขตการดำเนินการในขั้นตอนการสำรวจ เท่ากับเป็นการกำหนดเพดานความสามารถล่วงหน้าในขั้นตอนการออกแบบ การลดขอบเขตการสำรวจไม่ใช่เส้นทางสู่การสร้างเอเจนต์ที่มีประโยชน์ จุดสิ้นสุดของมันคือระบบที่ปลอดภัยแต่ไร้ประโยชน์

การค้นพบที่ห้า: สถาปัตยกรรมขั้นต่ำคือข้อกำหนดเบื้องต้นที่จำเป็นสำหรับการวิวัฒนาการตนเองของเอเจนต์

ทีมพัฒนาได้เสนอ “การวิวัฒนาการตนเอง” สามมิติใหม่ที่มีความหมายในระยะยาวมากขึ้น:

  1. การบูรณาการทักษะ
  2. การสำรวจด้วยตนเอง
  3. การอัปเดตสถาปัตยกรรมด้วยตนเอง

ดังนั้น เฉพาะเมื่อสถาปัตยกรรมมีความกะทัดรัดเพียงพอ เอเจนต์จึงจะสามารถตรวจสอบและแก้ไขตัวเองได้ และในที่สุดก็บรรลุการวิวัฒนาการตนเอง ระบบที่มีโค้ดหลายแสนบรรทัดนั้นไม่โปร่งใสสำหรับเอเจนต์ — มันไม่สามารถเข้าใจหรือแก้ไขได้ ในทางตรงกันข้าม ฐานโค้ดหลักที่มีเพียงไม่กี่พันบรรทัดเท่านั้นที่สามารถอ่าน เข้าใจ และแก้ไขได้ ในสถาปัตยกรรมขั้นต่ำของ GA CLI ที่โฮสต์เองซึ่งเป็นพื้นผิวการดำเนินการดั้งเดิม ทำให้เอเจนต์ย่อยสามารถอ่านและแก้ไขฐานโค้ดหลักได้อย่างเป็นธรรมชาติ ทำให้การอัปเดตสถาปัตยกรรมด้วยตนเองเป็นเป้าหมายที่ทำได้จริง

บทสรุป: ทิศทางที่เชื่อถือได้ของเอเจนต์

รายงานทางเทคนิคของ GenericAgent ได้แยกชุดกรอบการออกแบบสถาปัตยกรรมเอเจนต์ใหม่ เผยให้เห็นความไม่รอบคอบในการออกแบบเอเจนต์ที่มีอยู่มากมาย ความสามารถที่ GA ทำได้ด้วยโค้ดหลักเพียง 3,000 กว่าบรรทัด แสดงให้เห็นถึงอนาคตที่สดใสของการพัฒนาเอเจนต์

GenericAgent เปิดตัวเป็นโอเพนซอร์สเมื่อวันที่ 11 มกราคม 2026 และได้รับดาวมากกว่า 5.2K+ บน GitHub ติดอันดับเทรนด์ GitHub ยินดีต้อนรับร่วมเป็นสักขีพยานในช่วงเวลาแห่งวิวัฒนาการของเอเจนต์

โปรดติดตามข่าวสารล่าสุดของเวอร์ชันประยุกต์ใช้เชิงพาณิชย์ของ GenericAgent — Dintal Claw ซึ่งจะฉลาดกว่า ประหยัดกว่า ปลอดภัยกว่า และเสถียรกว่า


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/31442

Like (0)
Previous 2 days ago
Next 2 days ago

相关推荐