การให้ผู้ช่วยสนทนา AI แค่ทำงานให้สำเร็จนั้นไม่เพียงพออีกต่อไป ตอนนี้ นักพัฒนากำลังมุ่งมั่นที่จะทำให้ AI สามารถวิวัฒนาการตัวเองได้
ประเด็นสำคัญคือ นี่ไม่ใช่การปรับปรุงประสิทธิภาพสำหรับงานใดงานหนึ่งโดยเฉพาะ ระบบใหม่ชื่อ MetaClaw ได้เพิ่มเฟรมเวิร์กการเรียนรู้แบบเสริมแรงออนไลน์ให้กับเอเจนต์ — โดยไม่จำเป็นต้องดูแลคลัสเตอร์ GPU ในเครื่อง ไม่ต้องเตรียมชุดข้อมูลเฉพาะ และไม่ต้องปรับแต่งด้วยมือ มีเป้าหมายเพื่อให้ AI เรียนรู้อย่างต่อเนื่องและพัฒนาตัวเองได้อย่างอิสระผ่านบทสนทนาประจำวันกับผู้ใช้

หัวใจสำคัญอยู่ที่ การแปลงบทสนทนาธรรมชาติระหว่างผู้ใช้กับ AI โดยตรงให้เป็นข้อมูลฝึกฝน วงจรการเรียนรู้ทั้งหมดดำเนินการโดยอัตโนมัติในแบ็กเอนด์ โดยไม่ส่งผลกระทบต่อการโต้ตอบปกติที่ฟรอนต์เอนด์
ผู้ใช้สามารถสนทนากับ AI ได้ตามปกติ ในขณะที่ MetaClaw จะดักจับกระบวนการโต้ตอบในแบ็กเอนด์ ให้คะแนนแต่ละรอบการสนทนา และปรับแต่งกลยุทธ์การตัดสินใจของ AI อย่างต่อเนื่องผ่านการปรับแต่งออนไลน์
ระบบมีความสามารถ “เรียนรู้จากความผิดพลาด” หาก AI ทำได้ไม่ดีในการโต้ตอบครั้งหนึ่ง MetaClaw จะวิเคราะห์เส้นทางการโต้ตอบที่สมบูรณ์โดยอัตโนมัติ หาต้นตอของปัญหา และตามนั้น สร้างทักษะใหม่ขึ้นมาโดยอัตโนมัติ เพื่อเก็บไว้ในคลังทักษะ เมื่อพบสถานการณ์ที่คล้ายกันในอนาคต ทักษะที่เกี่ยวข้องจะถูกค้นหาอย่างแม่นยำและฉีดเข้าไปในพรอมต์ของระบบ เพื่อหลีกเลี่ยงการทำผิดซ้ำ
กลไกหลัก: การฉีดทักษะและการวิวัฒนาการทักษะ
ระบบนี้สร้างขึ้นบนโมเดล Kimi-2.5 พร้อมทั้งให้ Qwen3-4B เป็นทางเลือกแบบเบา เพื่อรองรับอุปกรณ์ที่มีทรัพยากรจำกัด
หัวใจคือเฟรมเวิร์ก SkillRL (การเรียนรู้แบบเสริมแรงด้วยทักษะ) ที่พัฒนาขึ้นเอง โดยพื้นฐานแล้วคือกลยุทธ์ผสมระหว่าง การฉีดทักษะ และ การวิวัฒนาการทักษะ
- การฉีดทักษะ: จับคู่และใช้คำสั่งทักษะที่เกี่ยวข้องอย่างแม่นยำในแต่ละรอบการสนทนา ทำให้ AI สามารถปรับปรุงประสิทธิภาพได้ทันที โดยไม่ต้องรอให้รอบการฝึกสิ้นสุดลง
- การวิวัฒนาการทักษะ: ทำให้ AI เปลี่ยนจากการรับทักษะแบบ passive เป็นการสร้างทักษะแบบ active ทำให้คลังทักษะอุดมสมบูรณ์และพัฒนาต่อเนื่องไปพร้อมกับการใช้งาน เพื่อให้เกิดการเติบโตของความสามารถอย่างต่อเนื่อง

ลดอุปสรรค: การแยกการฝึกฝนบนคลาวด์และการดีพลอย
คุณสมบัติที่น่าสนใจที่สุดคือการตั้งค่าที่ ไม่ต้องพึ่งพาคลัสเตอร์ GPU ในเครื่อง และไม่ต้องดูแลรักษาด้วยตัวเอง
MetaClaw โฮสต์งานฝึกฝนทั้งหมดไปยัง แพลตฟอร์มคลาวด์ Tinker ทำให้เกิดการแยกการฝึกฝนและการดีพลอยอย่างสมบูรณ์ ตราบใดที่อุปกรณ์สามารถเชื่อมต่ออินเทอร์เน็ตได้ ก็สามารถรันระบบทั้งหมดได้ ผู้ใช้ไม่ต้องกังวลเรื่องทรัพยากรการคำนวณ และไม่ต้องมีทีมวิศวกรเฉพาะทางมาดูแลระบบ
การออกแบบนี้ลดอุปสรรคในการเรียนรู้อย่างต่อเนื่องของ AI ลงอย่างมาก ทำให้แม้แต่นักพัฒนารายบุคคลก็สามารถเพาะเลี้ยง ที่มีความสามารถในการวิวัฒนาการได้อย่างง่ายดาย
นอกจากนี้ MetaClaw ได้พิจารณาความต้องการจริงของนักพัฒนาในรายละเอียดการออกแบบอย่างเต็มที่
สถาปัตยกรรมแบบอะซิงโครนัสและโหมดการเรียนรู้คู่ ของมัน แยกการตอบสนองบริการ การสร้างแบบจำลองรางวัล และการฝึกโมเดลออกจากกัน AI สามารถให้คำตอบแบบเรียลไทม์แก่ผู้ใช้ได้ ในขณะที่แบ็กเอนด์ก็ให้คะแนนบทสนทนาและปรับกลยุทธ์ไปพร้อมกัน ทำให้ “การทำงาน” และ “การเรียนรู้” ดำเนินไปพร้อมกันโดยไม่ขัดแย้ง
โหมดการเรียนรู้ยังให้ความยืดหยุ่น: หากต้องการความเบา สามารถเลือกการเรียนรู้แบบเสริมแรง เพื่อปรับปรุงจากฟีดแบ็กโดยนัยของผู้ใช้ หากต้องการพัฒนาลึกขึ้น สามารถเลือกใช้การกลั่นนโยบายออนไลน์ เพื่อฝึกขั้นสูงโดยผสมผสานกับฟีดแบ็กข้อความคุณภาพสูง
สามขั้นตอนเริ่มต้นใช้งานอย่างรวดเร็ว
ขั้นตอนการใช้ง่ายมาก แค่สามขั้นตอน:
- ติดตั้ง dependencies: ติดตั้งบริการพื้นฐาน ไลบรารีที่เกี่ยวข้องกับโมเดลใหญ่ และ SDK การฝึก LoRA บนคลาวด์ที่สำคัญ
bash
pip install fastapi uvicorn httpx openai transformers
pip install tinker tinker-cookbook - รันสคริปต์คอนฟิก: ชี้เกตเวย์ของ OpenClaw ไปที่พร็อกซีของ MetaClaw (แนะนำให้ใช้คอนฟิก Kimi-2.5)
bash
bash openclaw_model_kimi.sh - ตั้งค่า API key และเริ่มการฝึก: คอนฟิกคีย์แพลตฟอร์มคลาวด์ Tinker และรันสคริปต์ฝึก
bash
export TINKER_API_KEY="your_api_key_here"
cd /path/to/metaclaw
python examples/run_conversation_rl.py
หลังจากทำขั้นตอนข้างต้นเสร็จ ผู้ใช้เพียงแค่สนทนากับเอเจนต์เหมือนปกติ MetaClaw จะรวบรวมรอบการสนทนา ให้คะแนน และฝึกโมเดลโดยอัตโนมัติ ทุกครั้งที่สะสมตัวอย่างได้ครบแบทช์ ระบบจะทำการแทนที่น้ำหนักโมเดลแบบร้อน (hot replacement) หนึ่งครั้ง โดยไม่ต้องมีการแทรกแซงด้วยมือตลอดกระบวนการ
หากต้องการเปิดใช้งานฟังก์ชันเฉพาะ สามารถคอนฟิกใน MetaClawConfig ได้:
* เปิดใช้งานการฉีดทักษะ:python
config = MetaClawConfig(use_skills=True)
* เปิดใช้งานการวิวัฒนาการทักษะ (ใช้ GPT-5.2 เป็นตัวอย่าง):python
config = MetaClawConfig(
use_skills=True,
enable_skill_evolution=True,
azure_openai_deployment="gpt-5.2",
)
พร้อมทั้งต้องคอนฟิกคีย์ Azure OpenAI และที่อยู่เอนด์พอยต์ที่เกี่ยวข้อง
รายการคอนฟิกทั้งหมด รวมถึงการเลือกโมเดล พารามิเตอร์ LoRA ขนาดแบทช์ จำนวนขั้นตอนการฝึก และประเภทฟังก์ชันการสูญเสีย ฯลฯ ถูกจัดรวมไว้ใน MetaClawConfig อย่างชัดเจน

โปรเจกต์ MetaClaw นำโดย Yao Huaxiu (ศิษย์เก่ามหาวิทยาลัยอิเล็กทรอนิกส์และเทคโนโลยีแห่งประเทศจีน ปัจจุบันเป็นผู้ช่วยศาสตราจารย์ภาควิชาวิทยาการคอมพิวเตอร์ มหาวิทยาลัยนอร์ทแคโรไลนาที่แชปเพิลฮิลล์ เคยเป็นนักวิจัยหลังปริญญาเอกที่ Stanford AI Lab) ทิศทางการวิจัยของเขามุ่งเน้นไปที่เอเจนต์และปัญญาประดิษฐ์แบบมีตัวตน
- ที่อยู่โปรเจกต์: https://github.com/aiming-lab/MetaClaw
- ลิงก์อ้างอิง:
- https://x.com/BoWang87/status/2031094971630235941
- https://x.com/HuaxiuYaoML/status/2031069599651729905
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/25291
