AReaL v1.0 เปิดตัว: เชื่อมต่อการฝึก RL ด้วยคลิกเดียว, กรอบ Agent เช่น OpenClaw เข้าสู่ยุคใหม่ของ Reinforcement Learning

เปิดปี 2026 เอเจนต์ (Agent) ยังคงเป็นหนึ่งในสนามแข่งขันที่ได้รับความสนใจสูงสุดในแวดวง AI ทั่วโลก ความร้อนแรงของกระแสเอเจนต์ที่จุดประกายโดย OpenClaw (เดิมชื่อ Clawbot) ยังคงดำเนินต่อไป และอิทธิพลของมันทำให้แนวคิด “บริษัทคนเดียว” มีความเป็นไปได้ที่จะกลายเป็นจริงเป็นครั้งแรก

ล่าสุด จำนวนดาว (Star) ของ OpenClaw บน GitHub ได้แซงหน้า React และ Linux ไปแล้ว กลายเป็นโครงการซอฟต์แวร์โอเพนซอร์สที่ไม่ใช่ประเภททรัพยากร/บทเรียนที่ได้รับความสนใจมากที่สุด

AReaL v1.0 เปิดตัว: เชื่อมต่อการฝึก RL ด้วยคลิกเดียว, กรอบ Agent เช่น OpenClaw เข้าสู่ยุคใหม่ของ Reinforcement Learning

จากเอเจนต์เบราว์เซอร์ไปจนถึงเอเจนต์โค้ด จากผู้ช่วยส่วนตัวไปจนถึงระบบอัตโนมัติเวิร์กโฟลว์ระดับองค์กร งานที่เอเจนต์สามารถจัดการได้กำลังมีความซับซ้อนและหลากหลายมากขึ้นเรื่อยๆ

ในเวลาเดียวกัน เฟรมเวิร์กรันไทม์ต่างๆ ที่มีตัวแทนเช่น LangChain, Claude Code, OpenClaw ฯลฯ กำลังขยายขอบเขตความสามารถของเอเจนต์อย่างต่อเนื่อง แม้ว่าเฟรมเวิร์กเหล่านี้จะมอบศักยภาพการใช้งานอันยิ่งใหญ่ให้กับเอเจนต์ แต่การทำให้พวกมันสามารถเรียนรู้และวิวัฒนาการตัวเองอย่างต่อเนื่องในสภาพแวดล้อมที่แท้จริงและเปลี่ยนแปลงได้นั้น ยังขาดการสนับสนุนทางวิศวกรรมที่เป็นระบบและครบวงจร

ในบรรดาเทคนิคเหล่านี้ การเรียนรู้แบบเสริมแรง (Reinforcement Learning – RL) ซึ่งถูกคาดหวังว่าจะใช้สนับสนุนการวิวัฒนาการของเอเจนต์ในงานที่ซับซ้อน หลายรอบ และใช้เวลานาน กำลังเผชิญกับความท้าทายมากมายในระดับการนำไปปฏิบัติจริง สิ่งนี้จำกัดเพดานความสามารถของเอเจนต์ในปัจจุบันโดยปริยาย

การเปิดตัว AReaL v1.0 นำเสนอโซลูชันใหม่ให้กับพื้นที่นี้: ฐานการฝึกฝน Agentic RL (การเรียนรู้แบบเสริมแรงสำหรับเอเจนต์) ที่พร้อมใช้งานทันทีได้ถือกำเนิดขึ้นอย่างเป็นทางการแล้ว

AReaL เฟรมเวิร์กการเรียนรู้แบบเสริมแรงโอเพนซอร์สที่พัฒนาร่วมกันโดย Ant Group และมหาวิทยาลัย Tsinghua หลังจากผ่านการพัฒนามาเกือบหนึ่งปี ก็ได้เปิดตัวเวอร์ชันเสถียรที่เป็นหมุดหมายสำคัญ ในฐานะเฟรมเวิร์กการฝึกฝนการเรียนรู้แบบเสริมแรงแบบอะซิงโครนัสเต็มรูปแบบสำหรับเอเจนต์ ความก้าวหน้าที่น่าสนใจที่สุดของ AReaL v1.0 คือการทำให้ “เอเจนต์เชื่อมต่อกับการฝึกฝน RL ได้ด้วยคลิกเดียว” ซึ่งมีศักยภาพที่จะกำหนดนิยามใหม่ของกระบวนทัศน์ทางวิศวกรรมสำหรับการเรียนรู้แบบเสริมแรงของเอเจนต์

AReaL v1.0 เปิดตัว: เชื่อมต่อการฝึก RL ด้วยคลิกเดียว, กรอบ Agent เช่น OpenClaw เข้าสู่ยุคใหม่ของ Reinforcement Learning

  • GitHub Repository:https://github.com/inclusionAI/AReaL
  • Technical Paper:https://arxiv.org/abs/2505.24298

ด้วยการสนับสนุนของนวัตกรรมร่วมระหว่างอัลกอริทึม Agentic RL และระบบ AReaL v1.0 สามารถทำงานร่วมกับเฟรมเวิร์กเอเจนต์ใดๆ ก็ได้ เพียงแค่แก้ไขที่อยู่อินเทอร์เฟซหนึ่งจุดก็สามารถเชื่อมต่อเข้ากับกระบวนการฝึกฝน RL ได้อย่างราบรื่น รวมถึง OpenClaw ที่ได้รับความสนใจอย่างมากในช่วงนี้ ซึ่งช่วยลดอุปสรรคทางวิศวกรรมของการเรียนรู้แบบเสริมแรงลงได้อย่างมาก นอกจากนี้ AReaL v1.0 ยังได้นำระบบการพัฒนาด้วยความช่วยเหลือจาก AI แบบเป็นระบบเข้ามา และด้วยการใช้ Archon ซึ่งเป็นเอ็นจิ้นฝึกฝนดั้งเดิมของ PyTorch ที่พัฒนามาเป็นพิเศษ ทำให้สามารถฝึกฝนโมเดล MoE ระดับพันล้านพารามิเตอร์ได้อย่างมีประสิทธิภาพแบบ end-to-end

เชื่อมต่อการฝึกฝน OpenClaw แบบไม่ต้องเขียนโค้ด

การฝึกฝนการเรียนรู้แบบเสริมแรงของเอเจนต์แบบดั้งเดิม มักจะต้องการให้นักพัฒนาต้องเข้าใจเฟรมเวิร์กการฝึกฝนระดับลึก แก้ไขโค้ดรันไทม์ของเอเจนต์ หรือแม้แต่ปรับโครงสร้างไปป์ไลน์ข้อมูลทั้งหมดใหม่ AReaL v1.0 มีเป้าหมายที่จะทำลายกำแพงนี้โดยสิ้นเชิง — นักพัฒนาไม่จำเป็นต้องแก้ไขโค้ดของเฟรมเวิร์กเอเจนต์แม้แต่บรรทัดเดียว

ต่อไปนี้จะแสดงความเรียบง่ายของมันผ่านกรณีศึกษาจริง

กรณีศึกษาแบบสมบูรณ์:https://github.com/inclusionAI/AReaL/tree/main/examples/openclaw

ขั้นตอนที่ 1: เริ่มบริการฝึกฝน RL
รันคำสั่งต่อไปนี้:
uv run python3 examples/openclaw/train.py --config examples/openclaw/config.yaml
หลังจากเริ่มต้น คอนโซลจะแสดงข้อมูลประมาณนี้:
(AReaL) Proxy gateway available at http://x.x.x.x:xx
โปรดบันทึกที่อยู่เกตเวย์นี้ไว้ มันจะทำหน้าที่เป็นสะพานเชื่อมต่อระหว่างเอเจนต์กับบริการฝึกฝน RL

ขั้นตอนที่ 2: กำหนดค่าเอเจนต์ของคุณ
ใช้ ZeroClaw ซึ่งเป็นตัวแปรหนึ่งของ OpenClaw เป็นตัวอย่าง เพียงแค่แก้ไขไฟล์กำหนดค่า โดยชี้ที่อยู่ API ไปยังเกตเวย์ของ AReaL:
toml

~/.zeroclaw/config.toml

default_provider = “localhost”
api_key = “sk-sess-xxxxxxxxxxxx” # รับจาก AReaL

[model_providers.localhost]
base_url = “http://” # ที่อยู่เกตเวย์พร็อกซี่ของ AReaL

หลังจากกำหนดค่าเสร็จแล้ว ทุกครั้งที่ ZeroClaw Agent เรียกใช้ LLM จะถูกบันทึกโดยอัตโนมัติเพื่อใช้ในการฝึกฝนการเรียนรู้แบบเสริมแรงต่อไป

ขั้นตอนที่ 3: ใช้เอเจนต์ของคุณตามปกติ
เริ่มต้นและโต้ตอบเหมือนเช่นเคย:
zeroclaw channel start # เริ่มช่องทางโต้ตอบใดๆ เช่น Discord/Slack/CLI เป็นต้น
คุณสามารถให้เอเจนต์ทำงานต่างๆ เช่น เขียนโค้ด ค้นหาข้อมูล เป็นต้น ในแบ็กกราวด์ AReaL จะบันทึกทุกๆ รอบการสนทนาโดยเงียบๆ เพื่อสร้างเส้นทางการข้อมูลสำหรับการฝึกฝน

ขั้นตอนที่ 4: ให้ข้อเสนอแนะ เพื่อขับเคลื่อนการวิวัฒนาการของเอเจนต์
เมื่องานเสร็จสิ้น ให้ข้อเสนอแนะรางวัลสำหรับผลงานของเอเจนต์:
python set_reward.py http://<gateway> --api-key sk-sess-xxx --reward 1.0
AReaL จะรวมเส้นทางการโต้ตอบนี้กับสัญญาณรางวัลโดยอัตโนมัติ และส่งเข้าไปป์ไลน์การฝึกฝน เมื่อรวบรวมเส้นทางการโต้ตอบได้จำนวนเพียงพอ (ควบคุมโดยพารามิเตอร์ batch_size ในไฟล์กำหนดค่า) ระบบจะทริกเกอร์การวนซ้ำการฝึกฝนหนึ่งครั้งโดยอัตโนมัติเพื่ออัปเดตน้ำหนักโมเดล น้ำหนักที่อัปเดตแล้วจะถูกนำไปใช้กับคำขออนุมานในภายหลังอย่างราบรื่นและเรียลไทม์ โดยไม่จำเป็นต้องรีสตาร์ทบริการเอเจนต์

การเปลี่ยนแปลงโครงสร้าง: บรรลุการวิวัฒนาการตนเองด้วย “การฝึกฝนแบบอะซิงโครนัส” และ “พร็อกซี่เกตเวย์”

AReaL ทำให้เอเจนต์เช่น OpenClaw วิวัฒนาการตัวเองได้อย่างไร? หัวใจสำคัญอยู่ที่การออกแบบโครงสร้างสองประการ: “การฝึกฝนแบบอะซิงโครนัสเต็มรูปแบบ” และ “พร็อกซี่เกตเวย์”

หนึ่งในนวัตกรรมหลักของ AReaL คือการแยกกระบวนการฝึกฝนและอนุมานในการเรียนรู้แบบเสริมแรงออกจากกันโดยสมบูรณ์ เอ็นจิ้นอนุมานรับผิดชอบในการสร้างเส้นทางการโต้ตอบแบบสตรีมมิ่ง ส่วนเอ็นจิ้นฝึกฝนจะใช้ตัวอย่างเหล่านี้เพื่อการเรียนรู้อย่างต่อเนื่อง ทั้งสองสามารถทำงานขนานกันบน GPU ที่แยกจากกันได้ ด้วยกลไกการแก้ไขอัลกอริทึม PPO และการควบคุมความล้าสมัยที่ออกแบบมาอย่างดี AReaL สามารถเพิ่มปริมาณงานได้มากกว่า 2 เท่า ในขณะที่ยังคงความเสถียรของการฝึกฝน การออกแบบนี้มีข้อได้เปรียบอย่างชัดเจนในสถานการณ์การฝึกฝนเอเจนต์ — เอ็นจิ้นฝึกฝนอัปเดตพารามิเตอร์แบบอะซิงโครนัส โดยไม่บล็อกการอนุมานแบบเรียลไทม์ของเอเจนต์ ทำให้ OpenClaw สามารถ “เรียนรู้ไปพร้อมๆ กับการทำงาน” ได้

AReaL v1.0 เปิดตัว: เชื่อมต่อการฝึก RL ด้วยคลิกเดียว, กรอบ Agent เช่น OpenClaw เข้าสู่ยุคใหม่ของ Reinforcement Learning
แผนภาพโครงสร้างพร็อกซี่เกตเวย์และการฝึกฝนการเรียนรู้แบบเสริมแรงแบบอะซิงโครนัสเต็มรูปแบบของ AReaL

เพื่อให้สามารถทำงานร่วมกับเฟรมเวิร์กเอเจนต์ต่างๆ ได้อย่างกว้างขวาง AReaL ได้ออกแบบพร็อกซี่เกตเวย์ (Proxy Gateway) โดยใช้ “โปรโตคอล” เป็นมาตรฐาน เกตเวย์นี้ให้บริการอนุมานที่เข้ากันได้กับโปรโตคอล API ของ OpenAI/Anthropic โดยกำหนดเส้นทางคำขอที่ได้รับไปยังเอ็นจิ้นอนุมานท้องถิ่น (เช่น SGLang, vLLM) เพื่อประมวลผล ประสบการณ์การใช้งานไม่แตกต่างจากบริการอนุมานทั่วไป

อย่างไรก็ตาม ฟังก์ชันของพร็อกซี่เกตเวย์นี้ไม่เพียงแค่กำหนดเส้นทางเท่านั้น มันจะบันทึกรายละเอียดระดับ Token ของอินพุตและเอาต์พุตในทุกๆ การโต้ตอบ LLM ขณะทำการอนุมาน เมื่อเส้นทางการโต้ตอบทั้งหมดสิ้นสุดลง AReaL จะกระจายค่าตอบแทนสุดท้ายที่ได้รับย้อนกลับตามเวลา (Temporal Difference) เพื่อกำหนดรางวัลที่เหมาะสมให้กับการตัดสินใจในแต่ละขั้นตอน สุดท้าย ข้อมูลเหล่านี้จะถูกส่งออกเป็นตัวอย่างการฝึกฝนอิสระ วิธีนี้ทำให้การตัดสินใจในระยะเริ่มต้นก็ได้รับการประเมินรางวัลที่เหมาะสม ช่วยให้โมเดลเรียนรู้ที่จะ “ตัดสินใจเลือกในระยะเริ่มต้นที่ถูกต้องเพื่อเป้าหมายระยะยาว”

ในโซลูชันแบบดั้งเดิม ขณะฝึกฝนจำเป็นต้องแบ่งคำ (tokenize) ข้อความที่สร้างจากการอนุมานใหม่ ซึ่งอาจทำให้ลำดับโทเค็นไม่สอดคล้องกันเนื่องจากความแตกต่างในการกำหนดค่าตัวแบ่งคำ โซลูชันการส่งออกอิสระของ AReaL หลีกเลี่ยงปัญหานี้ตั้งแต่พื้นฐาน: token IDs ที่สร้างขึ้นขณะอนุมานจะถูกแคชโดยตรง และถูกนำมาใช้ตามเดิมขณะฝึกฝน โทเค็นที่ส่งไปยังเอ็นจิ้นฝึกฝนเพื่อคำนวณเกรเดียนต์จะตรงกัน 100% กับโทเค็นที่สร้างโดยเอ็นจิ้นอนุมาน

AReaL v1.0 เปิดตัว: เชื่อมต่อการฝึก RL ด้วยคลิกเดียว, กรอบ Agent เช่น OpenClaw เข้าสู่ยุคใหม่ของ Reinforcement Learning
แผนภาพขั้นตอนโดยละเอียดของกรณีการใช้งานการโต้ตอบหลายรอบใน AReaL

จากการออกแบบโครงสร้างดังกล่าว AReaL สามารถสนับสนุนการฝึกฝนเฟรมเวิร์กเอเจนต์ใดๆ ก็ได้ ไม่ว่าจะเป็น OpenClaw หรือเอเจนต์ที่ผู้ใช้สร้างขึ้นเอง เพียงแค่ชี้ที่อยู่ API ของมันไปยังพร็อกซี่เกตเวย์ของ AReaL ก็จะสามารถเชื่อมต่อกับกระบวนการฝึกฝนการเรียนรู้แบบเสริมแรงได้โดยอัตโนมัติ

นักพัฒนาไม่จำเป็นต้องแก้ไขโค้ดหรือลอจิกธุรกิจเดิมของเอเจนต์ ก็สามารถเริ่มการฝึกฝน RL ได้ ซึ่งหมายความว่า อินเทอร์เฟซเอเจนต์ที่เดิมกระจัดกระจายได้ถูกรวมเข้าสู่ทางเข้าของ RL ระดับโปรโตคอลที่เป็นมาตรฐานชั้นเดียว ทำให้ “เอเจนต์ใดๆ ก็ฝึกฝนได้” เป็นไปได้จริงในทางวิศวกรรมเป็นครั้งแรก

อย่างไรก็ตาม ในระหว่างกระบวนการฝึกฝน พรอมต์เดียวกันอาจสร้างเส้นทางที่แตกต่างกันหลายเส้นทาง (เช่น การสุ่มตัวอย่างหลายครั้ง) และแต่ละเส้นทางจะถูก AReaL แยกออกเป็นคู่อินพุต-เอาต์พุตอิสระหลายคู่ ข้อมูลภายในหนึ่งแบทช์มักมีคำนำหน้า (prefix) ร่วมกันจำนวนมาก วิธีการฝึกฝนแบบดั้งเดิมที่คำนวณแต่ละเส้นทางแยกกัน ส่งผลให้เกิดการคำนวณซ้ำซ้อนอย่างรุนแรง

เพื่อแก้ไขปัญหานี้ AReaL ได้นำเสนอโซลูชันการแพ็กลำดับ (Sequence Packing) ที่ใช้โครงสร้างต้นไม้คำนำหน้า (Prefix Trie):
* สร้างโครงสร้าง Trie: บีบอัดลำดับที่มีคำนำหน้าร่วมกันให้อยู่ในโครงสร้างต้นไม้เดียวกัน
* การคำนวณความสนใจแบบต้นไม้: วิธี AReaL-DTA นำเสนอโซลูชันการคำนวณความสนใจแบบต้นไม้ (Tree Attention) แบบ forward-backward ที่สมบูรณ์ เพื่อให้แน่ใจว่าคำนำหน้าร่วมกันจะถูกคำนวณเพียงครั้งเดียว

กลไกความสนใจแบบต้นไม้นี้ส่งผลให้ประสิทธิภาพเพิ่มขึ้นอย่างมีนัยสำคัญ: ปริมาณงานการฝึกฝนของ Worker เดี่ยวเพิ่มสูงสุด 8.31 เท่า ปริมาณงานรวมของคลัสเตอร์เพิ่มสูงสุด 6.20 เท่า และในขณะเดียวกันก็ลดการใช้หน่วยความจำ GPU ลงกว่า 50% เมื่อเทียบกับโซลูชันพื้นฐาน

AReaL v1.0 เปิดตัว: เชื่อมต่อการฝึก RL ด้วยคลิกเดียว, กรอบ Agent เช่น OpenClaw เข้าสู่ยุคใหม่ของ Reinforcement Learning

สร้างเอ็นจิ้นใหม่ด้วย AI: การปฏิวัติกระบวนทัศน์ทางวิศวกรรมของโครงสร้างพื้นฐาน AI

นอกจากจะลดอุปสรรคในการฝึกฝน Agent RL แล้ว AReaL v1.0 ยังนำเสนอการอัปเดตครั้งสำคัญของเอ็นจิ้นฝึกฝนอีกด้วย

ในสาขาการฝึกฝน RL ขนาดใหญ่ Megatron-LM ถือเป็นมาตรฐานอุตสาหกรรม แต่การติดตั้งที่ต้องพึ่งพาต้องใช้สภาพแวดล้อม Docker และการคอมไพล์ C++ ที่ซับซ้อน โครงสร้างโค้ดมีการซ้อนกันลึก ทำให้การดีบักและการขยายความยาก AReaL ทีมตั้งคำถาม: เป็นไปได้หรือไม่ที่จะใช้ PyTorch Native API เพื่อสร้างเอ็นจิ้นฝึกฝนแบบกระจายศูนย์ที่มีความสามารถเทียบเท่า?

คำตอบคือเอ็นจิ้นฝึกฝน Archon ที่ทีมปรับแต่งอย่างลึกซึ้งจาก torchtitan — เอ็นจิ้นฝึกฝน PyTorch แบบเนทีฟที่รองรับการประมวลผลแบบขนาน 5D (DP, TP, PP, CP, EP) อย่างสมบูรณ์:
* Data Parallel (DP): ใช้ FSDP2 fully_shard ซึ่งแบ่งพารามิเตอร์โมเดลได้ละเอียดยิ่งขึ้นเมื่อเทียบกับโซลูชัน DP มาตรฐานของ Megatron
* Pipeline Parallel (PP): ใช้ torch.distributed.pipelining รองรับวิธีการจัดตารางต่างๆ เช่น ZeroBubblePipeline, 1F1B, Interleaved1F1B
* Tensor Parallel (TP): ใช้ DTensor โดยแบ่งน้ำหนักด้วย Colwise


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/24027

Like (0)
Previous 2 days ago
Next 1 day ago

相关推荐