สร้างโลกเหมือนพัฒนาซอฟต์แวร์: Agent2World มาแล้ว! แปลงโมเดลโลกให้เป็นสภาพแวดล้อมเชิงสัญลักษณ์ที่ทำงานได้

2026年2月2日 pm1:53 • ข่าวสารอุตสาหกรรม AI • 227 views

เพื่อให้โมเดลสามารถ “ลงมือทำ” ได้จริง มักจำเป็นต้องมีแบบจำลองโลกเชิงสัญลักษณ์ที่ปฏิบัติการและตรวจสอบได้ (Symbolic World Model) ซึ่งไม่ใช่คำอธิบายที่เป็นนามธรรม แต่เป็นนิยามที่เป็นทางการที่ตัววางแผนหรือตัวดำเนินการสามารถเรียกใช้ได้โดยตรง เช่น โดเมน/ปัญหาของ PDDL หรือโค้ด/ตัวจำลองสภาพแวดล้อมที่รันได้ เมื่อโลกถูก “เขียนเป็นกฎที่รันได้” เราก็สามารถทำการอนุมาน ทดสอบ และทำซ้ำภายใต้ข้อจำกัดชุดเดียวกันได้: โมเดลจะไม่หยุดอยู่แค่ “การพูด” แต่สามารถตอบคำถามว่า “ถ้าฉันทำแบบนี้ จะเกิดอะไรขึ้น” และใช้ผลลัพธ์จากการดำเนินการเพื่อตรวจสอบว่าตัวเองเข้าใจโลกนี้จริงหรือไม่

อย่างไรก็ตาม เส้นทางสร้างอัตโนมัติที่มีอยู่ในปัจจุบันมักติดอยู่ในปัญหาสามประการ: กระบวนการทำงานแบบสคริปต์ ขอบเขตความรู้ที่ปิด และการแสดงแทนที่ครอบคลุมเพียงรูปแบบเดียว หลายวิธียังคงใช้สคริปต์ “สร้าง-แก้ไข” ที่ตายตัว และใช้การตรวจสอบแบบคงที่ เช่น การแยกวิเคราะห์/การจับคู่กฎ/ชุดตรวจสอบคงที่เป็นหลัก แม้จะสามารถแก้ไขข้อผิดพลาดทางไวยากรณ์และรูปแบบได้ แต่ก็มักจะจับข้อผิดพลาดระดับพฤติกรรมที่ปรากฏเฉพาะในการดำเนินการแบบโต้ตอบไม่ได้ เช่น การอัปเดตสถานะที่ไม่สอดคล้องกัน เป้าหมายไม่สามารถบรรลุได้ หรือกลไกรางวัลล้มเหลว นอกจากนี้ เมื่อข้อกำหนดงานคลุมเครือ ขาดกฎสำคัญ หรือขาดความรู้พื้นฐานทั่วไป ระบบก็ขาดกลไกการค้นหาและเติมเต็มข้อมูลเชิงรุก ต้องพึ่งพา “การเดา” จากความจำของโมเดลเท่านั้น ที่สำคัญกว่านั้น การวิจัยที่มีอยู่มักครอบคลุมการแสดงแทนแบบจำลองโลกเพียงรูปแบบเดียว (ทำเฉพาะ PDDL หรือทำเฉพาะโค้ดที่ปฏิบัติการได้) ทำให้งานเดียวกันยากที่จะแบ่งปันวงจรการตรวจสอบและประสบการณ์การปรับปรุงระหว่างการแสดงออกเชิงสัญลักษณ์ที่แตกต่างกัน ซึ่งจำกัดความสามารถในการปรับใช้ทั่วไปและขยายขอบเขตของวิธีการ

เพื่อแก้ไขปัญหานี้ ทีมวิจัยได้เสนอ Agent2World: กรอบงานแบบมัลติเอเจนต์ที่เสริมด้วยเครื่องมือ โดยผ่านวงจรปิดสามขั้นตอน “การสังเคราะห์ความรู้ → การนำแบบจำลองโลกไปปฏิบัติ → การปรับแต่งโดยขับเคลื่อนด้วยการประเมิน” ซึ่งทำให้ “การค้นหาข้อมูลเพื่อเติมเต็มข้อกำหนด การเขียนการนำไปปฏิบัติ การทดสอบแบบโต้ตอบและการแก้ไขข้อผิดพลาด” กลายเป็นกระบวนทัศน์การสร้างที่นำกลับมาใช้ใหม่ได้ จึงสามารถผลิตแบบจำลองโลกเชิงสัญลักษณ์ที่มีความสามารถในการปฏิบัติการและตรวจสอบได้สูงอย่างเสถียร

ผลการทดลองแสดงว่า Agent2World บรรลุประสิทธิภาพระดับ SOTA ในสามเกณฑ์มาตรฐานหลัก ได้แก่ Text2World (PDDL), CWMB (MuJoCo) และ ByteSized32 (เกมข้อความ) ที่สำคัญกว่านั้น กรอบงานนี้แสดงศักยภาพในการปรับปรุงอย่างยั่งยืน: หลังจากทำการปรับแต่งแบบมีผู้สอน (Supervised Fine-tuning) ด้วยข้อมูลเส้นทางการทำงานคุณภาพสูงที่สร้างโดย Agent2World แล้ว ประสิทธิภาพของโมเดลเพิ่มขึ้นอย่างมีนัยสำคัญ – เมื่อเทียบกับโมเดลเดียวกันก่อนการฝึก ประสิทธิภาพสัมพัทธ์โดยเฉลี่ยเพิ่มขึ้น 30.95% ซึ่งพิสูจน์อย่างชัดเจนถึงคุณค่าทางวิศวกรรมและการวิจัยในฐานะเครื่องมือสังเคราะห์ข้อมูลแบบจำลองโลกคุณภาพสูง

ที่อยู่บทความ: https://arxiv.org/abs/2512.22336
ที่อยู่โครงการ: https://agent2world.github.io/
ที่อยู่โมเดล: https://huggingface.co/agent2world/llama3.1_8b_instruct_full_sft_v1_3_epoch
ที่อยู่โค้ด: https://github.com/DeepExperience/agent2world

一、深层归因：为何传统“脚本式”生成难以为继？

ก่อนหน้า Agent2World วิธีการหลักในการสร้างแบบจำลองโลกอัตโนมัติมักใช้สคริปต์ “ร่าง-แก้ไข” ที่ตายตัว: สร้างโค้ด → รันแล้วเกิดข้อผิดพลาด → แก้ไขโค้ดตามข้อผิดพลาดที่รายงาน วิธีนี้สามารถแก้ไขข้อผิดพลาดทางไวยากรณ์ได้ แต่ยากที่จะรับประกันว่าแบบจำลองโลกที่ “รันได้” จะมีพฤติกรรมที่ถูกต้อง

วงวนตายของสคริปต์แบบรับ: ขาดการวางแผนเชิงรุก ในงานที่ซับซ้อนมักติดอยู่ในวงวนการวนซ้ำที่ไม่มีประสิทธิภาพ “แก้บั๊กหนึ่งแล้วเกิดบั๊กใหม่”
ภาพหลอนจากช่องว่างของข้อกำหนด: เมื่อคำอธิบายงานไม่สมบูรณ์ โมเดลมักต้องพึ่งพาความจำเพื่อ “เดา” ขอบเขตของกฎ รายละเอียดอินเทอร์เฟซ และเงื่อนไขโดยนัย ส่งผลให้แบบจำลองโลกที่สร้างขึ้นดูเหมือนรันได้ แต่ในความเป็นจริงมีตรรกะที่ไม่สอดคล้องกัน
“เกาะสัญลักษณ์” จากการแสดงแทนที่ครอบคลุมเพียงรูปแบบเดียว: การวิจัยที่มีอยู่มักครอบคลุมการแสดงแทนแบบจำลองโลกเพียงรูปแบบเดียว – อาจโน้มเอียงไปทางการวางแผนที่เป็นทางการแบบ PDDL หรือโน้มเอียงไปทางโค้ดสภาพแวดล้อมที่ปฏิบัติการได้ เส้นทางทั้งสองแยกกันทำงาน ทำให้ประสบการณ์ในการสร้าง ตรวจสอบ และแก้ไขยากที่จะแบ่งปันและถ่ายโอนระหว่างการแสดงออกเชิงสัญลักษณ์ที่แตกต่างกัน ปัญหาเดียวกันมักต้องทำกระบวนการใหม่ทั้งหมด ซึ่งในที่สุดก็จำกัดความสามารถในการปรับใช้ทั่วไปและขยายขอบเขตของวิธีการ

โดยสรุปแล้ว ความยากไม่ใช่แค่ “การเขียนโค้ด” แต่คือการผลิตแบบจำลองโลกที่ปฏิบัติการได้ ทำซ้ำได้ และปรับปรุงได้อย่างเสถียรภายใต้ข้อจำกัดจริง และการรวมกันของ “กระบวนการแบบสคริปต์ + การแสดงแทนที่ครอบคลุมเพียงรูปแบบเดียว” นี่คือหนึ่งในคอขวดหลักที่ขัดขวางเป้าหมายนี้

二、方法拆解：把“软件开发团队”装进模型里

หัวใจของ Agent2World ไม่ใช่แค่การ “เพิ่มเอเจนต์หลายตัวมาคุยกัน” อย่างง่าย แต่เป็นการแยกการสร้างแบบจำลองโลกออกเป็นสามขั้นตอนแบบวิศวกรรมซอฟต์แวร์: นักวิจัยเติมเต็มข้อกำหนด นักพัฒนานำไปปฏิบัติ ทีมทดสอบตรวจรับในระดับพฤติกรรมผ่านการทดสอบหน่วยและการจำลองแบบโต้ตอบ และสะท้อนผลตอบรับการตรวจรับกลับสู่กระบวนการแก้ไข

1. Deep Researcher：主动打破知识壁垒

งานในโลกจริงมักมีข้อมูลไม่ครบถ้วน: เป้าหมายค่อนข้างชัดเจน แต่ขอบเขตของกฎ ช่วงของพารามิเตอร์ ข้อจำกัดของการกระทำ และรายละเอียดของอินเทอร์เฟซไม่สมบูรณ์ ภายใต้ความไม่แน่นอนและช่องว่างของความรู้ที่ซ้อนทับกัน ยิ่งนำไปสู่ข้อผิดพลาดเชิงข้อเท็จจริงและภาพหลอนได้ง่าย Deep Researcher ขั้นแรกจะวิเคราะห์และแยกคำอธิบายงานออกเป็นชุดคำถามที่ต้องชี้แจง (เช่น: ชุดการกระทำที่อนุญาต นิยามตัวแปรสถานะ เงื่อนไขสิ้นสุด สถานการณ์ผิดปกติและอินพุตขอบเขต ฯลฯ) มันติดตั้งเครื่องมือค้นหาและดึงข้อมูลจากอินเทอร์เน็ต สามารถค้นหาความรู้ที่จำเป็นสำหรับการสร้างแบบจำลองโลกจากอินเทอร์เน็ตอย่างเป็นขั้นเป็นตอน และในที่สุดจะส่งออกการแสดงแทนระดับกลางที่มีโครงสร้าง ซึ่งข้อมูลที่ขาดหายไปได้รับการเติมเต็มแล้ว

2. Model Developer：统一跨模态表达

หลังจากได้รับข้อกำหนดที่เติมเต็มแล้ว Model Developer มีหน้าที่สร้างแบบจำลองโลกเป้าหมาย (เช่น โดเมน/ปัญหาของ PDDL หรือโค้ดสภาพแวดล้อมที่ปฏิบัติการได้) ขั้นตอนนี้ไม่ได้มีเป้าหมายที่ “เขียนให้เหมือน” แต่มีข้อจำกัดที่เข้มงวดคือ “สามารถปฏิบัติการได้ อินเทอร์เฟซเชื่อมต่อกัน สอดคล้องกับข้อกำหนด”

ดังนั้น Developer จะทำการตรวจสอบการทำงานพื้นฐานและการแก้ไขแบบเพิ่มเติมในแซนด์บ็อกซ์ที่ควบคุม: 一方面保证文件组织、函数签名、依赖与调用链正确；另一方面确保状态转移、动作前置条件与效果、终止判定等核心逻辑与规格对齐。该阶段的输出是一个可以被执行器/规划器直接调用的环境实例。

3. Testing Team：双重防线杜绝幻觉

นี่คือองค์ประกอบสำคัญในกรอบงาน ต่างจากวิธีการในอดีตที่พึ่งพาตัวตรวจสอบแบบคงที่ Testing Team ได้นำกลไกการตรวจสอบสองชั้นแบบไดนามิก ระดับพฤติกรรม มาใช้โดยเฉพาะเพื่อจับข้อผิดพลาดทางตรรกะที่ปรากฏเฉพาะในการโต้ตอบเท่านั้น

Unit Tester: วิเคราะห์โครงสร้างโค้ดโดยอัตโนมัติ สร้างกรณีทดสอบหน่วยสไตล์ Pytest เน้นการตรวจสอบสัญญาอินเทอร์เฟซ ตรรกะภาคแสดงและค่าคงที่ ตัวอย่างเช่น ตรวจสอบว่าฟังก์ชัน step() ส่งกลับมิติสถานะที่สอดคล้องกับนิยามหรือไม่ หรือเงื่อนไขเบื้องต้นของการกระทำใน PDDL สมบูรณ์หรือไม่
Simulation Tester: นี่คือเอเจนต์อัจฉริยะที่ใช้กรอบงาน ReAct รวบรวมเส้นทางการทำงานในสภาพแวดล้อมแบบโต้ตอบและวินิจฉัยปัญหาลึก เช่น ข้อผิดพลาดทางพลศาสตร์ – ตัวอย่างเช่น “หุ่นยนต์ดำเนินการเคลื่อนที่แต่พิกัดไม่ได้รับการอัปเดต”, “ฟังก์ชันรางวัลไม่ถูกกระตุ้นอย่างถูกต้องหลังจากบรรลุเป้าหมาย” หรือ “การเปลี่ยนสถานะขัดแย้งกับสามัญสำนึกทางฟิสิกส์”

一旦发现问题，Testing Team会输出包含错误分析和修复建议的结构化报告，驱动Developer进行针对性修复，直到通过所有测试或达到收敛条件。

进阶：从推理到训练，构建“自进化”的数据飞轮

คุณค่าของ Agent2World ไปไกลกว่าแค่กรอบงานการอนุมาน โดยพื้นฐานแล้วมันคือเครื่องมือสังเคราะห์ข้อมูลคุณภาพสูงแบบอัตโนมัติเต็มรูปแบบ ทีมวิจัยผ่านกระบวนการที่เข้มงวด “การสังเคราะห์งาน – การคัดกรองเส้นทางการทำงาน – การกลั่นประสบการณ์” ได้กลั่นยุทธ์การแก้ไขที่มีประสิทธิภาพจากการทำงานร่วมกันของมัลติเอเจนต์ให้เป็นความชอบในการสร้างและแก้ไขของโมเดลเดี่ยว

การสังเคราะห์ข้อมูล: เพื่อหลีกเลี่ยงการรั่วไหลของข้อมูลและเพิ่มความสามารถในการปรับใช้ทั่วไป ทีมไม่ได้ใช้คำถามจากชุดทดสอบโดยตรง แต่สังเคราะห์งานใหม่จำนวนมากที่ครอบคลุมสาขาต่างๆ ด้วยตนเอง จากนั้น ระบบใช้กลไก “การสุ่มตัวอย่างแบบปฏิเสธที่ชี้นำโดยตัวตรวจสอบ” คัดกรองเส้นทางการทำงาน 1526 เส้นจากผลลัพธ์การสร้างจำนวนมหาศาล ที่ผ่านทั้งการรันในแซนด์บ็อกซ์และการตรวจสอบสองชั้น ชุดข้อมูลนี้บันทึกเส้นทางการทำงานความหนาแน่นสูงของ Developer ตั้งแต่โค้ดผิดพลาดไปจนถึงการแก้ไขสำเร็จอย่างสมบูรณ์ ซึ่งให้ตัวอย่างการแก้ไขข้อผิดพลาดทางตรรกะที่มีคุณค่าสูงแก่โมเดล

三、实验验证：横扫三大基准，验证“数据飞轮”效应

Agent2World บรรลุผลการดำเนินการชั้นนำในการทดสอบมาตรฐานสามรายการ: Text2World (PDDL), CWMB (ตัวจำลอง MuJoCo ที่ปฏิบัติการได้) และ ByteSized32 (สภาพแวดล้อมเกมข้อความ)

1. Text2World (PDDL)：从“能跑”到“懂逻辑”的显著提升

โดยใช้ GPT-4.1-mini เป็นฐาน ในเกณฑ์มาตรฐานการสร้างโค้ด PDDL, Agent2World Multi ลดอัตราความล้มเหลวของโค้ดที่ “รันไม่ได้” อย่างมีนัยสำคัญ บรรลุอัตราการปฏิบัติการได้ของโค้ด 93.1% เพิ่มขึ้น 14.9 จุดเปอร์เซ็นต์เมื่อเทียบกับฐานที่แข็งแกร่ง Text2World ($EC=3$) ที่สำคัญกว่านั้น บนตัวชี้วัด Component-wise F1 ที่วัดความถูกต้องทางความหมาย บรรลุ 75.4 (ฐานคือ 60.1) เพิ่มขึ้น 15.3 คะแนน นี่แสดงว่าโมเดลไม่เพียงเลียนแบบไวยากรณ์แบบกลไกอีกต่อไป แต่เข้าใจข้อจำกัดภาคแสดงและเกตตรรกะอย่างลึกซึ้งยิ่งขึ้น สามารถสร้างโดเมนการวางแผนคุณภาพสูงที่ถูกต้องทางไวยากรณ์และมีคุณสมบัติในการแก้ปัญหาได้

2. CWMB (MuJoCo)：不仅预测得准，更要“好用”

CWMB ประเมินทั้งความแม่นยำในการทำนายพลศาสตร์ของโค้ดจำลองและความสามารถในการสนับสนุนงานวางแผน/ควบคุมขั้นตอนต่อไปในฐานะแบบจำลองโลก บน GPT-4o-mini, Agent2World Multi บรรลุผลตอบแทนที่ปรับให้เป็นมาตรฐานโดยรวม 0.4811 เพิ่มขึ้น +0.132 เมื่อเทียบกับ 0.3488 ของฐานที่แข็งแกร่งที่สุดก่อนหน้านี้ GIF-MCTS; ความแม่นยำในการทำนายพื้นที่การกระทำแบบไม่ต่อเนื่องอยู่ในระดับเดียวกับฐานที่แข็งแกร่ง นี่แสดงว่าการเพิ่มประสิทธิภาพเกิดจากโมเดลบรรลุ “ความสอดคล้องระดับพฤติกรรมที่สามารถใช้สำหรับการวางแผน” ไม่ใช่แค่การเพิ่มความคล้ายคลึงของการทำนายเฟรมถัดไป

3. ByteSized32 (Text Games)：常识推理与物理现实的高度一致性

ในสภาพแวดล้อมเกมข้อความที่พึ่งพาการให้เหตุผลตามสามัญสำนึกอย่างมาก การค้นหาความรู้เชิงรุกของ Deep Researcher มีบทบาทสำคัญ Agent2World Multi บรรลุคะแนนสูง 0.4768 ในตัวชี้วัดหลัก “ระดับการจัดแนวกับความเป็นจริงทางกายภาพ” เพิ่มขึ้นอย่างมาก 0.2848 เมื่อเทียบกับเวอร์ชันเอเจนต์เดี่ยว นอกจากนี้ อัตราความสำเร็จในการเริ่มต้นโค้ดเกมที่สร้างขึ้นใกล้เคียง 99% ข้อมูลเหล่านี้แสดงว่า ด้วยการนำความรู้ภายนอกและการทดสอบหลายรอบเข้ามา โมเดลสามารถกำจัด “ภาพหลอนทางกายภาพ” จำนวนมากที่ขัดแย้งกับสามัญสำนึกได้สำเร็จ สร้างสภาพแวดล้อมข้อความที่มีตรรกะ严密且稳定的文本环境。

4. 模型微调实验

基于自主合成的高质量轨迹数据，团队对 Llama-3.1-8b-instruct 进行了监督微调。实验表明，这种“以智能体养模型”的策略带来了显著的泛化能力提升：微调后的模型在未见过的测试任务上，平均相对性能提升了 30.95%。在 Text2World 任务中，模型生成的代码可执行率提升高达 16.9%。这证明，无需依赖昂贵的超大模型，仅凭小参数模型

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง