ATLAS ปฏิวัติกระบวนทัศน์การให้เหตุผลเชิงภาพ: ใช้โทเค็นแบบไม่ต่อเนื่องเพียงหนึ่งเดียว รวมการให้เหตุผลแบบ Agentic และ Latent โดยไม่ต้องใช้เครื่องมือภายนอก

16 hours ago • วิศวกรรมโมเดลขนาดใหญ่ • 19 views

Meta AI ร่วมกับมหาวิทยาลัยจีนแห่งฮ่องกงเพิ่งเสนอแนวทางการให้เหตุผลเชิงภาพ (Visual Reasoning) รูปแบบใหม่ที่พลิกโฉมวงการ นั่นคือ ATLAS วิธีการนี้ไม่ต้องใช้เครื่องมือภายนอก ไม่สร้างภาพขั้นกลางอย่างชัดเจน และไม่พึ่งพาสัญญาณควบคุมเชิงภาพ เพียงแค่ใช้คำศัพท์ที่ไม่ต่อเนื่อง (discrete vocabulary) เพียงคำเดียวก็สามารถผสาน Agentic Reasoning และ Latent Visual Reasoning เข้าด้วยกันได้อย่างปฏิวัติวงการเป็นครั้งแรก

ลิงก์论文: https://arxiv.org/pdf/2605.15198
หน้าโครงการ: https://atlas-oneword.github.io
คลังโค้ด: https://github.com/ZiyuGuo99/ATLAS

ผู้เขียนหลักของงานวิจัยนี้เป็นนักศึกษาปริญญาเอกของมหาวิทยาลัยจีนแห่งฮ่องกง จบปริญญาตรีจากภาควิชาวิทยาการคอมพิวเตอร์ มหาวิทยาลัยปักกิ่ง เคยฝึกงานที่ Google DeepMind Veo, Meta AI, Amazon AWS AI Lab, Roblox, Shanghai AI Lab เป็นต้น โดยมุ่งเน้นไปที่โมเดลหลายรูปแบบขนาดใหญ่ (Multimodal Large Models) และการรวมการสร้างและการเข้าใจ (Generation-Understanding Unification) ผลงานที่เป็นตัวแทน ได้แก่ Image-CoT, Think-while-Generate, MME-CoF, Point-LLM, PointCLIP เป็นต้น หน้าเว็บส่วนตัวคือ https://ziyuguo99.github.io/

TL;DR:

เมื่อเผชิญกับงานการให้เหตุผลเชิงภาพที่ซับซ้อน Unified Models, Agentic Visual Reasoning และ Latent Visual Reasoning มักถูกมองว่าเป็นสามเส้นทางที่แตกต่างกัน: Unified Models อาศัยการสร้างสถานะภาพขั้นกลางอย่างชัดเจน ใช้งานง่ายแต่มีค่าใช้จ่ายในการคำนวณสูงและฝึกฝนซับซ้อน วิธีการแบบ Agentic อาศัยเครื่องมือภายนอกหรือตัวดำเนินการ อธิบายได้ดีแต่กระบวนการยืดเยื้อและต้องการการควบคุมขั้นกลางเพิ่มเติม วิธีการแบบ Latent ใช้การแสดงผลภายในโมเดล มีรูปแบบที่เบา แต่มักต้องการการออกแบบโครงสร้างเพิ่มเติมหรือกลไกการฝึกพิเศษ ความสามารถในการขยายและการสรุปทั่วไปต่ำ และยังต้องการการควบคุมกระบวนการ ATLAS พยายาม打破รูปแบบเหล่านี้ โดยใช้ Token ที่ไม่ต่อเนื่อง (Functional Token) อย่างง่ายเพื่อทำหน้าที่หลักหลายอย่างพร้อมกัน: ในฐานะ Agentic Operation มันสามารถแจ้งโมเดลเกี่ยวกับการดำเนินการเชิงภาพที่กำลังทำได้อย่างมีประสิทธิภาพ ในฐานะ Latent Visual Reasoning Unit มันมีส่วนร่วมในการให้เหตุผลภายในโมเดลอย่างมีประสิทธิภาพ โดยไม่ต้องสร้างภาพขั้นกลาง และมีความสามารถในการขยายและการสรุปทั่วไปที่แข็งแกร่ง สามารถขยายไปสู่การฝึกขนาดใหญ่และนำไปใช้กับงานในหลายโดเมนได้อย่างง่ายดาย ความหมายที่แท้จริงของ “One Word is Enough for Both” คือ: คำเดียวคือทั้งการดำเนินการและการคิด
Agentic และ Latent Visual Reasoning ไม่ได้ขัดแย้งกัน Token ที่ไม่ต่อเนื่องหนึ่งตัวสามารถแทนทั้งความหมายของการกระทำเชิงภาพที่สมบูรณ์และอธิบายได้ และยังสามารถทำหน้าที่เป็น Latent Visual Reasoning Unit ภายในโมเดลได้
Functional Token ที่กระจัดกระจายต้องการการปรับให้เหมาะสมเป็นพิเศษ แม้จำนวน Functional Token จะน้อย แต่มักเป็นจุดสำคัญในการให้เหตุผลเชิงภาพ LA-GRPO ใช้จุดยึดระดับ Token (Token-level anchor) เพื่อให้โมเดลเรียนรู้การดำเนินการเชิงภาพที่สำคัญเหล่านี้ได้อย่างมีประสิทธิภาพมากขึ้น

01 การรวม Agentic และ Latent Visual Reasoning อย่างมีประสิทธิภาพ

เมื่อโมเดลขนาดใหญ่เผชิญกับปัญหาการให้เหตุผลเชิงภาพที่ซับซ้อน มันควรจะคิดอย่างไร?

วิธีที่เข้าใจได้ง่ายคือให้โมเดลสร้างภาพขั้นกลางหรือสถานะภาพอย่างชัดเจน (Unified Models) จากนั้นให้เหตุผลต่อจากผลลัพธ์ขั้นกลางเหล่านี้ วิธีนี้กระบวนการชัดเจน แต่มักต้องถอดรหัสและเข้ารหัสเนื้อหาภาพซ้ำๆ ทำให้ค่าใช้จ่ายในการคำนวณสูง และทำให้การฝึกและการออกแบบสถาปัตยกรรมซับซ้อนขึ้น ต้องการการควบคุมเชิงภาพเพิ่มเติม และมีความสามารถทั่วไปต่ำ อีกประเภทหนึ่ง (Agentic Visual Reasoning) ทำให้การให้เหตุผลเชิงภาพชัดเจนยิ่งขึ้น: โมเดลดำเนินการเชิงภาพ เช่น การวาดเส้น การ标注 การ裁剪 การขยาย ผ่านโค้ด การเรียกใช้เครื่องมือ หรือตัวดำเนินการภายนอก

Agentic Visual Reasoning ประเภทนี้มีความสามารถในการอธิบายที่ดี แต่ทำให้เกิดความล่าช้าในการดำเนินการเครื่องมือเพิ่มเติม มักต้องการคำอธิบายการเรียกใช้การดำเนินการที่ยืดเยื้อ และยังต้องการการควบคุมกระบวนการดำเนินการเพิ่มเติม

ในขณะที่ Latent Visual Reasoning พยายามบีบอัดการให้เหตุผลขั้นกลางไปสู่การแสดงผลภายในโมเดล หลีกเลี่ยงการสร้างภาพอย่างชัดเจนหรือการเรียกใช้เครื่องมือภายนอก มันมีน้ำหนักเบากว่า และสามารถแสดงข้อมูลที่มีมิติสูงกว่า แต่กระบวนการขั้นกลางมักควบคุมได้น้อยกว่า ยังต้องการการควบคุมเชิงภาพเพิ่มเติมสำหรับ Latent และความสามารถในการขยาย การอธิบาย และการสรุปทั่วไปต่ำ ทำให้ยากต่อการฝึกขนาดใหญ่และการสรุปทั่วไป

มีวิธีการใดหรือไม่ที่สามารถเหมือน Agent ที่มีการดำเนินการเชิงภาพที่ชัดเจน ในขณะที่รับประกันความเบาและประสิทธิภาพเท่ากับ Latent Visual Reasoning สามารถขยายไปสู่การฝึกขนาดใหญ่และสรุปทั่วไปไปยังงานในหลายโดเมน พร้อมทั้งหลีกเลี่ยงต้นทุนสูงจากการสร้างสถานะภาพขั้นกลางอย่างชัดเจน?

Meta AI ร่วมกับมหาวิทยาลัยจีนแห่งฮ่องกงเสนอรูปแบบการให้เหตุผลเชิงภาพรูปแบบใหม่——ATLAS แนวคิดหลักนั้นเข้าใจง่ายมาก: ใช้เพียงคำเดียว รวม Agentic และ Latent Visual Reasoning เข้าด้วยกันเป็นครั้งแรก

การเปรียบเทียบรูปแบบการให้เหตุผลเชิงภาพหลัก

02 ทำไม Token เดียวถึงเพียงพอ

Unified Models เหมือนกับการวาดรูปใหม่ในขณะที่คิด วิธีการแบบ Agentic เหมือนกับการหยิบกล่องเครื่องมือออกมา วิธีการแบบ Latent เหมือนกับการจินตนาการในสมองโดยหลับตา ในขณะที่ ATLAS เหมือนกับการสอนโมเดลให้เรียนรู้ชุดสัญญาณการกระทำเชิงภาพ โมเดล只需สร้าง Functional Token ที่ไม่ต่อเนื่อง ก็สามารถ触发การดำเนินการเชิงภาพที่สอดคล้องกันในการแสดงผลภายใน

Token เหล่านี้ดูเหมือนเป็นเพียงคำศัพท์ธรรมดาในตารางคำ แต่บทบาทที่พวกมัน承担นั้นไม่ธรรมดา: พวกมันเป็นทั้ง Agentic Operation และ Latent Visual Reasoning

ATLAS ใช้ Token เดียวเชื่อมต่อสองสิ่งพร้อมกัน: ด้านหนึ่ง มันเหมือน Agentic Reasoning ที่ระบุอย่างชัดเจนว่าโมเดลต้องการดำเนินการเชิงภาพบางอย่าง อีกด้านหนึ่ง มันมีอยู่ภายในโมเดลอย่างสมบูรณ์ ไม่พึ่งพาเครื่องมือภายนอกหรือการสร้างภาพอย่างชัดเจน ดังนั้นจึงรักษาประสิทธิภาพของ Latent Visual Reasoning ไว้

Token เหล่านี้ไม่ต้องการการควบคุมเชิงภาพเพิ่มเติม และไม่ต้องการเปลี่ยนสถาปัตยกรรมโมเดล เช่นเดียวกับคำศัพท์ทั่วไป มันถูกสร้างโดยโมเดลผ่าน Next-Token Prediction แต่เมื่อปรากฏในห่วงโซ่การให้เหตุผล มันไม่ใช่แค่ข้อความ แต่ยังเป็นจุดยึดการดำเนินการเชิงภาพภายในโมเดล

ATLAS: แสดงการดำเนินการเชิงภาพเป็น Functional Tokens ในลำดับการถดถอยอัตโนมัติมาตรฐาน

03 วิธีทำให้โมเดลเรียนรู้การใช้ Functional Tokens อย่างแท้จริง

ขั้นตอนกลางหลายขั้นตอนในการให้เหตุผลเชิงภาพ ไม่จำเป็นต้องสร้างภาพ完整เสมอไป

เมื่อทำโจทย์เรขาคณิต สมองมนุษย์อาจแค่ลากเส้นเพิ่มเส้นเดียว เมื่อตัดสินพื้นที่ อาจแค่ดูที่มุมซ้ายบน เมื่อนับจำนวน อาจแค่ทำเครื่องหมายให้แต่ละวัตถุ การกระทำเหล่านี้สำคัญ แต่ตัวมันเองไม่จำเป็นต้องใช้ Token จำนวนมากหรือภาพ完整เพื่อแสดง

ข้อมูลเชิงลึกสำคัญของ ATLAS คือ: การดำเนินการให้เหตุผลเชิงภาพหลายอย่างสามารถบีบอัดเป็นการกระทำเชิงความหมายระดับสูง และการกระทำนี้สามารถแสดงโดย Token ที่ไม่ต่อเนื่อง ดังนั้น ATLAS จึงไม่ให้โมเดล输出โค้ดที่ยืดเยื้อ เรียกใช้เครื่องมือภายนอก หรือสร้างผลลัพธ์ภาพขั้นกลางที่มีราคาแพงอีกต่อไป แต่ให้โมเดลแทรก Functional Token อย่างเป็นธรรมชาติในระหว่างกระบวนการให้เหตุผลเชิงข้อความ การออกแบบนี้ทำให้กระบวนการให้เหตุผลเชิงภาพกะทัดรัดยิ่งขึ้น และใกล้เคียงกับวิธีที่มนุษย์ดำเนินการเชิงภาพในสมองมากขึ้น

เพื่อให้โมเดลเรียนรู้การใช้ Functional Tokens เหล่านี้อย่างแท้จริง ทีมวิจัยใช้กระบวนการฝึก SFT + RL สองขั้นตอน:

ขั้นตอนแรก: SFT สอนโมเดลว่าเมื่อใดควรใช้การกระทำเชิงภาพ

ทีมวิจัยสร้างชุดข้อมูล ATLAS-178K ครอบคลุมงานการให้เหตุผลเชิงภาพมากกว่า 40 ประเภท และ映射การดำเนินการเชิงภาพที่ซับซ้อนไปสู่การแสดง Functional Token ที่เป็นหนึ่งเดียว

ขั้นตอนที่สอง: RL สอนโมเดลให้ใช้ให้ถูกต้อง ไม่ใช่ใช้พร่ำเพรื่อ

ข้อความหลังการเขียนใหม่เชิงลึกและการลดความซ้ำซ้อน

การให้โมเดลเรียนรู้การสร้าง Functional Token เพียงอย่างเดียวนั้นไม่เพียงพอ หากกลไกการให้รางวัลออกแบบไม่เหมาะสม โมเดลอาจไปสุดโต่งอีกด้าน: สะสม Token อย่างบ้าคลั่งเพื่อรับรางวัล ตัวอย่างเช่น ปัญหาที่只需เส้น辅助เส้นเดียวก็แก้ได้ โมเดลกลับ输出การกระทำเชิงภาพหลายสิบ Token ดูผิวเผินเหมือนพยายามมาก แต่จริงๆ แล้วไม่ช่วยแก้ปัญหาเลย

เพื่อแก้ปัญหานี้ ATLAS ออกแบบฟังก์ชันรางวัลพิเศษในขั้นตอนการเรียนรู้แบบเสริมกำลัง: ให้รางวัลทั้งการตอบคำถามถูกต้อง และ鼓励การใช้ Functional Token อย่างสมเหตุสมผล ในขณะเดียวกัน ลงโทษการ输出ที่ยาวเกินไปและ Token Spam เพื่อหลีกเลี่ยงการใช้การกระทำเชิงภาพในทางที่ผิดเพื่อเพิ่มคะแนน ด้วยวิธีนี้ โมเดลจะไม่ใช้ Token มากขึ้นอย่างง่ายๆ แต่เรียนรู้ที่จะใช้它们อย่างรอบคอบเมื่อจำเป็นต้องดำเนินการเชิงภาพจริงๆ

04 LA-GRPO: เอาชนะปัญหาการเจือจางเกรเดียนต์

เทคโนโลยีสำคัญอีกอย่างใน ATLAS คือ Latent-Anchored GRPO หรือ LA-GRPO ปัญหาหลักอยู่ที่ความกระจัดกระจายของ Functional Token ในการ输出การให้เหตุผลเชิงภาพทั้งหมด Token ส่วนใหญ่ยังคงเป็นข้อความธรรมดา Functional Token คิดเป็นสัดส่วนที่น้อยมาก

GRPO ทั่วไปใช้ Sequence-level Reward แม้จะปรับโมเดลโดยรวมได้ แต่สำหรับ Token สำคัญจำนวนน้อยเหล่านี้ สัญญาณเกรเดียนต์จะถูกเจือจางโดย Token ข้อความธรรมดาจำนวนมากได้ง่าย——นี่คือปัญหาการเจือจางเกรเดียนต์ (Gradient Dilution) ที่กล่าวถึงใน论文

วิธีแก้ปัญหาของ ATLAS คือ: บนพื้นฐานของ GRPO เพิ่มการยึดระดับ Token (Token-level Anchor) สำหรับตำแหน่ง Functional Token หากเส้นทางการให้เหตุผลเส้นทางหนึ่ง最终ตอบถูก และ Functional Token ตัวใดตัวหนึ่งมีบทบาทสำคัญ LA-GRPO จะเสริมความน่าจะเป็นในการสร้าง Token นั้นอย่างตรงจุดมากขึ้น ซึ่งเท่ากับบอกโมเดลระหว่างการฝึก: ไม่ใช่ทุกคำที่มีความสำคัญเท่ากัน คำที่触发การดำเนินการเชิงภาพจริงๆ จำเป็นต้องเรียนรู้อย่างแม่นยำมากขึ้น

LA-GRPO: เพิ่มการอัปเดตเกรเดียนต์สำหรับ Functional Tokens ที่กระจัดกระจาย บรรเทาปัญหาการเจือจางเกรเดียนต์

05 คำเดียว带来ความสามารถในการให้เหตุผลเชิงภาพที่แข็งแกร่งและมีประสิทธิภาพ

การวิเคราะห์เชิงปริมาณและเชิงคุณภาพ

ทีมวิจัย验证ผลของ ATLAS บนเกณฑ์มาตรฐานการให้เหตุผลเชิงภาพหลายรายการ ผลการทดลองแสดงให้เห็นว่า ATLAS ให้ผลลัพธ์ที่แข่งขันได้ในงานการให้เหตุผลเชิงภาพที่ท้าทายหลายงาน โดยเฉพาะในงานการให้เหตุผลเชิงเรขาคณิตที่ซับซ้อน ความสัมพันธ์เชิงพื้นที่ ความเข้าใจหลายมุมมอง การนับ และการตัดสินเชิงภาพแบบละเอียด Functional Token ช่วยให้โมเดลจัดระเบียบกระบวนการให้เหตุผลเชิงภาพได้อย่างมีประสิทธิภาพมากขึ้น พร้อมรักษาประสิทธิภาพที่สูงมาก

ผลการทดสอบเกณฑ์มาตรฐาน ATLAS

ที่สำคัญกว่านั้น การปรับปรุงของ ATLAS ไม่ได้มาจากระบบภายนอกที่ซับซ้อนกว่า มันไม่ต้องใช้เครื่องมือเพิ่มเติม ไม่ต้องสร้างภาพขั้นกลางอย่างชัดเจน และไม่ทำลายกระบวนการฝึกถดถอยอัตโนมัติมาตรฐาน Functional Token ยังคงเป็น Token ธรรมดาในตารางคำ สามารถเข้ากันได้กับกรอบการฝึก SFT และ RL ที่มีอยู่ และสามารถขยายไปสู่การฝึกขนาดใหญ่ได้อย่างมีประสิทธิภาพ

การวิเคราะห์ประสิทธิภาพของ ATLAS

ตัวอย่างเชิงคุณภาพของ ATLAS: Functional Tokens ช่วยให้โมเดล定位 กรอง และ标注หลักฐานเชิงภาพ

โมเดลดู Token เหล่านี้จริงหรือ?

คำถามที่เกิดขึ้นโดยธรรมชาติคือ: Functional Token เหล่านี้เป็นเพียงสัญลักษณ์พิเศษ หรือโมเดลเรียนรู้การดำเนินการเชิงภาพที่สอดคล้องกันจริงๆ?

เพื่อตอบคำถามนี้ ทีมวิจัยวิเคราะห์รูปแบบความสนใจ (Attention Pattern) ของโมเดลเมื่อสร้าง Functional Token ผลลัพธ์แสดงให้เห็นว่า เมื่อโมเดลสร้าง <|Shape|> ความสนใจมักจะ聚焦ไปยังพื้นที่เป้าหมายที่ต้อง标记 เมื่อสร้าง <|Line|> ความสนใจจะ集中在โครงสร้างเรขาคณิตหรือจุดสำคัญที่ต้องเชื่อมต่อ เมื่อสร้าง <|Text|> โมเดลมีแนวโน้มที่จะ关注วัตถุที่ต้อง编号、标注或区分

这说明 Functional Token ไม่ใช่แค่เครื่องหมาย Token ธรรมดา แต่ทำให้การดำเนินการเชิงภาพนี้มีบทบาทจริงในกระบวนการให้เหตุผลของการแสดงผลภายในโมเดล

การวิเคราะห์ความสนใจของ Functional Token: Token ต่างกัน关注พื้นที่ที่เกี่ยวข้องกับการดำเนินการต่างกัน

ความสำคัญของ ATLAS อยู่ที่การเสนอรูปแบบการให้เหตุผลเชิงภาพรูปแบบใหม่ จากมุมมองระยะยาว ATLAS มอบอินเทอร์เฟซความสามารถใหม่ให้กับโมเดลหลายรูปแบบ: ไม่ใช่ให้โมเดลเรียกใช้เครื่องมือภายนอกอย่างต่อเนื่อง และไม่ใช่ให้โมเดลคิดในพื้นที่แฝงแบบกล่องดำโดยไม่ต้องสร้างภาพขั้นกลางที่มีราคาแพงในทุกขั้นตอน แต่ให้มันเรียนรู้ชุดภาษาการกระทำเชิงภาพที่简洁

เมื่อโมเดลสามารถดำเนินการเชิงภาพด้วยคำเดียว (word) มันก็สามารถรับประกันความสามารถในการขยาย การสรุปทั่วไป และการอธิบาย พร้อมหลีกเลี่ยงกระบวนการให้เหตุผลที่ยืดเยื้อและการควบคุมขั้นกลางเพิ่มเติม เพื่อให้เกิดการให้เหตุผลและทำนายที่简洁และมีประสิทธิภาพสูงสุด

One word is enough for both.

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง