ทีมจาก Tsinghua & CUHK เสนอ ColaVLA: การอนุมานการขับขี่อัตโนมัติไม่ต้องพึ่งข้อความอีกต่อไป การคิดในพื้นที่แฝงและการวางแผนแบบขนานเป็นชั้นนำพาราไดม์ใหม่

2026年4月3日 pm12:43 • การอนุมานโมเดลขนาดใหญ่ • 140 views

ในช่วงสองปีที่ผ่านมา การผสานการขับขี่อัตโนมัติกับโมเดลขนาดใหญ่ (โดยเฉพาะโมเดลภาษาที่ใช้การมองเห็น หรือ VLM) ได้กลายเป็นทิศทางการวิจัยที่เป็นที่นิยม แนวคิดพื้นฐานคือการใช้ความสามารถในการเข้าใจและให้เหตุผลเกี่ยวกับสภาพแวดล้อมของ VLM ที่ทรงพลัง เพื่อให้มันเข้าใจสภาพแวดล้อม ตัดสินใจ และส่งออกวิถีการควบคุมได้เหมือนมนุษย์ผู้ขับขี่

อย่างไรก็ตาม เมื่อนำแนวคิดนี้ไปประยุกต์ใช้ในด้านการขับขี่อัตโนมัติ ปัญหาทั่วไปที่พบคือ แม้ว่าหลายวิธีจะนำโมเดลขนาดใหญ่เข้ามาใช้ แต่ก็ยังคงสร้างกระบวนการ “การให้เหตุผล” เป็นการคิดแบบลูกโซ่ข้อความ (Chain-of-Thought) นั่นคือ โมเดลต้องสร้างข้อความคำอธิบายกลางขึ้นมาก่อน จากนั้นจึงแปลงข้อความเหล่านี้เป็นขั้นตอนไปสู่การกระทำหรือวิถี ข้อดีของวิธีนี้คือกระบวนการให้เหตุผล “มองเห็นได้” แต่ก็มีข้อเสียที่ชัดเจน: ข้อความเป็นลำดับของโทเค็นที่ไม่ต่อเนื่อง ในขณะที่วิถีการเคลื่อนที่ของรถเป็นสัญญาณควบคุมที่ต่อเนื่อง การให้เหตุผลด้วยข้อความต้องพึ่งพาการถอดรหัสแบบถดถอย ซึ่งช้าและมีขั้นตอนยาว ทำให้ยากที่จะตอบสนองความต้องการด้านเวลาจริงที่เข้มงวดของการขับขี่อัตโนมัติ

เพื่อแก้ไขปัญหานี้ ทีมวิจัยจากมหาวิทยาลัยชิงหวาและ MMLab ของมหาวิทยาลัยจีนแห่งฮ่องกง ได้เสนอกรอบงานการมองเห็น-ภาษา-การกระทำ (VLA) แบบใหม่สำหรับการให้เหตุผลในปริภูมิแฝงและการวางแผนแบบขนานเป็นชั้นๆ ที่ชื่อว่า ColaVLA งานวิจัยนี้ได้รับการตีพิมพ์ในงานประชุมหลัก CVPR 2026 แล้ว

ทีมจาก Tsinghua & CUHK เสนอ ColaVLA: การอนุมานการขับขี่อัตโนมัติไม่ต้องพึ่งข้อความอีกต่อไป การคิดในพื้นที่แฝงและการวางแผนแบบขนานเป็นชั้นนำพาราไดม์ใหม่

ชื่อบทความวิจัย: ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving
ลิงก์บทความวิจัย: https://arxiv.org/abs/2512.22939
ลิงก์โค้ด: https://github.com/pqh22/ColaVLA

ประเด็นหลักของบทความวิจัยนี้ตรงไปตรงมา: การให้เหตุผลในการขับขี่อัตโนมัติ ไม่จำเป็นต้องทำผ่านการสร้างข้อความ

แทนที่จะให้โมเดล “คิดไปพูดไป” ควรให้มันทำการให้เหตุผลทางปัญญาภายในปริภูมิแฝง (Latent Space) ที่เป็นหนึ่งเดียวกัน จากนั้นจึงส่งผลลัพธ์ไปยังตัววางแผนการกระทำโดยตรง วิธีนี้สามารถรักษาความรู้และความสามารถเชิงความหมายก่อนหน้าที่มีใน VLM ได้ ในขณะเดียวกันก็หลีกเลี่ยงปัญหาความล่าช้าและการไม่ตรงกันของการแสดงผลที่เกิดจากการสร้างข้อความแบบชัดเจน

ข้อได้เปรียบหลักของ ColaVLA สามารถสรุปได้เป็นสองประการ: 1. การย้ายกระบวนการให้เหตุผลจากปริภูมิข้อความไปสู่ปริภูมิแฝง; 2. การเปลี่ยนกระบวนการสร้างวิถีจากแบบอนุกรมไปเป็นแบบขนานเป็นชั้นๆ

หนึ่ง: แนวคิดหลัก: การให้เหตุผลทางปัญญาในปริภูมิแฝง + การวางแผนแบบขนานเป็นชั้นๆ

กรอบงานโดยรวมของ ColaVLA ประกอบด้วยโมดูลหลักสองส่วน:
* ตัวให้เหตุผลในปริภูมิแฝงทางปัญญา (Cognitive Latent Reasoner): รับผิดชอบการรับรู้และการตัดสินใจระดับสูงในการขับขี่
* ตัววางแผนแบบขนานเป็นชั้นๆ (Hierarchical Parallel Planner): รับผิดชอบการขยายการตัดสินใจระดับสูงออกเป็นวิถีต่อเนื่อง

การออกแบบนี้มีเป้าหมายเพื่อกำหนดอินเทอร์เฟซระหว่าง “การให้เหตุผล” และ “การกระทำ” ใหม่ เพื่อให้ทั้งสองส่วนสอดคล้องกันอย่างมีประสิทธิภาพ โดยตัวให้เหตุผลในปริภูมิแฝงจำลองกระบวนการรับรู้ของมนุษย์ผู้ขับขี่ ประกอบด้วยสี่ขั้นตอนโดยนัย:

การเข้าใจ (Understand): รวมข้อมูลภาพจากหลายมุมมอง คำแนะนำการขับขี่ที่กำหนดไว้ และสถานะของรถตัวเอง เพื่อสร้างความเข้าใจสภาพแวดล้อมโดยรวม
การจดจำ (Recognize): ผ่านตัวกำหนดเส้นทางที่ปรับตามสถานะของรถตัวเอง (ego-adaptive router) เพื่อคัดกรองเอนทิตีภาพที่สำคัญที่สุดที่เกี่ยวข้องกับการตัดสินใจขับขี่ในปัจจุบัน (เช่น เส้นแบ่งเลน รถใกล้เคียง คนเดินเท้า ไฟจราจร ฯลฯ) แบบไดนามิก และกรองข้อมูลส่วนเกิน
การคิดทบทวน (Rethink): ทำการให้เหตุผลแบบตรวจสอบซ้ำบนข้อมูลสำคัญที่ถูกบีบอัด โดยใช้ชุดของคำถามเมตา (meta-query) ที่เรียนรู้ได้เพื่อแสดงกลยุทธ์การขับขี่ระดับสูงที่แตกต่างกัน
การตัดสินใจ (Decide): ส่งออกชุดของความรู้ก่อนหน้าที่มุ่งสู่การสร้างการกระทำระดับสูง (เช่น ความตั้งใจ จุดหมาย ฯลฯ) แทนที่จะเป็นคำอธิบายด้วยภาษาธรรมชาติ

ขั้นตอนนี้ดำเนินการทั้งหมดภายในปริภูมิแฝงที่เป็นหนึ่งเดียวกัน หลีกเลี่ยงกระบวนการที่ไม่มีประสิทธิภาพในการ “แปล” ผลการให้เหตุผลเป็นข้อความแล้ว “แปลงกลับ” เป็นปริภูมิการกระทำ ทำให้เกิดวงจรปิดภายในจากการรับรู้ไปสู่กลยุทธ์

สอง: การออกแบบตัววางแผน: การสร้างแบบขนานเป็นชั้นๆ ที่สอดคล้องกับธรรมชาติของการขับขี่

หลายวิธีก็มีปัญหาในระดับการสร้างวิถีเช่นกัน: ไม่ว่าจะเป็นการถดถอยวิถีทั้งหมดในครั้งเดียวซึ่งขาดโครงสร้างแบบชั้น หรือการพึ่งพากระบวนการสร้างที่ซับซ้อนซึ่งส่งผลต่อประสิทธิภาพและความเสถียร

การออกแบบตัววางแผนแบบขนานเป็นชั้นๆ (HPP) ของ ColaVLA ตั้งอยู่บนการรับรู้ที่ชัดเจน: วิถีการขับขี่โดยธรรมชาติแล้วเป็นแบบชั้น ดังนั้นกระบวนการสร้างก็ควรเป็นแบบชั้นเช่นกัน คุณสมบัติหลักสามารถสรุปด้วยคำสำคัญสามคำ:

หยาบก่อนละเอียดหลัง: สร้างความตั้งใจและจุดสำคัญในการขับขี่ระดับหยาบก่อน จากนั้นค่อยเพิ่มรายละเอียดทีละน้อย จำลองวิธีการตัดสินใจของมนุษย์ที่ “กำหนดทิศทางก่อน แล้วค่อยกำหนดเส้นทาง”
รักษาเหตุและผล: ผ่านกลไกความสนใจที่รักษาเหตุและผล (causality-preserving) เพื่อให้แน่ใจว่าการไหลของข้อมูลจะไหลจากระดับหยาบไปสู่ระดับละเอียดอย่างเคร่งครัด หลีกเลี่ยงการรั่วไหลของข้อมูลระหว่างชั้นที่ต่างกัน ทำให้โครงสร้างแบบชั้นมีข้อจำกัดเชิงเหตุและผลที่แท้จริง
การถอดรหัสแบบขนาน: ในการส่งข้อมูลไปข้างหน้าครั้งเดียว ถอดรหัสวิถีหลายสเกลและหลายโหมดแบบขนาน ไม่จำเป็นต้องสร้างแบบอนุกรมเหมือนการคิดแบบลูกโซ่ข้อความ (CoT) ซึ่งช่วยเพิ่มประสิทธิภาพการให้เหตุผลอย่างมาก

สาม: ผลการทดลอง: ความสมดุลระหว่างความแม่นยำ ความปลอดภัย และประสิทธิภาพ

การทดลองแสดงให้เห็นว่าข้อได้เปรียบของ ColaVLA อยู่ที่การเพิ่มประสิทธิภาพ ความปลอดภัย และประสิทธิภาพไปพร้อมๆ กัน

การประเมินแบบวงจรเปิด (nuScenes): ได้รับผลการดำเนินงานโดยรวมที่ดีที่สุดในบรรดาวิธีการประเภทการกระทำ โดยมีข้อผิดพลาด L2 เฉลี่ย 0.30 เมตร อัตราการชนเฉลี่ย 0.23% เมื่อเทียบกับฐานที่แข็งแกร่งอย่าง SOLVE-E2E มีความแม่นยำของวิถีสูงกว่า และอัตราการชนลดลงอย่างมีนัยสำคัญ แสดงว่าวิถีที่ส่งออกไม่เพียงแต่แม่นยำกว่า แต่ยังปลอดภัยกว่าด้วย
การประเมินแบบวงจรปิด (NeuroNCAP): คะแนนเฉลี่ยถึง 3.48 อัตราการชนเฉลี่ยลดลงเหลือ 36.8% ซึ่งดีกว่าวิธีฐานหลายวิธีอย่างมีนัยสำคัญ สิ่งที่น่าสังเกตคือ เมื่อเทียบกับ ImpromptuVLA ที่พึ่งพาการคิดแบบลูกโซ่ข้อความแบบชัดเจนและใช้ข้อมูลเพิ่มเติม ColaVLA ที่ไม่สร้างข้อความได้ผลลัพธ์แบบวงจรปิดที่ดีกว่า ซึ่งพิสูจน์ว่าสำหรับการขับขี่อัตโนมัติแล้ว ห่วงโซ่การให้เหตุผลด้วยข้อความที่ยาวเหยียดไม่ใช่กุญแจสำคัญในการเพิ่มประสิทธิภาพ แต่การจัดตำแหน่งระหว่างการแสดงผลการตัดสินใจภายในกับการสร้างการกระทำ และโครงสร้างเหตุและผลที่เหมาะสมของตัววางแผนต่างหากที่สำคัญกว่า
ประสิทธิภาพการให้เหตุผล: หลังจากการปรับปรุงทางวิศวกรรม ColaVLA มีความล่าช้าในการให้เหตุผลแบบครบวงจรบน GPU H200 ที่ 228 มิลลิวินาที/เฟรม ซึ่งเร็วกว่าวิธีที่ใช้ข้อความที่เปรียบเทียบ 5 ถึง 10 เท่า สิ่งนี้ยืนยันว่าการให้เหตุผลในปริภูมิแฝง นอกจากจะให้ความเรียบง่ายเชิงแนวคิดแล้ว ยังให้ผลตอบแทนด้านความเร็วแบบเรียลไทม์ ซึ่งเพิ่มความเป็นไปได้ในการนำไปใช้งานจริง

สี่: การค้นพบสำคัญจากการทดลองตัดส่วนประกอบ

การทดลองตัดส่วนประกอบของบทความวิจัยเปิดเผยข้อสรุปสำคัญหลายประการ:

การให้เหตุผลในปริภูมิแฝงมีประสิทธิผล: การแนะนำโมดูลการให้เหตุผลในปริภูมิแฝงสามารถลดข้อผิดพลาดของวิถีได้อย่างมีประสิทธิผล การเพิ่มขั้นตอน “การคิดทบทวน (Rethink)” สามารถเพิ่มประสิทธิภาพได้อีก ซึ่งยืนยันประสิทธิผลของห่วงโซ่การรับรู้ “คัดกรองข้อมูลสำคัญและตรวจสอบซ้ำ”
ตัววางแผนแบบชั้นมีข้อได้เปรียบในตัวเอง: แม้จะลบโมดูลการให้เหตุผลออก และใช้เพียงตัววางแผนแบบขนานเป็นชั้นๆ ประสิทธิภาพแบบวงจรปิดของมันก็ยังดีกว่าหัว MLP ทั่วไปหรือหัวโมเดลแพร่กระจายอย่างมีนัยสำคัญ ซึ่งแสดงว่าตัววางแผนนี้เองมีความสอดคล้องกับตรรกะการสร้างวิถีการขับขี่มากกว่า
ข้อมูลสำคัญต้องมีความสมดุล: จำนวนโทเค็นภาพสำคัญที่เก็บรักษาไว้มีจุดสมดุลที่เหมาะสมที่สุด จำนวนน้อยเกินไปจะสูญเสียข้อมูล จำนวนมากเกินไปจะนำเสียงรบกวนส่วนเกินเข้ามา
การสร้างแบบชั้นดีกว่าการถดถอยครั้งเดียว: วิธีการสร้างแบบชั้นที่กำหนดจุดสำคัญก่อนแล้วค่อยเพิ่มรายละเอียด มีประสิทธิภาพดีกว่าการถดถอยวิถีทั้งหมดในครั้งเดียว ซึ่งสอดคล้องกับโครงสร้างเหตุและผลตามเวลาของการกระทำในการขับขี่เอง

ห้า: คุณค่าหลัก: การเปลี่ยนกระบวนทัศน์จากการให้เหตุผลด้วยข้อความไปสู่การให้เหตุผลในปริภูมิแฝง

หากมอง ColaVLA เป็นเพียง “โมเดลการขับขี่อัตโนมัติอีกตัวหนึ่ง” ก็จะประเมินความหมายที่ลึกซึ้งของมันต่ำเกินไป คุณค่าที่ใหญ่กว่าของงานนี้คือการเสนอข้อสรุปที่ชัดเจน: การให้เหตุผลระดับสูงในการขับขี่อัตโนมัติ ไม่จำเป็นต้องพึ่งพาการอธิบายด้วยข้อความแบบชัดเจน

งานวิจัยหลายชิ้นในอดีตยอมรับโดยปริยายว่าข้อได้เปรียบของโมเดลขนาดใหญ่ในการขับขี่อัตโนมัติมาจากความสามารถในการ “อธิบาย” “สนทนา” และ “ส่งออกห่วงโซ่ความคิด” อย่างไรก็ตาม ColaVLA ให้คำตอบที่แตกต่าง: ในงานควบคุมต่อเนื่อง กุญแจสำคัญอาจไม่ได้อยู่ที่ “ให้โมเดลพูดกระบวนการคิดออกมา” แต่อยู่ที่ “ให้โมเดลให้เหตุผลอย่างมีประสิทธิภาพภายใน และแสดงออกในวิธีที่เหมาะสมกับการสร้างการกระทำมากกว่า”

ดังนั้น ColaVLA จึงเป็นตัวแทนของการเปลี่ยนกระบวนทัศน์ที่น่าสนใจ:
* จากการให้เหตุผลด้วยข้อความไปสู่การให้เหตุผลในปริภูมิแฝง: วางความเข้าใจเชิงความหมายและการตัดสินใจระดับสูงไว้ในปริภูมิแฝงของโมเดล แทนที่จะแปลงเป็นลำดับข้อความ
* จากการถอดรหัสแบบอนุกรมไปสู่การถอดรหัสแบบขนาน: ผ่านตัววางแผนแบบขนานเป็นชั้นๆ จัดการการตัดสินใจในสเกลเวลาที่ต่างกันไปพร้อมๆ กัน เพื่อเพิ่มประสิทธิภาพการตอบสนอง
* จาก “แสดงกระบวนการ” ไปสู่ “วงจรปิดประสิทธิภาพ”: เป้าหมายหลักไม่ใช่การสร้างข้อความให้เหตุผลที่อ่านได้อีกต่อไป แต่เป็นการปรับปรุงความปลอดภัย ประสิทธิภาพ และผลการขับขี่แบบวงจรปิดโดยรวมโดยตรง

บทสรุปของบทความวิจัยระบุชัดเจนว่า: การย้ายการให้เหตุผลจากโดเมนข้อความไปสู่ปริภูมิแฝง เป็นเส้นทางที่ขยายได้มากขึ้นและใกล้เคียงกับความเป็นจริงมากขึ้นสำหรับการตัดสินใจในการขับขี่อัตโนมัติที่ขับเคลื่อนด้วยความรู้

หก: สรุป

พูดง่ายๆ คือ เป้าหมายของ ColaVLA ไม่ใช่การทำให้โมเดลขนาดใหญ่สำหรับการขับขี่อัตโนมัติ “อธิบายได้ดีขึ้น” แต่เป็นการทำให้มัน “คิดให้ชัดเจนภายในได้ดีขึ้น และดำเนินการขับขี่ได้อย่างมีประสิทธิภาพมากขึ้น”

ข้อได้เปรียบหลักไม่เพียงแต่อยู่ที่โมดูลใหม่หรือการเพิ่มขึ้นของตัวชี้วัด แต่ยังอยู่ที่การพิสูจน์เชิงประจักษ์ถึงประเด็นต่อไปนี้:
1. ความสามารถในการให้เหตุผลของการขับขี่อัตโนมัติสามารถไม่พึ่งพาห่วงโซ่ความคิดด้วยข้อความแบบชัดเจน
2. การให้เหตุผลในปริภูมิแฝงก็สามารถรักษาความรู้และตรรกะที่จำเป็นสำหรับการตัดสินใจขับขี่ระดับสูงได้เช่นกัน
3. ตัววางแผนแบบขนานเป็นชั้นๆ ที่รักษาเหตุและผลให้สอดคล้องกัน สอดคล้องกับความต้องการในการสร้างการกระทำของสถานการณ์การขับขี่จริงมากกว่า
4. เมื่อรูปแบบการให้เหตุผลสอดคล้องกับกลไกการสร้างการกระทำอย่างแท้จริง ระบบจะได้รับการปรับปรุงด้านความปลอดภัย ประสิทธิภาพ และประสิทธิภาพแบบวงจรปิดไปพร้อมๆ กัน

สำหรับการพัฒนาอนาคตของโมเดลขนาดใหญ่สำหรับการขับขี่อัตโนมัติ งานนี้ชี้ให้เห็นทิศทางที่ควรสำรวจอย่างลึกซึ้ง: ไม่ใช่เพียงแค่นำโมเดลขนาดใหญ่ทั่วไปมาใส่ในระบบขับขี่ แต่เป็นการออกแบบกระบวนทัศน์การให้เหตุผลที่เหมาะสมกับลักษณะเฉพาะของการขับขี่อัตโนมัติอย่างแท้จริงใหม่

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง