การแก้ปัญหาการทดสอบ ‘กระดานหก’ ในรถยนต์ขับเคลื่อนอัตโนมัติ: แบบจำลองเดียวครอบคลุมพฤติกรรมต่อต้านตั้งแต่แบบอนุรักษ์นิยมจนถึงแบบรุนแรง

10 hours ago • วิศวกรรมโมเดลขนาดใหญ่ • 17 views

การแก้ปัญหาการทดสอบรถยนต์ขับเคลื่อนอัตโนมัติแบบ “ไม้กระดก”: หนึ่งโมเดลครอบคลุมพฤติกรรมต่อต้านตั้งแต่แบบระมัดระวังไปจนถึงแบบรุนแรง

การนำระบบรถยนต์ขับเคลื่อนอัตโนมัติมาใช้จริงต้องอาศัยการทดสอบความปลอดภัยในวงกว้าง เพื่อแก้ปัญหาการกระจายแบบ “หางยาว” และ “ความเบาบาง” ในการทดสอบบนถนนจริง การสร้างสถานการณ์ต่อต้าน จึงกลายเป็นวิธีการทดสอบจำลองที่มีประสิทธิภาพ

อย่างไรก็ตาม วิธีการที่มีอยู่เผชิญกับปัญหาคลาสสิกแบบ “ไม้กระดก”: ไม่ว่าจะสร้างสถานการณ์ที่ก้าวร้าวมากแต่ไม่สมจริงทางกายภาพ หรือระมัดระวังเกินไปจนสูญเสียคุณค่าการทดสอบ และยากที่จะเข้าถึงขอบเขตความล้มเหลวแบบหางยาวของระบบ

ที่สำคัญกว่านั้น วิธีการดั้งเดิมมักเรียนรู้ได้เพียงจุดสมดุลคงที่เท่านั้น เมื่อการฝึกเสร็จสิ้น รูปแบบพฤติกรรมก็ถูกตรึงไว้ หากต้องการปรับความยากของการทดสอบหรือปรับให้เข้ากับอัลกอริทึมที่ทดสอบต่างกัน มักต้องฝึกโมเดลใหม่ ซึ่งจำกัดประสิทธิภาพและความยืดหยุ่นในการทดสอบอย่างมาก

การแก้ปัญหาการทดสอบ 'กระดานหก' ในรถยนต์ขับเคลื่อนอัตโนมัติ: แบบจำลองเดียวครอบคลุมพฤติกรรมต่อต้านตั้งแต่แบบอนุรักษ์นิยมจนถึงแบบรุนแรง

เพื่อแก้ปัญหาเหล่านี้ งานวิจัยที่ได้รับการตีพิมพ์ในICLR 2026 ชื่อSAGE (Steerable Adversarial scenario GEnerator) เสนอกรอบแนวคิดใหม่: ปรับโครงสร้างการสร้างแบบต่อต้านที่ควบคุมได้ให้เป็นปัญหาการจัดแนวความชอบหลายวัตถุประสงค์ SAGE ดึงแนวคิดการจัดแนวความชอบหลายวัตถุประสงค์จากโมเดลภาษาขนาดใหญ่ (LLM) ผ่านการสอดแทรกน้ำหนักระหว่างการทดสอบ ทำให้สามารถควบคุม “ความก้าวร้าว” และ “ความสมจริง” ของสถานการณ์ที่สร้างได้อย่างต่อเนื่องและเรียลไทม์ในขั้นตอนการอนุมาน โดยไม่ต้องฝึกใหม่

ทำไมต้องมีการสร้างที่ “ควบคุมได้”?

ในด้านการทดสอบแบบต่อต้านสำหรับรถยนต์ขับเคลื่อนอัตโนมัติ ทีมวิจัยมักต้องการให้วิถีการเคลื่อนที่แบบต่อต้านที่สร้างขึ้นทั้งกระตุ้นให้ระบบล้มเหลว และสอดคล้องกับพฤติกรรมการขับขี่ของมนุษย์และกฎทางกายภาพ อย่างไรก็ตาม วิธีการหลักที่มีอยู่ในปัจจุบันมักปรับให้เหมาะสมหลายวัตถุประสงค์ด้วยการถ่วงน้ำหนักเชิงเส้น ซึ่งมีข้อจำกัดสองประการ:

ความขัดแย้งของวัตถุประสงค์นำไปสู่การล่มสลายของรูปแบบ: วัตถุประสงค์ด้านความก้าวร้าวและความสมจริงมีความขัดแย้งกันโดยพื้นฐานในเชิงเกรเดียนต์ วิธีการถ่วงน้ำหนักเชิงเส้นแบบดั้งเดิมมักทำให้โมเดลล่มสลายไปสู่คำตอบสุดขั้ว และง่ายที่จะติดอยู่ในจุดที่ดีที่สุดเฉพาะที่ที่ละเลยกฎทางกายภาพเพื่อการโจมตี
ขาดความยืดหยุ่นระหว่างการอนุมาน: ในการฝึกแบบวงปิด ความสามารถของเอเจนต์ (Agent) มีวิวัฒนาการแบบไดนามิก ในระยะเริ่มต้นต้องการสถานการณ์การสอนที่ง่าย ในระยะหลังต้องการสถานการณ์ทดสอบความกดดันที่รุนแรง โมเดลที่ตรึงไว้ไม่สามารถตอบสนองความต้องการของการเรียนรู้แบบไดนามิกนี้ได้

△ รูปที่ 1: ข้อจำกัดของวิธีการสร้างแบบต่อต้านที่มีอยู่ (ซ้าย) และกรอบ SAGE (ขวา)

วิธีการหลัก

แนวคิดหลักของ SAGE คือไม่พยายามฝึกโมเดลเดี่ยวที่สมบูรณ์แบบอีกต่อไป แต่เป็นการฝึกแมนิโฟลด์ความชอบ ในพื้นที่คุณลักษณะ และสอบถามสถานะกลางผ่านการสอดแทรกน้ำหนัก

ขั้นตอนที่หนึ่ง: การจัดแนวออฟไลน์ – การปรับให้เหมาะสมความชอบแบบกลุ่มตามลำดับชั้น

เพื่อให้โมเดลเรียนรู้ว่า “อะไรคือสถานการณ์ต่อต้านที่ดี” ทีมวิจัยใช้โมเดลสร้างการเคลื่อนที่ที่ฝึกไว้ล่วงหน้าเป็นฐาน และทำการปรับแต่งอย่างละเอียดด้วยการปรับให้เหมาะสมความชอบ

เพื่อแก้ปัญหาความขัดแย้งของหลายวัตถุประสงค์ ทีมเสนออัลกอริทึมการจัดแนวออฟไลน์ชื่อHGPO (Hierarchical Group-based Preference Optimization) ต่างจาก DPO แบบดั้งเดิม HGPO แยกข้อจำกัดแข็งและข้อจำกัดอ่อนผ่านการออกแบบแบบลำดับชั้น และใช้การสุ่มตัวอย่างแบบกลุ่ม:

การออกแบบแบบลำดับชั้น: ถือว่าความสอดคล้องกับแผนที่เป็นข้อจำกัดแข็ง และถือว่าความก้าวร้าวและความคล้ายมนุษย์เป็น “ความชอบอ่อน”
การสุ่มตัวอย่างแบบกลุ่ม:
- ให้ความสำคัญกับความเป็นไปได้ก่อน: วิถีการเคลื่อนที่ใดๆ ที่สอดคล้องกับข้อจำกัดแผนที่ ดีกว่าวิถีการเคลื่อนที่ที่ละเมิด
- เลือกที่ดีที่สุดภายในขอบเขตที่เป็นไปได้: ในชุดที่สอดคล้องกับข้อจำกัด เปรียบเทียบคะแนนรางวัลสูงต่ำ

การออกแบบแบบลำดับชั้นป้องกันไม่ให้โมเดลทำลายความเป็นไปได้เพื่อแสวงหารางวัลสูงระหว่างกระบวนการปรับให้เหมาะสม และเพิ่มประสิทธิภาพของตัวอย่าง ผ่าน HGPO ทีมวิจัยได้โมเดลผู้เชี่ยวชาญสองโมเดล: หนึ่งโมเดลเพิ่มความก้าวร้าวให้สูงสุด และอีกโมเดลเพิ่มความสมจริงและความสอดคล้องให้สูงสุด

ขั้นตอนที่สอง: การควบคุมออนไลน์ – การผสานน้ำหนักระหว่างการทดสอบ

หลังการปรับแต่งอย่างละเอียดเสร็จสิ้น SAGE ไม่จำเป็นต้องฝึกใหม่ระหว่างการอนุมาน แต่ทำการสอดแทรกเชิงเส้นโดยตรงบนเส้นทางในพื้นที่น้ำหนักที่เชื่อมต่อ “จุดปลาย” ของความชอบทั้งสองนี้:

ผู้ใช้เพียงแค่ปรับสัมประสิทธิ์ความชอบ ก็จะได้โมเดลผสมใหม่ที่สร้างสถานการณ์ที่มีสไตล์อยู่ระหว่างทั้งสอง ผ่านการฝึกออฟไลน์เพียงครั้งเดียวก็จะได้สายพันธุ์การสร้างต่อเนื่อง ที่ครอบคลุมตั้งแต่ “ระมัดระวัง” ถึง “รุนแรง” ซึ่งประมาณได้กับแนวหน้า Pareto ที่สมบูรณ์

ทำไมการสอดแทรกน้ำหนักจึงได้ผล?

โดยสัญชาตญาณ การหาค่าเฉลี่ยพารามิเตอร์ของเครือข่ายประสาทเทียมสองเครือข่ายโดยตรงจะทำลายโครงสร้างไม่เชิงเส้นของโมเดล และนำไปสู่การล่มสลายของประสิทธิภาพ ทำไมใน SAGE วิธีการนี้ไม่เพียงแต่ได้ผล แต่ยังดีกว่าการผสมผลลัพธ์โดยตรง?

ทีมวิจัยได้นำทฤษฎีการเชื่อมต่อโหมดเชิงเส้น (Linear Mode Connectivity, LMC) มาใช้อธิบายปรากฏการณ์นี้

เนื่องจากผู้เชี่ยวชาญทั้งสองได้รับการปรับแต่งอย่างละเอียดจากโมเดลที่ฝึกไว้ล่วงหน้าเดียวกัน พวกมันจึงอยู่ในแอ่งความสูญเสียต่ำ (low-loss basin) เดียวกันในพื้นที่พารามิเตอร์ ทฤษฎี LMC ชี้ให้เห็นว่าบนเส้นทางเชิงเส้นที่เชื่อมต่อผู้เชี่ยวชาญทั้งสองนี้ โมเดลยังคงรักษาความสูญเสียต่ำไว้ ทีมวิจัยได้พิสูจน์เพิ่มเติมว่า: เมื่อภูมิทัศน์รางวัล (reward landscape) แสดงความเว้า บนเส้นทางการสอดแทรก การสอดแทรกน้ำหนักจะดีกว่าการผสมผลลัพธ์

△ รูปที่ 2: หลักฐานเชิงประจักษ์ของ LMC และการควบคุมเวกเตอร์ความชอบในพื้นที่น้ำหนัก

การทดสอบยืนยัน

ทีมวิจัยได้ทำการทดลองและอภิปรายจำนวนมากบน Waymo Open Motion Dataset (WOMD)

ประสิทธิภาพการสร้างแบบวงเปิด

ในด้านคุณภาพการสร้าง SAGE แสดงให้เห็นถึงความได้เปรียบอย่างชัดเจน ในขณะที่รับประกันอัตราความสำเร็จในการโจมตีสูง มันลดอัตราการละเมิดแผนที่และกฎทางกายภาพลงอย่างมาก และวิถีการเคลื่อนที่ที่สร้างขึ้นมีความต่อเนื่องและสอดคล้องกับข้อจำกัดทางจลนศาสตร์มากขึ้น

△ รูปที่ 3: ยานพาหนะต่อต้านที่ควบคุมโดย SAGE สามารถดำเนินพฤติกรรมการแข่งขันความเสี่ยงสูงที่สอดคล้องกับตรรกะของมนุษย์ เช่น การเปลี่ยนเลนและการแทรก

△ รูปที่ 4: SAGE สร้างพฤติกรรมต่อต้านหลายประเภท

ในด้านความสามารถในการควบคุม ในระหว่างการทดสอบเพียงแค่ปรับสัมประสิทธิ์ความชอบก็สามารถควบคุมรูปแบบพฤติกรรมการสร้างได้อย่างต่อเนื่องบนแนวหน้า Pareto

△ รูปที่ 5: (a) แนวหน้า Pareto ที่สร้างโดย SAGE ดีกว่าวิธีอื่นอย่างมีนัยสำคัญ (b) อัตราการชนและความสมจริงสามารถควบคุมได้อย่างต่อเนื่องและเป็นแบบโมโนโทนิก

△ รูปที่ 6: โดยการปรับน้ำหนักความก้าวร้าว วิถีการเคลื่อนที่ที่สร้างโดย SAGE เปลี่ยนจากพฤติกรรมการขับขี่ตามธรรมชาติไปสู่พฤติกรรมต่อต้าน

ประโยชน์ของการฝึกแบบวงปิด: กลยุทธ์การขับขี่อัตโนมัติที่แข็งแกร่งยิ่งขึ้น

ทีมวิจัยได้รวม SAGE เข้ากับการฝึกการเรียนรู้แบบเสริมกำลังแบบวงปิด ใช้ความสามารถในการควบคุมออกแบบกลยุทธ์การเรียนรู้แบบสองแกน โดยควบคุมทั้งความรุนแรงและความถี่ของการต่อต้าน

△ ตารางที่ 3: การเปรียบเทียบประสิทธิภาพของกลยุทธ์การขับขี่ที่ได้จากวิธีการฝึกแบบต่อต้านต่างๆ

เอเจนต์ที่ฝึกด้วย SAGE บรรลุความสมดุลที่ดีที่สุดในด้านความปลอดภัย อัตราการทำภารกิจสำเร็จ และความสบาย วิธีการฝึกแบบต่อต้านแบบ “ค่อยเป็นค่อยไป” นี้บรรเทาการลืมแบบหายนะได้อย่างมีประสิทธิภาพ ทำให้เอเจนต์สามารถจัดการกับ Corner Case ที่รุนแรงได้ และไม่ระมัดระวังเกินไปในการขับขี่ปกติ

สรุป

SAGE ถือว่าการสร้างสถานการณ์ต่อต้านที่ควบคุมได้เป็นปัญหาการจัดแนวความชอบระหว่างการทดสอบ โดยการแนะนำการปรับให้เหมาะสมความชอบและการสอดแทรกในพื้นที่น้ำหนัก ทำให้สามารถควบคุมระหว่างการทดสอบได้โดยไม่มีต้นทุน เพียงใช้สเกลาร์เดียวก็สามารถสำรวจสายพันธุ์พฤติกรรมตั้งแต่ “ระมัดระวัง” ถึง “รุนแรง” ได้

SAGE ไม่เพียงแต่จัดเตรียมเครื่องมือทดสอบที่ควบคุมได้สำหรับการตรวจสอบความปลอดภัยของรถยนต์ขับเคลื่อนอัตโนมัติ แต่ยังให้กรอบงานทั่วไปสำหรับวิธีการควบคุมพฤติกรรมของโมเดลการสร้างอย่างยืดหยุ่น ในอนาคต ทีมวิจัยจะสำรวจการขยายกรอบแนวคิดนี้ไปยังสถานการณ์ที่ซับซ้อนมากขึ้นและวัตถุประสงค์ที่หลากหลายยิ่งขึ้น

ข้อมูลเอกสารวิจัย:
* ชื่อเรื่อง: ICLR 2026 | SAGE: การจัดแนวความชอบระหว่างการทดสอบเพื่อให้ได้การสร้างสถานการณ์ต่อต้านที่ “ควบคุมได้” สำหรับรถยนต์ขับเคลื่อนอัตโนมัติ
* ผู้เขียน: Tong Nie, Yuewen Mei, Yihong Tang, Junlin He, Jie Sun, Haotian Shi, Wei Ma, Jian Sun
* หน่วยงาน: มหาวิทยาลัยโพลีเทคนิคฮ่องกง, มหาวิทยาลัยถงจี, มหาวิทยาลัยแมคกิลล์
* ลิงก์เอกสารวิจัย: https://openreview.net/forum?id=lYNsZdKn5R