破解自动驾驶测试「跷跷板」难题:一个模型遍历从保守到激进的对抗行为
自动驾驶系统的落地离不开大规模的安全测试。为了解决真实路测中“长尾分布”和“稀疏性”难题,对抗性场景生成 成为了一种高效的仿真测试手段。
然而,现有方法面临一个经典的“跷跷板”难题:要么生成的场景极具攻击性但物理上不真实,要么过于保守而失去了测试价值,难以触及系统的长尾失效边界。
更关键的是,传统方法通常只能学习一个固定的权衡点,一旦训练完成其行为模式即被固化。若需调整测试难度或适配不同的被测算法,往往需要重新训练模型,这极大地限制了测试效率和灵活性。

针对这些问题,一项被ICLR 2026接收、名为SAGE(Steerable Adversarial scenario GEnerator)的研究提出了一种全新范式:将可控对抗生成重构为多目标偏好对齐问题。SAGE借鉴了大语言模型(LLM)中多目标偏好对齐的思想,通过测试时权重插值,实现了在无需重新训练的情况下,于推理阶段对生成场景的“攻击性”和“真实性”进行连续、实时的操控。
为什么需要“可操控”的生成?
在自动驾驶对抗测试领域,研究团队通常希望生成的对抗轨迹既能诱发系统失效,又符合人类驾驶习惯和物理规律。然而,现有的主流方法通常将多个目标线性加权优化,存在两点局限:
- 目标冲突导致模式坍塌:攻击性与真实性目标本质上是梯度冲突的。传统的线性标量法往往导致模型坍塌到极端解,容易陷入为了攻击而无视物理规律的局部最优。
- 缺乏推理时灵活性:在闭环训练中,智能体(Agent)的能力是动态进化的。初期需要简单的场景教学,后期则需要极端的场景压力测试。固定模型无法满足这种动态课程学习的需求。

△ 图1:现有对抗生成方法的局限性(左)与SAGE框架(右)。
核心方法
SAGE的核心思想是不再试图训练一个完美的单一模型,而是在特征空间中训练偏好流形,并通过权重插值查询中间状态。
阶段一:离线对齐——层次化分组偏好优化
为了让模型学会理解“什么是好的对抗场景”,研究团队利用预训练的运动生成模型作为基座,进行偏好优化微调。
为了解决多目标冲突的问题,团队提出了一种离线对齐算法HGPO(Hierarchical Group-based Preference Optimization)。不同于传统的DPO,HGPO通过分层设计将硬约束与软约束解耦,并采用分组采样:
- 分层设计:将地图合规性视为硬约束,攻击性和拟人化视为“软偏好”。
- 分组采样:
- 可行性优先:任何符合地图约束的轨迹优于违规轨迹。
- 可行域内择优:在符合约束的集合中,比较奖励得分高低。
分层设计避免了模型在优化过程中为追求高回报而破坏可行性,提高了样本效率。通过HGPO,研究团队分别得到了两个专家模型:一个最大化攻击性,一个最大化真实性和合规性。

阶段二:在线可控——测试时权重融合
在微调完成后,SAGE无需在推理时重新训练。相反,它直接在连接这两个偏好“端点”的权重空间路径上进行线性插值:

用户只需要调整偏好系数就能获得一个新的混合模型,生成处于两者风格之间的场景。通过一次离线训练即可得到覆盖从“保守”到“激进”的连续生成谱系,近似完整的帕累托前沿。
为什么权重插值是有效的?
直觉上,对两个神经网络的参数直接求平均会破坏模型的非线性结构,导致性能崩塌。为什么在SAGE中这种做法不仅有效,甚至比直接混合输出结果更好?
研究团队引入了线性模式连通性(Linear Mode Connectivity, LMC)理论来解释这一现象。

由于两个专家都是从同一个预训练模型微调而来的,它们位于参数空间中同一个低损失盆地(low-loss basin)。LMC理论指出,连接这两个专家的线性路径上,模型依然保持低损失。研究团队进一步证明:当奖励景观(reward landscape)在插值路径上呈现凹性时,权重插值就优于输出混合。

△ 图2:LMC经验证据以及权重空间的偏好向量控制。
实验验证
研究团队在Waymo Open Motion Dataset(WOMD)上进行了大量的实验与讨论。
开环生成性能
在生成质量上,SAGE展现出了显著的优势。它在保证高攻击成功率的同时,大幅降低了地图和物理违规率,并且生成的轨迹更加连贯、符合运动学约束。

△ 图3:SAGE控制的对抗车辆能够执行变道加塞等符合人类逻辑的高风险博弈行为。

△ 图4:SAGE生成多类对抗行为。
在可控性上,在测试时仅调节偏好系数即可实现在帕累托前沿上连续控制生成的行为模式。

△ 图5:(a) SAGE生成的帕累托前沿显著优于其他方法。(b)碰撞率和真实性连续且单调可控。

△ 图6:通过调节对抗性权重,SAGE产生的轨迹从自然驾驶行为过渡到对抗行为。
闭环训练效用:更鲁棒的自动驾驶策略
研究团队将SAGE集成到闭环强化学习训练中,利用其可操控性设计了双轴课程学习策略,同时控制对抗强度和频率。

△ 表3:不同对抗训练方法得到的驾驶策略性能对比。
基于SAGE训练的智能体在安全性、任务完成度和舒适度上均取得了最佳平衡。这种“循序渐进”的对抗训练方式有效缓解了灾难性遗忘,让智能体既能处理极端Corner Case,又不会在正常驾驶中变得过度保守。
总结
SAGE将可控对抗场景生成视为测试时偏好对齐问题。通过引入偏好优化和权重空间插值,实现了零成本的测试时操控,仅需一个标量即可遍历从“保守”到“激进”的行为谱系。
SAGE不仅为自动驾驶的安全验证提供了可控测试工具,也为如何灵活控制生成模型的行为提供了一个通用的框架。未来,研究团队将探索将这一范式扩展到更复杂的场景和更多样化的目标。
论文信息:
* 题目:ICLR 2026 | SAGE:测试时偏好对齐实现自动驾驶“可操控”对抗场景生成
* 作者:Tong Nie, Yuewen Mei, Yihong Tang, Junlin He, Jie Sun, Haotian Shi, Wei Ma, Jian Sun
* 单位:香港理工大学,同济大学,麦吉尔大学
* 论文链接:https://openreview.net/forum?id=lYNsZdKn5R

关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/23211
