破解自动驾驶测试「跷跷板」难题:一个模型遍历从保守到激进的对抗行为

破解自动驾驶测试「跷跷板」难题:一个模型遍历从保守到激进的对抗行为

自动驾驶系统的落地离不开大规模的安全测试。为了解决真实路测中“长尾分布”和“稀疏性”难题,对抗性场景生成 成为了一种高效的仿真测试手段。

然而,现有方法面临一个经典的“跷跷板”难题:要么生成的场景极具攻击性但物理上不真实,要么过于保守而失去了测试价值,难以触及系统的长尾失效边界。

更关键的是,传统方法通常只能学习一个固定的权衡点,一旦训练完成其行为模式即被固化。若需调整测试难度或适配不同的被测算法,往往需要重新训练模型,这极大地限制了测试效率和灵活性。

破解自动驾驶测试「跷跷板」难题:一个模型遍历从保守到激进的对抗行为

针对这些问题,一项被ICLR 2026接收、名为SAGE(Steerable Adversarial scenario GEnerator)的研究提出了一种全新范式:将可控对抗生成重构为多目标偏好对齐问题。SAGE借鉴了大语言模型(LLM)中多目标偏好对齐的思想,通过测试时权重插值,实现了在无需重新训练的情况下,于推理阶段对生成场景的“攻击性”和“真实性”进行连续、实时的操控。

为什么需要“可操控”的生成?

在自动驾驶对抗测试领域,研究团队通常希望生成的对抗轨迹既能诱发系统失效,又符合人类驾驶习惯和物理规律。然而,现有的主流方法通常将多个目标线性加权优化,存在两点局限:

  1. 目标冲突导致模式坍塌:攻击性与真实性目标本质上是梯度冲突的。传统的线性标量法往往导致模型坍塌到极端解,容易陷入为了攻击而无视物理规律的局部最优。
  2. 缺乏推理时灵活性:在闭环训练中,智能体(Agent)的能力是动态进化的。初期需要简单的场景教学,后期则需要极端的场景压力测试。固定模型无法满足这种动态课程学习的需求。

破解自动驾驶测试「跷跷板」难题:一个模型遍历从保守到激进的对抗行为

图1:现有对抗生成方法的局限性(左)与SAGE框架(右)。

核心方法

SAGE的核心思想是不再试图训练一个完美的单一模型,而是在特征空间中训练偏好流形,并通过权重插值查询中间状态。

阶段一:离线对齐——层次化分组偏好优化

为了让模型学会理解“什么是好的对抗场景”,研究团队利用预训练的运动生成模型作为基座,进行偏好优化微调。

为了解决多目标冲突的问题,团队提出了一种离线对齐算法HGPO(Hierarchical Group-based Preference Optimization)。不同于传统的DPO,HGPO通过分层设计将硬约束与软约束解耦,并采用分组采样

  1. 分层设计:将地图合规性视为硬约束,攻击性和拟人化视为“软偏好”。
  2. 分组采样
    • 可行性优先:任何符合地图约束的轨迹优于违规轨迹。
    • 可行域内择优:在符合约束的集合中,比较奖励得分高低。

分层设计避免了模型在优化过程中为追求高回报而破坏可行性,提高了样本效率。通过HGPO,研究团队分别得到了两个专家模型:一个最大化攻击性,一个最大化真实性和合规性。

破解自动驾驶测试「跷跷板」难题:一个模型遍历从保守到激进的对抗行为

阶段二:在线可控——测试时权重融合

在微调完成后,SAGE无需在推理时重新训练。相反,它直接在连接这两个偏好“端点”的权重空间路径上进行线性插值:

破解自动驾驶测试「跷跷板」难题:一个模型遍历从保守到激进的对抗行为

用户只需要调整偏好系数就能获得一个新的混合模型,生成处于两者风格之间的场景。通过一次离线训练即可得到覆盖从“保守”到“激进”的连续生成谱系,近似完整的帕累托前沿。

为什么权重插值是有效的?

直觉上,对两个神经网络的参数直接求平均会破坏模型的非线性结构,导致性能崩塌。为什么在SAGE中这种做法不仅有效,甚至比直接混合输出结果更好?

研究团队引入了线性模式连通性(Linear Mode Connectivity, LMC)理论来解释这一现象。

破解自动驾驶测试「跷跷板」难题:一个模型遍历从保守到激进的对抗行为 破解自动驾驶测试「跷跷板」难题:一个模型遍历从保守到激进的对抗行为

由于两个专家都是从同一个预训练模型微调而来的,它们位于参数空间中同一个低损失盆地(low-loss basin)。LMC理论指出,连接这两个专家的线性路径上,模型依然保持低损失。研究团队进一步证明:当奖励景观(reward landscape)在插值路径上呈现凹性时,权重插值就优于输出混合。

破解自动驾驶测试「跷跷板」难题:一个模型遍历从保守到激进的对抗行为

图2:LMC经验证据以及权重空间的偏好向量控制。

实验验证

研究团队在Waymo Open Motion Dataset(WOMD)上进行了大量的实验与讨论。

开环生成性能

在生成质量上,SAGE展现出了显著的优势。它在保证高攻击成功率的同时,大幅降低了地图和物理违规率,并且生成的轨迹更加连贯、符合运动学约束。

破解自动驾驶测试「跷跷板」难题:一个模型遍历从保守到激进的对抗行为

图3:SAGE控制的对抗车辆能够执行变道加塞等符合人类逻辑的高风险博弈行为。

破解自动驾驶测试「跷跷板」难题:一个模型遍历从保守到激进的对抗行为

图4:SAGE生成多类对抗行为。

在可控性上,在测试时仅调节偏好系数即可实现在帕累托前沿上连续控制生成的行为模式。

破解自动驾驶测试「跷跷板」难题:一个模型遍历从保守到激进的对抗行为

图5:(a) SAGE生成的帕累托前沿显著优于其他方法。(b)碰撞率和真实性连续且单调可控。

破解自动驾驶测试「跷跷板」难题:一个模型遍历从保守到激进的对抗行为

图6:通过调节对抗性权重,SAGE产生的轨迹从自然驾驶行为过渡到对抗行为。

闭环训练效用:更鲁棒的自动驾驶策略

研究团队将SAGE集成到闭环强化学习训练中,利用其可操控性设计了双轴课程学习策略,同时控制对抗强度和频率。

破解自动驾驶测试「跷跷板」难题:一个模型遍历从保守到激进的对抗行为

表3:不同对抗训练方法得到的驾驶策略性能对比。

基于SAGE训练的智能体在安全性、任务完成度和舒适度上均取得了最佳平衡。这种“循序渐进”的对抗训练方式有效缓解了灾难性遗忘,让智能体既能处理极端Corner Case,又不会在正常驾驶中变得过度保守。

总结

SAGE将可控对抗场景生成视为测试时偏好对齐问题。通过引入偏好优化和权重空间插值,实现了零成本的测试时操控,仅需一个标量即可遍历从“保守”到“激进”的行为谱系。

SAGE不仅为自动驾驶的安全验证提供了可控测试工具,也为如何灵活控制生成模型的行为提供了一个通用的框架。未来,研究团队将探索将这一范式扩展到更复杂的场景和更多样化的目标。

论文信息
* 题目:ICLR 2026 | SAGE:测试时偏好对齐实现自动驾驶“可操控”对抗场景生成
* 作者:Tong Nie, Yuewen Mei, Yihong Tang, Junlin He, Jie Sun, Haotian Shi, Wei Ma, Jian Sun
* 单位:香港理工大学,同济大学,麦吉尔大学
* 论文链接:https://openreview.net/forum?id=lYNsZdKn5R

破解自动驾驶测试「跷跷板」难题:一个模型遍历从保守到激进的对抗行为


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/23211

(0)
上一篇 9小时前
下一篇 9小时前

相关推荐

  • AI生成操作系统新突破!上海交大提出文件系统开发新范式:从此只需写规约

    还记得《流浪地球2》里的那台550W量子计算机吗? 电影里,MOSS最让人印象深刻的点,除了其强大算力,还有它可以根据需求,实时生成底层操作系统的能力。 如果现在告诉你,我们已经在从“人类需求”生成“底层系统”这件事上迈出了关键一步呢? 来自上海交大IPADS实验室的研究团队,面对自动生成操作系统核心组件的难题,做出了全新的尝试。这项研究成果也即将亮相文件系…

    2025年12月21日
    15500
  • 实战指南:基于LangChain与FastAPI构建实时多工具AI智能体

    构建一个可用于生产的、工具增强型 LLM Agent,使其具备 Token 流式输出、代码执行、搜索能力,并利用 FastAPI 实现高性能 API 服务。 ChatGPT 的出现带来了震撼的体验,但开发者很快开始思考:如何超越“聊天”本身?我们能否构建一个能够实时推理、联网搜索、执行代码、查询数据,并像人类打字一样流式响应的智能体? 答案是肯定的。通过结合…

    2025年12月13日
    19500
  • Ollama Launch 实测:一键启动 Claude Code、Codex 与 OpenCode,告别繁琐配置

    忘掉配置的烦恼吧,Ollama Launch 是启动 Claude Code、Codex、OpenCode、Moltbot 或任意其他 CLI 工具的全新简易方式。 Ollama v0.15 引入了名为 ollama launch 的新命令,可使用本地或云端模型,自动完成 Claude Code、OpenCode、Codex 等常用编码工具的配置与启动。 如…

    1天前
    4000
  • Agent Skill框架赋能小语言模型:12B模型技能选择准确率逼近90%,算力成本降低50%

    关键词:Agent Skill 框架、小语言模型、上下文工程、工业应用、GPU 效率 近年来,以 GitHub Copilot、LangChain 等为代表的 Agent Skill 框架已成为大语言模型应用的重要范式。该框架通过精心设计的“静态技能库”,让模型在推理过程中渐进式地获取相关技能上下文,从而有效减少幻觉、提升工具使用的准确性。 然而,这一范式高…

    1天前
    3500
  • PostgreSQL向量检索实战解析:生产级应用还是技术炒作?

    一家电商初创公司的工程团队正面临一个典型的技术选型难题。他们的推荐系统需要实现语义搜索,以匹配用户查询与海量商品描述。团队的核心争议在于:是选择 Qdrant 或 Pinecone 这类专用向量数据库,还是采用 pgvector 扩展,将所有数据保留在 PostgreSQL 中? 这并非个例。随着 AI 驱动的搜索与 RAG(检索增强生成)系统在各行业普及,…

    2025年12月3日
    14100