基本信息
原文标题:AED: Automatic Discovery of Effective and Diverse Vulnerabilities for Autonomous Driving Policy with Large Language Models
原文作者:Le Qiu, Zelai Xu, Qixin Tan, Wenhao Tang, Chao Yu, Yu Wang
作者单位:清华大学电机系、清华大学深圳国际研究生院、北京中关村实验室、清华大学交叉信息研究院
原文链接:https://arxiv.org/abs/2503.20804
开源代码:暂无
论文要点
论文简介:评估自动驾驶策略的安全性至关重要,而强化学习(RL)已成为一种用于发现驾驶策略中关键漏洞的强大方法。然而,现有的基于强化学习的方法往往难以识别出既有效(即自动驾驶汽车真正对事故负有责任)又多样(即涵盖各种故障类型)的漏洞。
为应对这些挑战,研究者提出了 AED,这是一个利用大语言模型(LLM)来自动发现自动驾驶策略中有效且多样漏洞的框架。研究者首先使用大语言模型为强化学习训练自动设计奖励函数。然后,研究者让大语言模型考虑一系列多样的事故类型,并针对不同的事故类型并行训练对抗性策略。最后,研究者使用基于偏好的学习来过滤掉无效的事故,并提高每个漏洞的有效性。
在多个模拟交通场景和经过测试的策略上进行的实验表明,与专家设计的奖励相比,AED 能够发现更广泛的漏洞,并实现更高的攻击成功率,从而减少了对人工奖励设计的需求,并提高了漏洞发现的多样性和有效性。
研究目的:本文旨在解决当前自动驾驶系统安全性评估中的两个痛点:一是难以发现“真正归责于自动驾驶系统本身”的漏洞,二是漏洞类型过于单一,无法全面反映系统潜在风险。为此,作者提出AED框架,结合大语言模型的“任务理解”和“代码生成”能力,构建一个自动化、可扩展、无需人工设计奖励函数的漏洞挖掘系统。
研究贡献:
首次引入大语言模型实现自动发现自动驾驶系统中的多样潜在漏洞。
提出一种基于偏好学习的机制,用于筛选无效事故并提升有效漏洞发现的精准性。
在多种交通环境和被测驾驶策略中开展实验,验证所提方法的鲁棒性与通用性。
引言
自动驾驶作为一项高度安全敏感的技术,其决策系统的稳定性与鲁棒性直接关系到交通安全。然而,当前的系统评估手段难以有效识别出可能引发事故的边界情况。为此,研究者提出了“漏洞发现”策略,通过在模拟环境中训练对抗性交通参与者,以诱发自动驾驶系统产生错误行为。
然而,现有方法主要依赖强化学习技术,仍存在两大瓶颈:一是缺乏对事故责任归属的精准判断,导致大量生成的事故并不能反映自动驾驶系统本身的问题;二是发现的事故类型较为单一,难以全面覆盖多样化的风险情境。这两方面的问题都源于对奖励函数的依赖过重,而奖励函数的设计通常需要领域专家的深厚经验。
为解决上述挑战,本文提出AED框架,首次引入大语言模型(LLM)实现奖励函数的自动生成,同时结合多事故类型的并行探索与基于偏好的有效性增强机制,从而实现对多样且真实可归责事故的系统性挖掘,为自动驾驶安全评估提供了一种全新、高效、可扩展的解决方案。
相关工作
在自动驾驶漏洞挖掘研究中,已有大量方法尝试通过对抗性强化学习(Adversarial Reinforcement Learning)生成具有代表性的失效场景。其中,部分研究使用A2C、DQN、DDPG等算法诱导特定类型的碰撞,如追尾或并线事故。然而,这类方法普遍依赖人工设计奖励函数,难以有效权衡事故的归责性与行为的合理性,限制了其在不同交通环境中的通用性。
为了提升漏洞类型的多样性,已有方法主要分为两类:一类采用信息论指标鼓励轨迹的差异性,另一类则引入启发式策略,如场景聚类或内在奖励激励等。然而,这些手工策略往往依赖专家经验,缺乏可解释性与泛化能力。
此外,随着大语言模型(LLM)技术的发展,一些工作开始探索其在奖励函数自动设计中的应用。例如,Eureka框架利用LLM生成可执行代码并迭代优化奖励函数,但多聚焦于静态或单一任务环境。相比之下,本文所提出的AED框架将LLM扩展应用于多智能体、高交互复杂度的自动驾驶环境,并结合偏好学习机制,显著提高漏洞发现的多样性与有效性。
研究方法
为实现对自动驾驶策略中有效且多样漏洞的自动发现,本文提出了AED(Automatic, Effective, and Diverse)框架。该框架由三大核心模块构成:自动奖励函数设计、多样事故生成与基于偏好的有效性增强。
首先,在自动奖励函数设计环节,AED借助大语言模型(LLM)的代码生成与任务理解能力,依据环境和任务描述生成多个可执行的奖励函数,并通过训练与评估筛选出性能最佳的版本,用以指导对抗策略学习。
其次,在多样事故生成模块中,LLM被引导生成覆盖不同事故类型(如左变道、右变道、追尾等)的任务描述及对应奖励函数。每种类型对应一个对抗策略训练过程,从而在并行训练中发掘多种潜在风险。
最后,在偏好学习增强模块中,系统通过比较不同轨迹的事故类型与归责情况,自动构建偏好数据对,训练出新的奖励模型r̂。该模型用于强化目标事故类型的识别,并进一步提升对抗策略诱发高质量事故的能力。
上述三者的有机结合,使AED具备自动化、高覆盖率、强归责能力的漏洞挖掘能力,为自动驾驶系统的安全评估提供了更强大、系统化的技术支持。
研究实验
为全面验证AED框架在漏洞发现中的有效性与多样性,作者在Highway与Roundabout两个仿真驾驶环境中进行了大量实验。实验涵盖三种被测自动驾驶策略:两种基于规划的方法(Value Iteration 与 Robust Value Iteration)以及一种基于强化学习的方法(Dueling Double Q-Network)。同时,对抗车辆数量分别设置为2辆和3辆,以模拟不同复杂度的交通场景。
实验主要从两个维度进行评估。首先,在漏洞多样性方面,AED能够在多轮训练中持续发现新的故障类型,相较于传统方法VDARS,其在不同环境中均能识别出更多种类的有效失效情境。其次,在漏洞有效性方面,AED在绝大多数测试配置中都实现了更高的攻击成功率,尤其在Left Lane Change、Right Lane Change 和 Rear-End三类事故中,均显著优于对比方法。
此外,消融实验还表明,AED中偏好学习模块对提升事故准确性具有关键作用,可将大语言模型生成的初始奖励进一步优化,最终显著提升漏洞触发的精度与鲁棒性。
论文结论
本文提出的AED框架,巧妙地结合了大语言模型、强化学习与偏好学习,在无需专家干预的前提下,实现了对自动驾驶系统中多样且高质量漏洞的自动发现。实验验证了其在多种环境与策略下的通用性和优越性。该研究为未来自动化安全评估开辟了一条极具潜力的道路,也为大模型与自动驾驶的结合提供了新范式。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...