今天推荐的是来自浙江大学NESALab投稿的关于深度神经网络可解释算法的鲁棒性研究的工作“Is your explanation stable?”: A Robustness Evaluation Framework for Feature Attribution,该项工作已被CCS 2022录用。
Motivation
随着深度神经网络不断发展,其被应用到了越来越多的场景。然而,由于其高度复杂性,人类很难理解它的决策过程,从而对其在敏感领域(如自动驾驶等)的应用感到担忧。近年来,不少研究者们着力探索如何对深度神经网络进行解释,增强人类对其的信任和理解。通过数年的发展,研究者们发现,通过解释深度神经网络,可以检测其偏差和异常,从而对神经网络进行改进提升。特征归因算法是当前最流行的解释深度神经网络的方式之一,它通过归因图的方式展示原始样本中对模型预测至关重要的特征,从而让人类理解模型决策的依据。然而,用于让人类信任模型的特征归因算法本身也面临信任危机。特征归因算法可以被大致分为黑盒算法和白盒算法。黑盒算法(例如LIME等)往往会运用采样过程,这使得其最终结果带有不确定性。而对于白盒算法,同样面临不稳定性的问题。例如基于梯度的算法会对相似的图片给出差别很大的归因结果,而基于优化的算法则会受到不鲁棒特征的影响。同时,这些算法由于不鲁棒性,还会面临针对特征归因算法的对抗攻击。以上的现象大大降低了人们对特征归因算法的信任程度。虽然现有的研究在一定程度上缓解了特征归因算法的不鲁棒性和不确定性,但却没有在理论上对归因图的随机性进行量化。由此,本文的目的是建立特征归因算法的鲁棒评估框架,从理论上高效地量化和减小特征归因算法的不确定性和不鲁棒性。
要从理论上量化归因图中由于采样或者噪声带来的随机性是一项困难任务,这是由于上述因素导致的归因图服从的分布是未知的。为了解决该问题,作者选择对该分布的中位数进行估计。这是由于中位数能够代表一个分布的中等水平,同时,对任意一个连续的分布,任意采样大于中位数的概率为0.5。基于此概率,可以将未知的分布转换为伯努利分布,并建立假设检验理论,计算出中位数的置信区间,从而量化出归因值随机性的大小。作者将该理论称为特征归因的中位数检验(MeTFA)。MeTFA主要包含两个部分:单边MeTFA和双边MeTFA:- 单边MeTFA用于检测每个特征的归因值是否显著地大于或者小于特定的值(例如用户选择的值);
- 双边MeTFA则根据用户设定的置信度,给出了每个特征归因值的置信区间,也就是统计意义上的理论上下界。
根据该理论,作者设计了MeTFA-significant map和MeTFA-smoothed map,整个算法如下图所示分为两个步骤:- 采样与解释。在这个阶段,MeTFA首先在样本的周围空间进行采样。为了模拟真实环境中的噪声,作者采用了现实中常见的噪声(如高斯噪声,同义词替换等)进行采样。之后,再用原始的解释算法(如IGOS等)对每个采样的样本进行解释,得到一批解释结果。
假设检验。利用之前的MeTFA理论对采样到的一批归因图构建假设检验。对于单边MeTFA,作者使用聚类方法得到区分“重要”特征与“不重要”特征的阈值,并构建单边检验,将特征分为显著重要,显著不重要与不显著。对于双边MeTFA,作者通过将计算出的置信区间内的归因值平均起来,避免极端值的影响,最终得到MeTFA-smoothed map。
作者先从鲁棒性与忠诚性两个角度对MeTFA进行评估。以图片数据与RISE解释算法为例,作者采用了3种现实世界中的三种常用噪声(高斯噪声,均匀噪声,改变亮度)对鲁棒性进行评估。实验结果显示,无论MeTFA使用的采样分布与外界的噪声分布是否一致,都能显著提升解释算法对噪声的鲁棒性。忠诚性作为解释算法必须必备的性质,作者评估了MeTFA对忠诚性的影响。作者基于主流的insertion,deletion和overall指标,提出了其更加鲁棒的版本RI,RD,RO,并利用这六个指标测试了三种解释算法。结果表明,MeTFA保持或者提升了解释算法的忠诚性。讨论了基础指标之后,作者在两个安全相关的应用上体现了MeTFA的实用性,分别是对语义分割模型的语义依赖检测以及针对特征归因算法的对抗攻击。GridSaliency作为针对语义分割模型的特征归因算法,可以被用于检测模型中存在的语义依赖,例如模型分割出“骑手”需要依赖“自行车”这一物体。语义分割模型作为自动驾驶的关键部分之一,需要面临的是现实的噪声环境。然而,当在图片中增加均匀噪声时,GridSaliency给出的结果却波动很大。作者利用单边MeTFA生成MeTFA-significant map,展示了解释结果中显著重要的像素点。在噪声条件下,实验结果展示出MeTFA-significant map以远小于GridSaliency map的依赖区域取得了几乎相同的忠诚度。因此,MeTFA可以帮助研究者在充满噪声的真实环境中检测模型内存在的错误依赖。由于特征归因算法对对抗样本和正常样本的表现差别很大,因此特征归因算法也被用于监控对抗样本。然而近期的研究发现,特征归因算法本身也可以被对抗攻击操纵,这主要原因是特征归因算法对噪声的高度敏感性。MeTFA可以提升特征归因算法的鲁棒性,所以作者将其作为针对特征归因算法的攻击的防御手段。作者在vanilla attack 和adaptive attack场景下进行了实验,结果表明无论攻击者是否知道防御方使用MeTFA,MeTFA均可以显著地削弱攻击者的能力。作者提出了MeTFA,第一个在具有理论保证的情况下量化和减少特征归因方法中的随机性的工作。实验结果显示 MeTFA 可以在保持忠实度的同时增加解释的稳定性。应用实验证实了 MeTFA 可以更准确地检测语义分割模型中的上下文偏差并防御面向解释的攻击。
https://github.com/sweet-shark/MeTFA-A-Robustness-Evaluation-Framework-for-Feature-Attribution原文下载:https://arxiv.org/pdf/2209.01782.pdf
还没有评论,来说两句吧...