每周论文分享
—2025.11.06
标题:Fisher Information guided Purification against Backdoor Attacks
期刊:CCS '24 (ACM Conference on Computer and Communications Security), 2024年10月,CCFA刊.
作者:Nazmul Karim, Abdullah Al Arafat, Adnan Siraj Rakin, Zhishan Guo, and Nazanin Rahnavard等
分享人:天津科技大学——马文雄
研究背景
深度神经网络(DNN)的训练过程极易受到后门攻击(Backdoor Attacks)的威胁。攻击者通过在训练集中注入少量“带毒”样本,可以迫使模型学会恶意行为:模型在处理包含特定触发器(trigger)的输入时,会输出攻击者指定的目标标签,而在处理正常(clean)数据时则表现如常。
现有的后门防御技术主要分为两类:基于剪枝的防御:假设恶意神经元比良性神经元更脆弱,通过剪枝或掩码(masking)将其移除;基于触发器近似的防御:尝试逆向工程恢复触发器模式,然后通过微调(fine-tuning)来“解毒”。
然而,这些方法往往计算成本高昂。虽然通用的微调被用作一种辅助手段,但它对有限的干净数据和强后门攻击(如Blend攻击)效果不佳。近期有研究(如FT-SAM)开始利用优化器(如SAM)来寻找“平滑”的最小值,以此作为防御手段。但这类通用优化器存在两个问题:效率低下:例如SAM在每次迭代中需要两次前向传播,导致净化时间很长;精度受损:可能会过度优化,导致模型在干净数据上的准确率(ACC)下降。
因此,目前缺少一种能深入分析后门植入机制,并据此设计出高效、精准的净化方法。
关键技术
本文提出的费雪信息引导的净化(FIP)框架,它源于一个分析后门的新视角,即从DNN的优化和损失平滑度出发。虽然已经有大量工作分析了DNN训练过程的光滑度,通常使用损失函数的Hessian矩阵的谱范数和迹作为衡量光滑度的代理指标 ,但本文首次将此分析用于后门防御。Hessian矩阵H是损失函数关于模型参数θ的二阶导数 。其谱范数σ(H),即Hessian矩阵的最大特征值 λmax ,衡量了损失曲面在最陡峭方向上的曲率 。最大特征值的值越大,表示损失函数收敛到的最小值越“尖锐”。Hessian的迹 Tr(H),即对角线元素之和,等于其所有特征值之和,代表了总体曲率。如图1所示,本文分析发现,后门模型(被迫学习干净和带毒两种分布)会收敛到具有高λmax和高Tr(H)的局部最小值,即更“尖锐”的最小值。基于此,FIP的核心假设是,通过将模型重新优化到更“平滑”的最小值(即具有更低λmax和Tr(H)的区域),就可以有效去除后门 。然而,直接采用通用平滑优化器(如SAM)效率低下且会损害模型在干净数据上的准确率 。因此,FIP创新地利用费雪信息矩阵(FIM)的知识,设计了两个核心正则化项 :一个“后门抑制器”用于引导模型平滑收敛 ,另一个“干净准确率保持器”则用于在净化时保留模型对干净数据分布的记忆 。此外,为解决效率问题,论文还提出了Fast FIP (f-FIP),它通过谱分解,冻结奇异向量,仅微调奇异值 ,大幅减少了可调参数量,实现了近5倍的运行增益 。
图1:良性模型与后门模型的特征值分布
算法介绍
01
后门抑制器
净化任务的起点是标准的微调目标,即在干净的验证集上最小化交叉熵损失。然而,仅有此目标不足以有效移除后门。理想的目标应该是在最小化损失的同时,对损失曲面的尖锐度进行惩罚,即:
但直接计算海森矩阵H及其谱范数σ(H)在计算上是不可行的,尤其是在每次迭代中。为了解决上述计算难题,论文引入了一个关键的近似方法。引理1 指出,海森矩阵的谱范数可以通过其迹,进而通过费雪信息矩阵(FIM)的迹来近似和约束:
其中F是费雪信息矩阵。FIM衡量了模型输出对参数的敏感度,并且与期望海森矩阵相关,因此可以作为一个计算上可行的海森矩阵代理。基于此,理想目标中的σ(H)被替换为可计算的Tr(F),形成了FIP的第一个核心组件——后门抑制器。净化目标函数的第一部分变为:
中ηF是一个正则化常数。通过最小化Tr(F),该项对模型的尖锐度施加了惩罚,引导优化过程朝向更平滑的最小值区域,从而有效地“抑制”后门的存在。
02
干净准确率保持器
在微调过程中,尤其是在小型验证集上,模型很容易忘记在原始大规模数据上学到的知识,导致干净准确率大幅下降。为了解决这个问题,论文设计了第二个核心组件——干净准确率保持器,其形式为一个新颖的正则化项:
这个正则化项由两部分构成:含θ项是一个标准的L2惩罚项,它阻止当前参数θi偏离初始后门模型的参数太远。含F项是至关重要的权重因子。F是在净化开始前,使用干净验证集在初始模型θ上仅计算一次的FIM。其对角线元素代表了参数θ对于干净数据分布的重要性。该机制的原理是:如果一个参数θi对分类干净数据非常重要(即F的迹很大),那么在净化过程中对该参数的任何改动都会受到严厉的惩罚。反之,如果一个参数不那么重要,它就被允许更自由地调整。这种设计巧妙地保护了模型关于干净数据的知识。这一思想与持续学习领域的弹性权重巩固(EWC)方法有异曲同工之妙,它将净化任务类比为一个新的学习任务,同时确保不忘记“旧任务”(即正确分类干净数据)的知识,凸显了该正则化项的理论深度。
03
完整的FIP目标函数
结合上述两个组件,最终的FIP目标函数被完整地定义为 :
这个目标函数集成了标准损失、后门抑制和平滑度引导、以及干净知识保留三个功能。
实验结果分析
01
实验设置
(1)数据集与模型
图像分类: CIFAR10, GTSRB, Tiny-ImageNet, 和大规模的 ImageNet
多标签/目标检测: Pascal VOC07, VOC12, 和 MS-COCO
视频动作识别: UCF-101 和 HMDB51
3D点云分类: ModelNet 。
自然语言生成: WMT2014 En-De
(2)攻击方式
选取了14种最先进的后门攻击方法进行评估,包括静态的(如Badnets, Blend)、动态的(Dyn-one, Dyn-all)、干净标签的(CLB)、基于特征空间的(FBA)以及不可见的(WaNet, ISSBA, LIRA)等多种类型 。
(3)对比的防御方法
FIP与 11种 现有的后门防御方法进行了全面比较,包括基于微调的(FT-SAM, Vanilla FT)、基于剪枝的(ANP, RNP, FP)、基于触发器反转的(I-BAU, AWM)以及一些训练时防御方法(CBD, ABL)等。
(4)评价指标
干净数据准确率 (ACC)与攻击成功率 (ASR)。
02
与基线比较
在CIFAR-10数据集上,FIP在几乎全部14种攻击下都取得了最低的ASR,同时保持了最高的ACC。例如,在对抗强效的Blend攻击时,FIP将ASR降至0.38%,ACC高达92.17%,而表现次优的FT-SAM的ASR为2.13%,ACC仅为88.93%。
在GTSRB、Tiny-ImageNet和ImageNet等更大规模的数据集上,FIP展现了出色的可扩展性。特别是在ImageNet上,FIP与其他方法的性能差距进一步拉大。依赖对抗性搜索的ANP和AWM等方法性能显著下降,而FIP依然保持高效。这表明,FIP的鲁棒性并非局限于小规模数据集。这些搜索方法在大模型上失效,是因为随着参数空间急剧增大,“后门回路”可能变得更加分散并与良性特征纠缠在一起,使得定位少数“罪魁祸首”神经元的任务变得不可靠。而FIP采用全局优化压力的方式,不依赖于离散搜索,因此能更好地扩展到大模型上。
图2:FIP与其他防御方法在单标签图像分类任务上的性能对比
03
消融实验
消融实验通过一系列控制变量实验来验证FIP设计的合理性。FIP的光滑度分析: 实验证实,在FIP净化过程中,模型的损失曲面确实变得更加平滑,同时ASR也随之降至接近零,验证了方法的核心假设 。运行时间分析: f-FIP的净化速度极快,在CIFAR10上仅需20.8秒,比次优的FT-SAM快了近5倍 。正则化项的效果: 实验表明,后门抑制器(含Tr(F))对移除后门至关重要 ,而准确率保持器平均能带来约2.5%的干净准确率提升 。其他验证: 研究还证明了FIP在面对高中毒率的强攻击 、不同网络架构(如ViT) 、少量可用干净数据(甚至只有一个样本) 和自适应攻击 等多种挑战性场景下依然稳健有效。
图3:消融实验
总结
FIP框架的真正创新之处在于它跳出了传统方法。传统的防御方法,如神经元剪枝或触发器反转,往往追逐攻击的“症状”,例如假设后门效应集中在少数神经元或特定的触发器模式可以被恢复 。这种方法的局限性在于,当面对新的、更隐蔽的攻击(如WaNet、LIRA)时,这些基于“症状”的假设可能失效,导致防御失败,陷入无尽的“猫鼠游戏”。FIP则另辟蹊径,它不再关注攻击的具体表现形式,而是直接针对后门攻击在模型优化过程中留下的“根本性痕迹”——异常的损失曲面几何形态。无论攻击形式如何,其本质都是强迫模型学习一个额外的、与主任务不一致的毒化数据分布 。这种“一心二用”的训练过程必然会在模型的最终参数上留下痕迹,而论文将其识别为损失曲面的“尖锐化”——这是一个更普遍、更本质的特征。因此,通过纠正这个“尖锐化”的病根,FIP有望对各种攻击“标本兼治”,从而跳出“猫鼠游戏”的循环。这也解释了为何FIP能在多达14种不同类型的攻击上均取得业界领先的性能。
物联网与信息安全团队
微信扫码,关注我们!
了解更多论文分享
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……




还没有评论,来说两句吧...