2024.07.15-2024.07.21
每周文章分享
标题: A Novel Small-Sample Dense Teacher Assistant Knowledge Distillation Method for Bearing Fault Diagnosis
期刊: IEEE SENSORS JOURNAL, VOL. 23, NO. 20, 15 OCTOBER 2023
作者: Hongyu Zhong, Samson Yu, Hieu Trinh, Yong Lv, Rui Yuan, and Yanan Wang
分享人: 河海大学——张雨濛
01
研究背景
故障诊断是传感器技术领域内发展起来的一门学科。传感器通过提供各种系统参数的数据,如温度、压力、振动、电信号和流体流动,在现代故障诊断中发挥着至关重要的作用。尽管CNN的快速发展导致了更深层次的网络,并取得了比浅层网络更好的性能,但它们存在着计算和存储要求高的问题,并且由于容量过大而容易出现过拟合和泛化问题。知识蒸馏是一种模型压缩技术,它涉及将知识从较大的模型转移到较小的模型,可以在保持模型准确性的同时,显著降低轴承故障诊断模型的规模和复杂性。此外,智能故障诊断领域的主要挑战之一是训练数据有限,无法有效地训练深度学习模型,训练不足的教师网络对学生网络的贡献有限,从而难以实现有效的知识蒸馏以进行模型压缩。
02
关键技术
鉴于目前还没有一种综合的故障诊断方法能够有效地解决有限样本和过多模型参数带来的挑战,该研究提出了一种新的轴承故障诊断方法,称为小样本DTAKD(SS-DTAKD),该方法利用了GaN显著的模拟能力和知识提取提供的可压缩性。
本研究的主要贡献如下:
1)提出了一种基于知识蒸馏和遗传算法的融合框架。GAN用于扩展训练数据集和缓解数据稀缺性,而知识蒸馏用于压缩CNN以实现与嵌入式设备的兼容。
2)提出了一种改进的传统GaN,即SGAN。将自注意模块集成到生成器和鉴别器中,使用分配的权重和敏感信息选择来评估特征,从而生成更清晰、更准确的图像。
3)提出一种密集连接的蒸馏方法,利用每个上层网络依次训练下层网络。此方法提高了诊断模型的性能,同时确保学生网络参数保持不变。
4)为了提高知识提炼过程后的学生网络性能,提出了基于DDHT方法。通过去除底层参数的合成数据来训练学生网络,然后需要较少的实际数据来训练这些底层。
03
算法介绍T
介绍了提出的SS-DTAKD方法,流程图如图1所示。首先,在信号到图像的过程中对数据进行预处理。接下来,提出的SGAN(自注意生成对抗网络)使用实际数据提供合成数据。然后,采用密集连接策略,构建教师模型、多个助手模型和学生模型,以提高DTAKD(密集教师辅助知识蒸馏)的知识蒸馏效率。最后,将DDHT(双类型数据分层训练)方法应用到学生网络中完成微调。
图1 SS-DTAKD方法的流程图
1)数据预处理
本研究采用连续小波变换(continuous wavelet transform, CWT)进行时频数据转换,具体方法。CWT生成的图像包含了原始信号完整的时频域信息,避免了信息丢失。CWT的定义如下:
采用峰值信噪比(PSNR)作为评价指标来确定最佳的采样点。PSNR (dB)的公式如下:
其中MSE表示当前图像的均方误差,B表示每像素的位数。然后,分别使用两类故障图像计算PSNR值,如图2所示。项—PSNR表示PSNR值的加权平均值,表示不同类型数据之间的相似度。
图2 多教师知识蒸馏方法的推理过程
2)合成数据生成
因此合成的图像可能会丢失一些关键信息。自注意机制旨在分配信息最多的特征,同时抑制不必要的特征,可以捕获样本之间的局部相互依存关系。自注意模块的框架如图3所示。
图3 适用于大尺寸图像的重叠切割
矩阵Q、K、V是一个输入输出序列的查询、键和值的集合,定义如下:
Wq, Wk, Wv表示学习到的线性运算。dk是键向量维数的平方根。T是矩阵K的转置。
本研究首先构建了一个具有五层卷积结构的DCGAN(深度卷积生成对抗网络),如表1所示。鉴别器由四个卷积层和一个FC层组成。使用BN对每个卷积层的输出进行归一化,并使用斜率为0.2的LeakyReLU作为激活函数。最后,利用sigmoid或Softmax函数构成一个二值分类问题。生成器由一个FC层和四个反卷积层组成。生成器中使用BN和ReLU,输出层使用Tanh函数作为激活函数。
表1 标准DCGAN的体系结构
然后,将自关注模块插入鉴别器和生成器,即SGAN,如图4所示。传统的卷积运算只能提取样本的局部特征,而高阶乘子的自关注模块可以增强样本之间的全局关系。因此,集成自关注模块的DCGAN可以提取更重要的特征。然后,用交替优化方法迭代训练鉴别器和生成器,直到达到纳什均衡。
图4 SGAN网络体系结构
3)密集教师辅助知识蒸馏
本研究提出了一种知识可转移性更强的集成知识蒸馏框架,称为DTAKD。如图5所示,DTAKD并不是简单地依靠教师网络来引导学生网络,而是增加了几个助教网络,并加强了它们之间的联系。假设图中的每个网络由输入层、卷积层、FC层和逻辑层组成。箭头表示蒸馏的运动方向。例如,红色箭头表示教师网络将其知识转移到所有教师助理和学生网络。助教网络(缩写为TA1, TA2,…), TAn)比不同层的教师网络(简称为T)要小。
图5 DTAKD的基本结构
首先,从T中提取TA1,因此TA1的损耗可以表示为:
式中T→TA1表示从T到TA1的蒸馏过程。然后,TA2由TA1和T蒸馏而成:
最后,学生网络(缩写为S)将从TA1、TA2、. . . . . .、TAn和t中提炼出来。S的损失计算如下:
其中S使用从TA1到TAn和T的提炼知识来指导。利用(3),(16)可表示为:
为简单起见,假设αi与α值相同,总损失的一般形式推导为:
学生网络S从每个助教网络TA和教师网络T中提取知识。然后,这些TA网络受到每个上层TA和T的影响。因此,S试图模拟从较大的T到较小的TA的各种logit逻辑分布,从而提高蒸馏效率。下面的算法1描述了本研究中DTAKD的伪代码。
4) SS-DTAKD(小样本DTAKD)的DDHT(双类型数据分层训练)方法和结构
本文开发了SGAN,以生成足够的训练数据,并增强DTAKD的知识蒸馏。然而,实际数据往往被忽略,没有参与到训练过程中,阻碍了学生网络的进一步优化。为了解决这个问题,提出了DDHT方法并将其整合到整个框架中。
本文提出的SS-DTAKD方法的总体流程如图6所示。首先,从试验台采集的信号被切割成信号段。PSNR-CWT用于将信号片段转换为时频图像。其次,SGAN用这些图像(实际数据)生成大量合成数据。第三,DTAKD在师生网络中插入几个中等规模的助教网络。需要强调的是,合成数据是用来训练所有网络的。之后,每个上层网络对所有下层网络执行蒸馏过程,用不同的颜色线表示。最后,采用DDHT方法冻结学生网络上层的参数,去除底层的参数,然后在实际数据上进行训练。
图6 SS-DTAKD的总体架构
04
实验结果分析T
使用CWRU数据集、自建测试台(SBTR)数据集进行本文所提出方法的实验论证。
1)数据增强方法的评估
在 CWRU 和 SBTR 数据集上比较DCGAN、条件分类器 GAN (CGAN)、SNGAN和 SGAN的性能。CGAN 通过将辅助分类器合并到判别器中来扩展 DCGAN。这使得它能够将生成的样本分类为多个类别。SNGAN引入谱归一化来稳定训练过程并提高生成样本的质量。FID用作评估合成图像与原始图像之间距离的度量。表 IV显示了四种 GAN 方法的 FID 结果。为了减少随机性的影响,每个实验重复十次,取平均值作为最终的诊断结果。
表2 四种GAN方法在CWRU和SBTR数据集上的FID得分
证据表明,SGAN 生成的合成图像与原始图像具有统计相似性,如最低 FID 值 88.32 和 107.69 所示。SGAN 中自注意力模块的集成使生成器和鉴别器网络能够捕获远程依赖性并有效地对全局图像结构进行建模。这使得生成器能够优先考虑输入噪声向量内的基本空间关系,从而生成更加连贯和视觉逼真的合成图像。
2)DTAKD和DDHT的效果分析
进行了全面的消融研究,通过直接与TAKD和OKD进行比较,证明了所提出的DTAKD方法的优越性。在OKD中,知识转移只发生在教师和学生网络之间。在TAKD中,每个网络都可以按照单向蒸馏路径从上级助教网络获取知识。选择了ResNet和CNN作为基准方法。为简单起见,R和P分别表示ResNet和plain CNN。括号中的数字表示卷积层的数量。例如,theR(56)表示56个卷积层的ResNet。应用了不同数量的TA和密集连接探索DTAKD在CWRU和SBTR数据集上的性能和分类精度,如图7所示。
图7 OKD、TAKD和DTAKD的比较。(A)关于CWRU和SBTR数据集的ResNet。(B)关于CWRU和SBTR数据集的普通CNN
此外,还对现有的几种最先进的知识蒸馏方法进行了比较。比较方法,即FitNets, SAD(自注意蒸馏)和RKD(关系知识蒸馏),使用CWRU和SBTR数据集进行评估。通过10次重复得到的诊断准确率结果如表3所示。
表3 与最先进的知识蒸馏方法的比较
总体而言,与FitNets、SAD和RKD相比,DTAKD方法的平均准确率分别提高了1.10%、1.26%和3.39%。
3)小样本条件下与其他方法的比较
将SS-DTAKD方法与最近提出的四种方法进行了比较:WTGAN-CNN、改进的辅助分类器GAN-CNN (MACGAN-CNN)、FTTL和CGAN-CNN。在相同的实验条件下对这些方法进行了评价。结果如图8,其中实际数据与合成数据的比例用x轴表示。
图8 实际数据与合成数据之比的准确性
从图8可以看出,随着实际数据与合成数据比例的增加,平均精度也随之增加。提出的SGAN方法可以提供更好的图像质量,采用DTAKD和DDHT作为模型压缩方法和微调方法,增强诊断模型,利用更少的实际数据样本,提高诊断模型的性能。
05
总结T
本文提出了一种称为 SS-DTAKD 的新颖方法,用于在数据和存储资源有限的情况下诊断滚动轴承故障。首先,结合PSNR和CWT对振动信号进行预处理以构建时频图像,这有助于区分不同的故障类型。其次,使用SGAN生成合成数据来替代实际数据,从而解决数据稀缺的问题。第三,采用密集连接策略来提高TAKD方法的性能,从而产生DTAKD。最后,提出了 DDHT 方法,通过使用合成数据训练上层和使用实际数据训练底层来进一步增强学生网络的性能。
进行了大量的实验来评估所提出的 SS-DTAKD 方法的有效性和数据保存能力。重要的是,SS-DTAKD 在机械、电子和结构健康监测等各个领域的故障诊断中具有更广泛的应用。通过有效解决与有限数据和存储限制相关的挑战,这些技术可以增强不同行业的故障诊断能力。
未来一个有趣的研究方向可能是改进特征选择、融合和迁移学习技术,以实现准确、鲁棒的轴承故障诊断。这应该强调可解释性以及实现实时监测和预测的能力的重要性。
- END -
==河海大学网络与安全实验室==
微信搜索:Hohai_Network
联系QQ:1084561742
责任编辑:何宇
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...