每周文章分享
2024.02.05—2024.02.11
标题:A novel intelligent fault diagnosis method for bearing with small samples under variable working conditions
期刊:Reliability Engineering and System Safety 240 (2023)
作者:Peiming Shi, Shuping Wu, Xuefang Xu, Bofei Zhang, Pengfei Liang, Zijian Qiao
分享人:河海大学——谢雨航
研究背景
传统的深度学习方法严重依赖大数据,这使得多工况下的小样本轴承故障诊断成为一个棘手的问题。可用样本很少的极其严峻的数据状况使得传统深度学习方法变得行不通。而基于小数据而非大数据的成功应用先例,如人脸识别、语音处理、签名认证等。在这些应用场景中收集的数据量相当有限,但已经取得了非常好的结果,其背后的原因是Siamese网络,一种用于比较样本之间相似性的网络框架。
关键技术
本文提出了一种新型智能轴承故障诊断方法——可迁移Siamese网络(Transferable Siamese Network,TSN)。与传统深度网络学习直接预测标签不同,TSN 学习样本之间的相似性。此外,受Siamese网络框架中共享权值的启发,TSN可以通过传递初始权值,实现小样本多变工况下的快速故障诊断。此外,由于精心设计的特征提取网络,TSN无需任何数据预处理就可以直接处理轴承振动信号,大大简化了故障诊断的流程。我们的 TSN 是非对抗性的,并且收敛速度快。本研究的主要贡献描述如下:
(1)提出了一种新颖的变工况小样本轴承故障方法,能够在严苛的数据环境下实现较高的诊断精度。
(2)为了充分提取有限样本的特征信息,探索样本之间的异同,引入并改进了可扩展的注意力机制SKNet,并基于其构建了特征提取模块。
(3)对所提方法的性能进行了综合评估,验证结果证明了该方法的有效性、可行性以及在严酷数据环境下的优越性。
算法介绍
(1)TSN结构
TSN以Siamese网络为基本框架,重点解决变工况下小样本的轴承故障诊断。根据原始轴承振动信号的维度,本文构建的TSN如图1所示。在图1中,X和y表示要比较的两组数据,Network1和Network2是具有权重共享的特征提取网络,F(X)和F(y)表示特征提取结果。D是结果之间的特征距离,可以表示为:D=∥F(X)-F(y)∥。
数据匹配是TSN相对于传统深度学习在数据预处理方面的独特方法,很好地解决了样本不足的问题。T = {(xi, yi, li)}n i=1为匹配数据集,(xi, yi, li)表示一对匹配数据,n表示数据对总数。如果xi和yi属于同一类别,则li = 1,否则li = 0。
图1 本文提出了的网络结构
根据上述原理,充分利用原始小样本即可获得大量数据对。考虑到轴承故障诊断的实际情况,假设有K(K>1)类别和M(M>1)某个域下每个类别的数据集,数据对的数量可以计算如下:
其中,Nt0和Nt1分别表示l = 0和l = 1的数据对的数量,Nsum为可用数据对的总数,Ns为支持集的数量。
(2)TSN的基本原理
总体流程图如图2所示,分为以下三部分。
图2 顶部的方框图显示了数据匹配和TSN训练的过程;中间的方框图为TSN的使用情况;下面的方框图显示了TSN在可变条件下的工作原理。
1)特征提取与分类过程描述:
Network1和Network2是TSN的第一部分,是权值共享的特征提取网络。实际上,它们都是所提出的深度网络,可以直接处理轴承振动信号。数据对x和y分别发送到Network1和Network2。特征提取后,分别得到低维特征f(x)和f(y)。如果x和y属于同一范畴,则它们的低维特征应该非常相似,即D→0。然后将融合特征平面化成单通道数据,送入特征分类段。特征分类结果与输入数据对的实值之间产生损失,TSN中使用交叉熵损失函数。经过充分的训练,TSN学会识别两组数据x和y是否来自同一类别,而不是直接预测它们的标签。
2)TSN在不同领域的训练过程描述:
在源域中,按照Eq.(1)的方式进行数据匹配后,将得到许多数据对,这些数据对将成为TSN的训练集。然后,训练后得到初始模型F1。但由于目标域的数据分布特征与源域不一致,即P(XS)∕= P(XT),初始模型只能用于源域,无法应用于目标域。通过权值的转移,可以快速得到适合目标域的导出模型F2。
3)使用TSN模型的过程描述:
与传统的深度学习模型不同,在使用TSN模型之前,需要先构造一个支持集。S = {(xi, Li)}K i=1是支持集,是一个从小样本中选取的完整的标记数据集,起到比较的作用。xi是取自每个类别的数据集,所以支持集中只有K(K > 1)个样本,Li是xi的真实标签。Query表示要诊断的一组数据,简称Q。诊断结果可表示为:
式中,F表示TSN黑箱模型,Si = (xi, li)表示支持集中已知标签的模型,结果Vi表示Si和Q来自同一类别的概率。Q的标号为Q,由Q = Max{V0,V1,V2,V3}的结果决定。为保证诊断结果的权威性,每次随机选取支持集,对每组检测数据q进行两次诊断,若结果一致则终止诊断;否则,将继续诊断,直到某一诊断结果出现两次
(3)特征提取部分
轴承故障诊断的具体对象是一维振动信号。一维卷积运算可以直接提取一维振动信号的特征,残差结构可以有效防止网络层数增加时性能下降。选择性内核网络(SKNet)是一种可扩展的轻量级注意力机制,在机器视觉领域取得了巨大的成就。本文构建了一个包含一维卷积运算、残差结构和改进SKNet的深度网络,称为SKResNet1D。SKResNet1D的结构图如图3所示,或图1中的Network1和Network2所示。详细信息见表1。
图3 SKResNet1D和改进SKNet;右侧虚线框为改进后的SKNet数据转换过程。
表1 SKResNet1D详细信息。
表1中,Conv表示初始卷积层,BLK1~BLK5表示残差层,每个残差层包括2个卷积层,SK_BLK表示改进后的SKNet残差层。
改进后的SKNet具有三个不同的卷积接受野,可以有效地提高神经元的适应性。SKNet的选择性机制有助于网络自适应地学习不同特征之间的相关性,增强TSN的可解释性。
如图3所示,SKNet主要由三个部分组成:Split, Fuse和Select。在Split部分,主要过程可以表示为:
其中Ui为卷积结果,Conv为卷积运算,di为卷积运算参数的扩张值,x为输入矢量。U1、U2、U3的计算结果在“分裂”部分得到。在Fuse部分,主要过程是自适应池化操作(如图3中的Squeeze),可以表示为:
其中U4i表示该数据维度的每个元素,N表示该维度中元素的总数。自适应池化的目的是用数字代替特征通道。在选择部分,主要的过程是Softmax操作,可以进行计算为
其中σ为Softmax函数,Zi为第i个节点的输入值,i∈[0,N]。
注意机制与SKResNet1D的最后残差层结合形成SK_BLK,既优化了SKResNet1D的特征提取结果,又不影响中间的特征提取过程。最重要的是,将改进的SKNet调整后的结果整合到特征距离和特征分类网络中。
为了增强模型的非线性,加快训练过程,在SKResNet1D的构建中引入SELU激活函数,可以表示为:
式中,x为输入,λ和α为常值,读取器详细参考参考文献[27],e为欧拉数。
(4)特征分类部分
特征分类部分的详细信息如表2所示。
FC1~FC3层构成特征分类网络,引入Dropout操作防止网络过拟合[28]。使用Sigmoid激活函数对FC3的输出进行处理,使最终的分类值为0或1
表2 特征分类的详细信息
由于分类结果为0或1,选择二值交叉熵损失作为分类损失
实验结果分析
本文选取了两个相关数据集,一个是凯斯西储大学 (CWRU),另一个是隆谷工程技术学院机械工程系精密测量实验室平台 (NU205)。NU205的详细信息描述如下:轴承类型为NU205E,为圆柱滚子轴承,采样频率为70 KHz。负载始终为200n,故障大小分为I、II、III、IV类,该数据集的类别与CWRU的数据集相同。
假设CWRU-0hp-DE为源域,每个类别分别有10、15、20、25组数据。本文一组数据包含1024个采样点。由Eq.(1)可知,源域的小样本分别由l = 1的数据对组成,分别为180、420、760、1200对,并随机选取相应数量的l = 0的数据对。这样,训练集就准备好了。选择Adam作为TSN的优化器,学习率设为0.001,训练历元设为50
为了观察TSN在训练过程中性能的变化,选取与训练集不同的每一类50组数据作为验证集,每5个训练epoch对TSN进行性能测试,记录诊断准确率和故障数据召回率。最后得到4个初始TSN模型(IT1、IT2、IT3、IT4), loss、准确率、故障数据召回率曲线如图5所示。根据训练进度,采用t-SNE算法实现验证集降维可视化,如图6所示。
图4 实验平台,左为CWRU,右为NU205
图5 关键指标曲线;(一)IT1;(b) IT2;(c) IT3;(d) IT4。
图6 验证集可视化;(a)、(b)、(c)、(d)分别表示IT1、IT2、IT3、IT4;I、II、III、IV分别表示训练历元为5、20、30、50
从图5可以看出,TSN具有很好的性能,损失曲线可以快速收敛,诊断准确率和故障样本召回率曲线可以快速攀升。此外,随着样本的增加,曲线的波动明显减缓,这证明了TSN是数据敏感的。相应地,在图6中,不同类别的样本可以快速分离,同一类别的样本可以快速聚类。
从CWRU-DE的4个负载中选取每个类别50组数据作为测试集。诊断原理和过程如图2所示。诊断结果如表3所示。
表3 CWRU-DE下IT1、IT2、IT3、IT4的精度
即使负载不同,来自CWRU-DE的数据也具有相似的分布特征,模型逐渐学会识别样本之间的异同,因此训练出的TSN模型具有较高的诊断准确率。此外,该模型的训练次数只有50次,效率非常高。
假设cruu -0hp- fe是样本规模较小的目标域:每个类别有5组数据,即只有40对l = 1的数据对可用。由于样本规模小,训练模型的性能不能得到保证。幸运的是,本文中初始TSN模型的权值是可转移的。根据图2所示的过程,由于IT4的性能更好,我们使用IT4的权值来生成衍生的TSN模型DT1。同时,从零开始训练一个TSN模型IT5进行性能比较。训练过程中的损失、准确率、故障数据召回率曲线如图7所示,降维可视化如图8所示。
图8 验证集可视化;(a)、(b)分别表示DT1、IT5;I、II、III、IV分别表示训练历元为5、20、30、50
通过传递初始权值,损失曲线收敛更快,波动更小,准确率和故障样本召回率曲线始终较高。此外,在同一设备上训练DT1所花费的时间大约是训练IT5所花费时间的四分之一。选取CWRU-FE 4个负荷各类别50组数据作为测试集,诊断准确率比较如表4所示。
表4 cwru-fe下DT1和IT5的精度
初始TSN模型权值的重用将更有利于目标域的诊断,尤其是目标域样本尺寸较小的情况下。
假设目标域为NU205,每个类别有5组数据,数据来自故障大小类i,这是一个与源域相同故障类别的跨平台目标域。此外,深沟球轴承SKF6205和圆柱滚子轴承NU205E具有相似的机械结构。利用IT4的权值生成衍生的TSN模型DT2。同时,从零开始训练一个TSN模型IT6进行性能比较。训练过程中的损失、准确率、故障数据召回率曲线如图9所示,降维可视化如图10所示。
图9 关键指标曲线;(一)DT2;(b) IT6
图10 验证集可视化;(a)、(b)分别表示DT1、IT6;I、II、III、IV分别表示训练历元为5、20、30、50
每个类别选取100组数据作为测试集,DT2和IT6的诊断结果(准确率、故障样本召回率、F1评分)如表5所示,混淆矩阵如图11所示。跨平台目标域的仿真结果也验证了本文方法的有效性和可行性。
表5 DT2和IT6的诊断结果
图11 混淆矩阵;(a)、(b)分别表示DT1、IT6;I、II、III、IV分别表示故障类型I、II、III、IV
生成对抗网络是解决小样本问题最常用的方法。本节选取了故障诊断中常用的几种gan: WGAN-GP (Wasserstein gan with gradient penalty)、LSGAN (Least Squares gan)和MSG-GAN(Multi-Scale Gradients for GANs)。在不使用任何框架的情况下,应考虑在可变工况下进行小样本训练和迁移的纯深度网络SKResNet1D。
本文分别选取cru3hp - de、cru2hp - fe、NU205-III的100组数据作为训练集,验证改进后的SKNet的有效性。没有改进SKNet的网络称为ResNet1D。使用相同的参数对它们进行训练,使用相同的数据集对它们进行测试,对比结果如图12所示。
图12 比较结果;(a)方法比较;(b)改进后SKNet的比较
总结
本文提出了一种可转移Siamese网络TSN方法来解决变工况下小样本轴承故障诊断问题,并验证了该方法的有效性和可行性。TSN在源域和目标域均只有少量样本的情况下仍能取得较好的诊断准确率,其性能普遍优于现有的一些生成对抗方法。将注意力机制SKNet改进并应用于轴承故障诊断,极大地提高了所提深度网络的特征提取性能。两组数据表明,TSN更适用于苛刻多变工况和有限小样本条件下的轴承故障诊断。
==河海大学网络与安全实验室==
微信搜索:Hohai_Network
联系QQ:1084561742
责任编辑:何宇
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...