团队科研成果分享
2024.09.16-2024.09.22
标题: A Globally Interpretable Convolutional Neural Network Combining Bearing Semantics for Bearing Fault Diagnosis
期刊: IEEE Transactions on Instrumentation and Measurement, September, 2024.
作者: Zhen Wang, Guangjie Han, Li Liu, Feng Wang, and Yuanyang Zhu.
分享人: 河海大学——王真
01
研究背景
BACKGROUND
研究背景
在工业系统中,旋转机械发生故障不仅具有昂贵的停机时间,还可能导致人员伤亡等严重灾难。为了维护工业系统的安全运行,减少停机时间和日常维护成本,对旋转机械进行故障诊断必不可少。传统轴承故障诊断专注于对振动信号的频域分析,但随着旋转设备越来越复杂导致的故障特征频率越来越难以确定,频域分析的适用性逐渐减弱。为了应对越来越复杂的场景,基于深度学习的端到端模型在轴承故障诊断中被广泛使用。然而,虽然现有端到端模型在解决各类轴承故障诊断问题中均取得了优异的成绩,但这些模型基本是不可解释的。现阶段的可解释研究可以分为事前解释和事后解释。事前解释方法确保了模型浅层提取到的特征可解释,但并未对模型的决策过程提供见解。事后解释方法解释了模型决策与模型学到的抽象知识的关系,但由于完全忽视了信号的物理语义,导致这些抽象知识依旧无法被人们理解。因此,如何定义信号的物理语义,并将现有的解释方法延伸到物理语义层面,是目前可解释研究中被忽视的地方。
02
关键技术
TECHNOLOGY
关键技术
本文提出了一种结合轴承语义的全局可解释卷积神经网络(GINet-BS)。由于轴承故障与其特征频率(FCF)间存在因果关系,本文首次提出以故障特征频率为基准定义轴承信号的物理语义。在此基础上,将轴承语义作为先验知识嵌入1-D CNN,利用掩码强制卷积核关注语义区域,从而构建具有轴承语义级可解释性的卷积层。进一步,为了解决CNN高层特征图由于分辨率降低导致故障特征频率被淹没的问题,同时为了保持网络模型全局的可解释性,本文提出了一种全局可解释网络结构(GINet),与语义嵌入(BS)共同构成了GINet-BS。具体来说,GINet采用了全卷积网络(FCN)结构以保留信号空间信息,实现网络全局的可解释性;通过取消池化层和使用小步长,从而保持高层特征图的分辨率。
该方法的创新和贡献如下:
1)提出了基于FCF进行轴承信号物理语义的明确定义。与现有的仅解释模型决策基础的可解释诊断方法相比,该定义为诊断方法提供了进一步的物理语义解释。
2)提出了一种新的轴承语义嵌入方法。利用掩码强制卷积核关注语义区域,从而使卷积层变得可解释性。这有助于在故障诊断中从轴承语义的角度解释每个卷积层。
3)提出了一种适用于故障信号的全局解释性网络结构。该结构保持了特征图的尺度,防止轴承语义被淹没,从而保证了故障诊断网络的全局可解释性。
03
算法介绍
ALGORITHMS
算法介绍
(1)GINet-BS框架
图1 GINet-BS框架。
所提出GINet-BS的框架如图1所示。为了构建GINet-BS,首先提出了一种轴承语义定义方法,该方法基于FCF定义轴承语义,为CNN模型的决策提供物理解释的基础。接着将定义好的轴承语义嵌入1-D卷积层中,通过强制卷积核更加关注语义区域,实现对卷积层的可解释性改造。最后,使用具有轴承语义嵌入的1-D卷积层构建具有全卷积结构的网络,通过全卷积结构最大化地利用CNN的空间层次性,结合特征图尺度维持策略,使整个网络变得全局可解释。
(2)轴承语义定义
在可解释研究中,语义指模型所学到知识对应的现实意义。它从人类能够理解的角度解释了模型决策的依据,是一切可解释研究的基础。在图像领域,语义已被广泛使用,它通常被定义为像素区域、情感等人类能够直观感受的元素。而在故障诊断领域,由于信号本身不如图像直观,其特征也需要专家知识才能挖掘,因此一直没有对信号语义的明确定义。本文从轴承的角度入手,首先基于FCF提出用于轴承故障诊断模型解释的语义。
FCF来源于轴承发生故障时,其振动信号产生的特定频率成分。这些频率可以通过分析轴承的几何参数和旋转速度等信息计算。本文研究了轴承中最典型的三类故障球故障(BF), 内圈故障(IF)和外圈故障(OF),它们的FCF计算公式为:
其中表示轴承节径,表示滚动体直径,为轴速度,为滚动单元数,为载荷与径向面的夹角。
在FCF的基础上,本文将轴承语义定义为FCF及其谐波的集合:
其中表示谐波阶数。以往的研究表明,能量往往集中于基频和低阶谐波中,高于3阶的谐波幅度较小且容易被背景噪声淹没。为了使定义的语义足够清晰,本文将设置为3。
轴承语义定义的效果如图1中stage 1部分所示。由于每个故障类别设置了一个基频语义和两个谐波语义,最终定义了共计9个轴承语义。
(3)轴承语义嵌入
以往的研究表明,神经网络内部的知识是纠缠的。这种知识纠缠表现为一个语义可能被多个卷积核学习,同时一个卷积核也可能学习多个语义知识。因此,为了构建可解释的神经网络,在结合先验知识构造可解释性语义的基础上,还需要对网络内部知识解纠缠。
为了实现解纠缠,首先对卷积核进行分组,从而让同一组卷积核学习相同的轴承语义。假设一个卷积层共有个卷积核,令表示第组核的个数,其中。卷积核分组可以表示为
其中,表示底函数,它用于计算小于或等于给定数的最大整数。上式将卷积核分为10组,其中前9组分别学习stage 1中定义9种轴承语义中的一种。最后一组则进行自由学习,以保有卷积层的灵活性和泛化能力。
在完成卷积核分组后,为每种语义构建掩码,通过Hadamard积强制每组卷积核分别学习一种轴承语义。掩码定义为
其中表示掩码的长度,与输入卷积层的特征图长度一致。表示语义集合。掩码的示意如图2所示,其效果类似带通滤波器,使卷积核主要关注轴承语义频域与其左右两个频率点,在保证模型关注区域的同时降低背景噪声和计算误差带来的影响。
图2 掩码原理。
(4)全局可解释网络构建
轴承语义嵌入实现了对卷积层的可解释性改造。但要实现对CNN全局可解释的改造,还需要解决语义淹没和全连接层不可解释的问题。语义淹没指CNN的特征图随着卷积层的加深逐渐减小,其分辨率降低导致轴承语义被淹没,如图3所示。全连接层则由于消除了输入的空间结构导致空间信息丢失,同时其高维权重矩阵对于输出的重要性难以评估,因此通常被认为是不可解释的。
图3 语义淹没示意图。随着卷积层的加深(从下到上),轴承语义逐渐被淹没。
为了维持轴承信号的语义信息在CNN全局可见,首先提出了一种特征图尺度维持策略,如图1中stage 3所示。该策略首先取消了传统池化层以避免特征图尺寸的迅速减小。接着,在网络初始阶段,使用步长为1的卷积以保持特征图的空间分辨率与输入信号一致,避免语义信息的淹没。随着网络结构的深入,在中间层使用步长为2 的卷积来减半特征图的尺寸,从而在保证语义存在的同时提取更抽象的特征。
为了保证模型的全局可解释性,本文进一步采用了FCN架构,如图1中stage 3所示。该架构完全由卷积层构成,在利用卷积的空间层次性逐层转递轴承语义知识的同时,避免了全连接层引入的不可解释性。
最终,以FCN架构为骨干,采用特征图尺度维持策略,同时利用轴承语义嵌入方法嵌入轴承语义的模型结构被称为GINet-BS。其中FCN架构和特征图尺度维持策略共同实现了模型的全局可解释,轴承语义嵌入从人类可理解的角度为模型提供实际解释。
04
实验结果
EXPERIMENTS
实验结果
1. 全局可解释性
图4 GINet-BS-CNN中四个可解释卷积层对OF的决策原理
图4展示了GINet-BS-CNN中全部四个可解释卷积层对OF的决策原理。可以看到,每层均以预先定义的语义为决策依据。在浅层中也会学到其他频段的知识,这是未被分配掩码的自由卷积核在起作用。而随着层数加深,关注区域逐渐向、和转移,说明模型最终依据这三个语义对OF决策。总的来说,在GINet-BS-CNN中,每个层学习到的知识都是清晰的和能够被理解的。
图5 CNN中四个卷积层对(a) IF, (b) OF, (c) BF的决策原理
图5展示了CNN中每个卷积层对三种故障的决策依据。与对CNN的普遍认知一致,CNN的低层学习了多个频段知识,高层逐渐向几个主要语义汇聚。这里虽然也展现出了一些语义知识,但这些语义无法被人类理解。同时,随着层数加深带来感受野的扩大,语义信息也逐渐被淹没。这证明了本文可解释卷积的效果和特征图尺度维持策略的有效性。总的来说,CNN虽然能够准确诊断故障,但相比于GINet-BS-CNN来说是完全不可解释的。
2. 可扩展性
图6 (a) DenseNet对IF的决策原理,(b) GoogLeNet对OF的决策原理,(c) ResNet对BF的决策原理
本节将GINet-BS应用于三种基准CNN,以验证其在不同CNN结构上可扩展性。三种基准CNN分别是DenseNet,GoogLeNet和ResNet。结果如图6所示。其中a列、b列和c列分别表示基于DenseNet、GoogLeNet和ResNet构建的网络。第一行为引入本文所提出GINet-BS的结果,第二行为原始网络。结果展示了这三种CNN变体的高层分别对于IF、OF和BF的判别依据。可以看出这三种CNN变体虽然在一定程度上能够总结出一些语义,但并不够聚焦。换言之,我们虽然能够理解这些模型对于不同类别的判别依据,但并不能够理解这些判别依据本身。作为对比,当引入GINet-BS后,三个网络都能够很好地聚焦于具有物理意义的语义。
3. 诊断性能
本节展示了四种基准模型在引入GINet-BS前后的诊断性能变化。性能评估指标采用了准确率,即预测正确的样本数占总样本数的比例。对于平衡数据集准确率能够很好地反应模型的整体预测能力。
表I展示了10次实验的均值,其中“G-”表示引入GINet-BS后的模型。所有模型在无噪声的场景下训练,并测试了它们在不同噪声场景下的退化情况。在无噪声和低噪声的场景下,引入GINet-BS后并不会对模型性能造成负面影响。而随着噪声增强,四种基准模型均快速退化,基本在SNR=5时就不可用了。相反,在引入GINet-BS后,模型反倒体现出了较好的噪声鲁棒性。这说明了本文设计的语义与故障有较强的相关性,能够本质地反正故障的物理表现。
表1 诊断性能对比
4. 可解释卷积的计算代价
图7 GINet-BS-CNN在不同可解释卷积层数下的诊断性能和计算成本。
GINet-BS-CNN在不同数量可解释卷积层上的诊断性能和计算成本如图7所示。红线表示每个训练epoch所需的计算时间,随着层数的增加,计算时间明显增加。在柱状图中,当只有三层时,随着噪声的增加,性能会出现明显的下降,从而推断出该阶段可能存在欠拟合。当层数超过4层时,模型对噪声的鲁棒性不再增强。因此,基于效率和性能,实验证实了四层是最优的平衡。
05
总结
CONCLUSION
总结
本文在FCF的基础上,提出了轴承信号物理语义的明确定义。在语义定义的基础上,提出了一种轴承语义嵌入方法,实现了可解释卷积层的构造。接着在可解释卷积的基础上,提出了全局可解释卷积神经网络GINet-BS。
实验结果表明,当GINet-BS应用于各种基准CNN时,模型具有更好的噪声鲁棒性。这证实了基于FCF的语义能够更本质地反映轴承故障的物理特性。同时,与基准模型相比,引入GINet-BS的模型具有全局可解释性,使用户能够从语义角度直观地理解不同故障的决策依据。此外,在各种基准模型中的优异性能突出了GINet-BS在其他基于信号的故障诊断任务中的通用性。
END
扫描二维码关注我们
==河海大学网络与安全实验室==
微信搜索:Hohai_Network
联系QQ:1084561742
责任编辑:何宇
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...