第42卷第3期2022年6月
振动、测试与诊断Vol.42No.3
Jun.2022 Journal of Vibration,Measurement&Diagnosis
基于卷积GRU注意力的设备剩余寿命预测∗
赵志宏1,2,李晴1,李春秀1
(1.石家庄铁道大学信息科学与技术学院石家庄,050043)
(2.石家庄铁道大学省部共建交通工程结构力学行为与系统安全国家重点实验室石家庄,050043)
摘要为了直接利用神经网络从采集的全寿命振动信号中自动提取特征信息,避免对人工提取特征的依赖,提出了一种基于卷积门控循环单元(convolutional gated recurrent unit,简称ConvGRU)注意力的剩余寿命预测方法。首先,对于采集的设备振动信号预处理,输入ConvGRU注意力模型,ConvGRU通过卷积神经网络(convolutional neural networks,简称CNN)提取设备状态的空间局部特征,门控循环神经单元(gate recurrent unit,简称GRU)提取时序特征信息,从而有效提取设备状态特征;其次,利用注意力机制对特征信息分配不同的权重;然后,进行中间网络层特征输出的可视化实验,验证了本研究方法特征提
取的有效性;最后,进行了2个机械设备数据集PHM2012轴承数据集和NASA发动机数据集的实验,并与已有方法进行对比。实验结果表明,笔者提出的基于ConvGRU注意力的剩余寿命预测方法预测准确性更好,并具有较好的泛化性。
关键词机械设备;剩余寿命预测;深度学习;卷积门控循环单元;注意力
中图分类号TH133;TH17
引言
当今工业行业亟待解决的问题是面临繁重的机械设备健康维护管理工作时如何提高机械设备的安全性和稳定性,提高工作效率,降低维护成本[1]。故障预测与健康管理系统包括设备故障检测、实时监测和剩余寿命(remaining useful life,简称RUL)预测等。RUL是预测机械设备从当前时刻到无法正常工作的运行时间[2]。现有的剩余寿命预测方法主要分为基于失效机理的方法、基于数据驱动的方法和两者融合的方法[3]。基于失效机理的方法需要针对研究对象建立失效退化模型,一般不具有泛化性。由于工况复杂多变,机械设备愈加复杂,退化机理不同,获得失效模型过程复杂,预测效果难以保证[4]。基于数据驱动的方法是通过机器学习和统计学的方法从传感器采集的数据中探究与剩余寿命之间的关系[5]。传统的基于数据驱动的方法(例如支持向量机[6]、贝叶斯[7]、神经网络[8]等)在剩余寿命预测方面获得一定的成果,但随着机械设备的复杂化和集成化,采集的传感器数据愈加
庞大,其中蕴含的特征关系难以获取,剩余寿命预测结果准确性存在一定的误差。
深度学习具有强大的非线性映射能力和提取特征能力,被越来越多地应用在剩余寿命预测和健康监测领域[9]。Ren等[10]应用CNN的轴承剩余寿命预测方法,通过CNN提取特征向量,利用深度神经网络预测剩余寿命。王奉涛等[11]应用基于长短期记忆网络(long short‑term memory,简称LSTM)预测模型,将提取到的退化特征输入到LSTM中预测滚动轴承的剩余寿命,并取得了较好的预测结果。肖丽[12]将GRU应用到滚动轴承的剩余寿命预测研究中,将GRU与粒子滤波器相结合预测轴承的RUL,有效提高了预测的精度。王玉静等[13]将CNN和LSTM相结合,提出了一种新的网络结构预测滚动轴承的剩余寿命,提高了预测的准确度和稳定性。以上方法从振动信号中提取空间特征或时序特征,只是利用了一方面的特征信息,会造成特征信息的丢失。部分研究者开始从振动信号中同时提取空间特征和时序特征。王久健等[14]将卷积长短期记忆网络(convolutional long short‑term memory,简称Con‑vLSTM)应用于轴承RUL预测方法,通过CNN提取局部特征信息,LSTM提取时间信息,获取退化程度的特征。ConvLSTM存在的问题是参数量太大,为了进一步减少ConvLSTM的参数量并提高泛化能力,Shi等[15]提出一种CNN与GRU结合的时空DOI:10.16450/jki.issn.1004‑6801.2022.03.023
∗国家自然科学基金资助项目(11972236,11790282);石家庄铁道大学研究生创新基金资助项目(YC2021077)收稿日期:2021‑07‑25;修回日期:2021‑09‑15
第3期
赵志宏,等:基于卷积GRU 注意力的设备剩余寿命预测
序列网络结构ConvGRU 。Chen 等[16]提出一种基于注意力机制的RUL 预测模型,利用LSTM 提取与时间有关的特征,通过注意力为不同传感器特征和时间步加权,进一步提高剩余寿命预测的准确性。ConvGRU 门控单元数目和参数量少于ConvL‑STM ,提高了计算性能;注意力机制能对重要的特征信息分配更大权重。
基于以上考虑,笔者提出一种基于ConvGRU 注意力的剩余寿命预测模型。ConvGRU 作为CNN 和GRU 结合体,既通过CNN 提取设备状态的空间局部特征,又利用GRU 提取时序特征,可更有效地提取设备状态特征;通过注意力机制对于特征信息分配不同的权重,有效利用特征信息。实验表明,本研究方法在剩余寿命预测方面取得了较好结果。
1
理论分析
1.1
正则化粒子滤波GRU
LSTM 解决了RNN 存在的长期依赖的问题,
LSTM 通过3个门控结构(输入门、输出门和遗忘门)控制网络的输入值、输出值和记忆值。文献[17]提出了一种不同于LSTM 的结构GRU ,对LSTM 进行简化,它只包含2个门:更新门和重置门,其参数少于LSTM ,提高了网络计算效率。GRU 广泛应用于时间序列分类和预测问题[18]。GRU 网络单元结构如图1所示。
GRU 的计算公式如式(1)~(4)所示R t =σ(X t W xr +H t -1W hr +b r )
(1)
Z t =σ(X t W xz +H t -1W hz +b z )(2)
H
t =tanh (X t W xh +(R t ⊙H t -1)W hh +b h )(3)H t =Z t ⊙H t -1+(1-Z t )⊙H t
(4)其中:σ为激活函数;X t 为t 时刻网络层的输入;H t -1为t -1时刻隐藏状态;R t 为重置门,用于控制t -1
时刻的状态信息被传入t 时刻候选集H t 的数量,t -1时刻的状态信息传入t 时刻候选集H
t 的数量越少,则重置门越小;Z t 为更新门,用于控制t -1时刻的状
态信息更新至t 时刻的情况,t -1时刻的状态信息更新至t 时刻越少,更新门越小。1.2
ConvGRU
Shi 等[15]提出的ConvGRU 的门控循环机制与GRU 相同,不同之处在于特征计算时ConvGRU 采用卷积网络结构,而GRU 采用全连接结构。Con‑vGRU 与ConvLSTM 相比,结构更加简单,参数量更少,计算速度更快,网络收敛速度更快[15]。Con‑vGRU 同时具有CNN 与GRU 的优点,通过CNN 提取空间局部特征,利用GRU 提取时序特征,从而可以同时提取时间序列中的时空特征信息。Con‑vGRU 内部结构如图2所示。
ConvGRU 的计算公式如式(5)~(8)所示R t =σ(X t ∗W xr +H t -1∗W hr +b r )
(5)
Z t =σ(X t ∗W xz +H t -1∗W hz +b z )(6)
H
t =tanh (X t ∗W xh +(R t ⊙H t-1)∗W hh +b h )(7)H t =Z t ⊙H t -1+(1-Z t )⊙H
t (8)
其中:σ为激活函数;*表示卷积操作;⊙表示元素相乘;
R t 为重置门;Z t 为更新门;X t 为t 时刻网络层的输入;H t -1为t -1时刻隐藏状态;
H t 为候选集。1.3
注意力机制
注意力机制[19]最初应用于机器翻译领域,随着
注意力机制的快速发展,已广泛应用于时序信息处理的各个方面。在深度学习模型中,通过注意力对提取到的特征信息赋予不同的权重,突出重要信
息。笔者所使用的注意力分配权重过程如图3所示,计算过程分为3个阶段。
1)通过点积运算计算输入特征向量Q ,
K i
的相图1GRU 网络单元结构Fig.1
structure of GRU
network
图2ConvGRU 内部结构
Fig.2
Internal structure of
ConvGRU
图3
注意力分配权重过程
Fig.3
Attention weight allocation process
573
振动、测试与诊断第42卷
关性,得到权重系数,计算公式为
P similarity (Q ,K i )=Q ⋅K i
(9)
2)在Dense 层利用Softmax 函数对上一步得到的权重系数进行归一化处理,数值转换得到w i
w i =Soft max (P similarity (Q ,K i ))
(10)
3)通过w i ,V i 加权求和,得到对应的注意力权
重值,计算公式为
A (Q ,K i )=
∑i =1
n
w i
⋅V
i
(11)
其中:Q 为注意力层输入;(K i ,V i )为一组数据对,通
过计算与Q 的相似性得到K i 对应的V i 。
2寿命预测模型
笔者提出的剩余寿命预测模型ConvGRU 注意
力模型网络结构如图4所示,主要由ConvGRU 层、批处理化层(BatchNormalization ,简称BN )层、注意力层、平铺层和全连接层组成。寿命预测的具体步
骤如下:
1)对于输入的原始数据序列首先经过数据转
换,得到n 个特征向量{x 1,x 2,⋯,x n },将其作为ConvGRU 注意力网络结构的输入特征序列;
2)通过2层ConvGRU 隐藏层特征矩阵H 1,
H 1经过BN 层进行正则化;
3)将经过正则化后的特征矩阵H 2输入到注意力机制进行加权,在注意力机制中,首先通过输入矩阵的点积运算得到对应的权重,将得到的权重经过Softmax 函数对生成的权重归一化,最后将得到的权重和对应的值加权求和生成新的特征矩阵序列;
4)由于预测目标与输入维数不同,将预测网络中的所有状态经过平铺层连接起来,并将其输入到2个全连接层以多对一的形式输出预测结果,即为当前剩余寿命与全寿命结果的比值。
3
实验与分析
3.1
数据集介绍
在公开的数据集[20]上进行实验验证笔者所提
出的基于ConvGRU 注意力的剩余寿命预测模型的性能。该数据集包含3个工况,17个轴承的全寿命数据。前2种工况各包括7个轴承,命名分别为轴承1‑1~轴承1‑7,轴承2‑1~轴承2‑7。第3种工况包括3个轴承,命名为轴承3‑1~轴承3‑3。该数据集每间隔10s 采集一次水平和垂直2个方向的传感器数据,每次采集记录时间为0.1s ,采样频率为25.6kHz 。笔者采用水平方向采集的数据。实验选用11个轴承的数据作为训练集,剩余6个轴承数据
作为测试集。以轴承1~3为例,水平方向采集全寿命周期原始信号如图5所示。
3.2
数据预处理
将轴承方向的原始数据整合处理,对于整合的
轴承数据在输入模型之前采用最大最小标准化进行
图4
ConvGRU 注意力模型网络结构
Fig.4
Network structure of ConvGRU -attention
model
图5
轴承全寿命周期原始信号
Fig.5
Full life cycle original signal of bearing
574
第3期
赵志宏,等:基于卷积GRU 注意力的设备剩余寿命预测
数据预处理,缩小数据范围,将数据集最小值和最大值转化至[0,1]之间,以提高模型计算速度,计算公式为
-
X t =
X t -X min
X max -X min
(12)
其中:
X t 为数据集t 时刻的输入;X min 为数据集的最小值;X max 为数据集的最大值;-
X t 为t 时刻通过数据标准化后的值。
对于每行数据进行标签化处理,每行数据的标签为轴承对应的剩余寿命和全寿命的比值Z i ,
Z i 计算公式为
Z i =
L -i
L -1
(13)
其中:L 为每个轴承整合后的行数,即为轴承的实际全寿命长度;
i 为当前行。对剩余寿命标签进行归一化处理,可以降低轴承不同工况和剩余寿命不同等因素的影响,提高剩余寿命预测的准确性。3.3
剩余寿命计算步骤
利用一次线性回归预测,得到t 时刻对应的剩余寿命RUL t ,其计算步骤如下:
1)通过线性回归建立预测,得到当前剩余寿命与全寿命结果之间的线性方程为
t =ay t +b
(14)
2)计算轴承的全寿命周期,当y t =0时,轴承剩余寿命为0,其全寿命周期为
m =ay t +b =b (15)3)计算轴承任意时刻t 的剩余寿命为
RUL t =L -t
(16)
其中:t 为轴承已运行时间;y t 为预测的当前剩余寿命与全寿命结果的比值;L 为轴承的全寿命周期;RUL t 为t 时刻轴承的剩余寿命。
3.4实验分析
3.4.1
轴承RUL 预测结果对比
为验证笔者提出的基于ConvGRU 注意力的剩
余寿命预测模型的有效性,利用PHM2012数据集的误差百分比进行评价。误差百分比的计算公式为
Er i =
RUL act i -RUL i
RUL act i
×100%
(17)
其中:
RUL act i 为第i 组测试数据的实际RUL ;RUL i 为第i 组测试数据的预测RUL 。
不同预测方法对比如表1所示。可以看出,以轴承1~3为例,本研究方法与ConvGRU 相比误差降低了79.87%;与ConvLSTM 相比误差降低了45.61%;与基于自组织映射(self‑organizing map ,
简称SOM )的健康指数(health index ,简称HI )
[21]
相比误差降低了43.32%;与CNN‑HI 相比误差降低了62.21%;与RNN‑HI [22]相比误差降低了57.67%。因此,笔者基于ConvGRU 注意力的剩余寿命预测模型具有更低的误差率,表明了该模型的有效性。
3.4.2与ConvLSTM 注意力比较
ConvGRU 注意力和ConvLSTM 注意力模型的参数量和运行时间对比如表2所示。其中,2个模型的层数相同且训练次数均为100。运行的硬件设备参数:内存为64G ;处理器为Intel Xeon (R )Silver 4110CPU @2.10GHz *16;操作系统为64位。从表2可以看出,ConvGRU 注意力模型与ConvL‑
STM 注意力模型相比,参数量降低了22.51%,运行时间减少了15.56%。
表1
不同预测方法对比
Tab.1
Comparison of different prediction methods
测试集轴承1‑3轴承1‑4轴承1‑6轴承1‑7轴承2‑5轴承2‑6
当前时刻18011138230115012001571
实际寿命573290146757309129
预测寿命678216175649421139
ConvGRU 注意力-18.3225.52-19.8614.27-36.25-8.33
ConvGRU -89.53-44.21-29.1734.87-60.8434.88
ConvLSTM
[14]
33.6847.2423.28-3.30-39.80
8.52CNN‑HI [14]48.5253.5719.3916.2756.13-18.65
SOM‑HI [21]-31.7662.76-32.88-11.0968.61-51.94
RNN‑HI [22]
43.2867.5521.2317.8354.37-13.95
表2
参数量和运行时间对比
Tab.2
Comparison of parameters and running time 模型
ConvLSTM 注意力ConvGRU 注意力
参数量2553919789
运行时间/s 2250019000
575
振动、测试与诊断第42卷
以轴承1~3为例,ConvLSTM 注意力和Con‑vGRU 注意力的预测结果如图6所示。可以看出,ConvGRU 注意力方法的实际RUL 和预测RUL 相比,波动小于ConvLSTM 注意力方法。
3.4.3可视化分析
为进一步验证笔者所提的基于ConvGRU 注意力剩余寿命预测模型的有效性,对该模型不同层所提取的特征可视化。选取可视化的层分别为输入层、ConvGRU_2层输出,注意力层输出和Dense_2层输出。隐藏层特征可视化如图7所示,图中的每个点表示不同时刻t 的特征,颜则为对应点的剩余寿命和全寿命的比值Z i 。根据图7
可知,随着模型的深入,所提取的特征由输入层的杂乱无序,经过ConvGRU_2层后的逐渐分离,至注意力层输出的逐渐有序,到Dense_2层的有序排列,反映了该模型较好的提取特征能力。3.5
C⁃MAPSS 数据集实验
为验证笔者提出模型的泛化能力,使用NASA 仿真C‑MAPSS 数据集。该数据集包括4个子集,具体情况如表3所示。每个子集包括对应的训练集、测试集以及测试集对应的实际
图7
隐藏层特征可视化
Fig.7
Visualization of hidden layer
features
图6轴承实际RUL 和预测RUL 对比
Fig.6Comparison of actual RUL and predicted RUL of
bearing
576

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。