基于时间序列的异常检测算法的研究
臧晶*张经纬
(沈阳理工大学信息科学与工程学院  辽宁沈阳  110159)
摘要:在时间序列数据下,针对传统的器件故障检测技术对不同的器件检测率低、小样本数据分类不平衡等问题,对数据异常检测准确率造成很大的影响。该文构建一种机器学习和深度学习相结合的时间序列异常检测算法,针对时间序列数据分类不平衡问题,引入合成少数类过采样技术(Synthetic Minority Oversam⁃pling Technique,SMOTE),使得各类别之间的数据达到均衡状态,用最小绝对收缩和选择算法(Least Abso⁃lute Shrinkage and Selection Operator,LASSO)进行特征选择,从而得到对异常检测结果影响较大的特征项,最后,使用基于添加注意力机制的长短期记忆网络(Long Short-Term Memory,LSTM)作为异常检测分类器,完成基于时间序列异常检测算法的实现。
关键词:时间序列 异常检测 SMOTE LASSO LSTM 注意力机制
中图分类号:P14文献标识码:A 文章编号:1672-3791(2023)10-0225-04 Research of the Anomaly Detection Algorithm Based on
正则化回归算法Time Series
ZANG Jing
*ZHANG Jingwei
(School of Information Science and Engineering, Shenyang Ligong University, Shenyang, Liaoning Province,
110159 China)
Abstract:Under time series data, the traditional device fault detection technology has a great impact on the accu‐racy of data anomaly detection due to the problems such as the low detection rate of different devices and the un‐balanced classification of small sample data. This paper builds an anomaly detection algorithm of time series com‐bining machine learning and deep learning, introduces the SMOTE algorithm in view of the data classification im‐balance of time series to enable the data between each category to reach the equilibrium state, uses the LASSO al‐gorithm for feature selection to obtain the feature items that have great influence on anomaly detection results, and finally uses the LSTM network based on the added attention mechanism as the anomaly detection classifier to com‐plete the realization of the anomaly detection algorithm based on time series.
Key Words: Time series; Anomaly detection; SMOTE; LASSO; LSTM; Attention mechanism
在时间序列数据中,研究一个问题往往涉及到很多可能的影响因素,明确哪些因素对异常检测分类结果有更大的影响程度,这就涉及了特征选择问题。
近年来,基于回归分析地提取特征的正则化技术受到更多关注和研究[1-3]。PATIL A R等人[4]使用自适应最小绝对收缩和选择算法(Least Absolute Shrinkage
and Selection Operator,LASSO)对基因的重要性进行选择,通过自适应LASSO处理后的基因有助于获得更高的分类性能;朱海龙等人[5]将岭回归与LASSO算法分别与财政收入影响因素做特征选择,结果表明LASSO 回归模型更优;吴进等人[6]基于LASSO回归的网络剪枝结合奇异值分解算法(Singular Value Decomposition,SVD ),提高模型性能。在实践中,很多研究通常先使用LASSO算法进行特征选择,然后将获得的子集作为模型的输入以提高模型效率。
鉴于以上原因,该文构建一种新的基于时间序列
DOI:10.16661/jki.1672-3791.2203-5042-3553
通信作者: 臧晶(1975—),女,博士,副教授,研究方向为数据处理、人工智能,E-mail:***************。
数据的检测模型。首先,对数据采用合成少数类过采样技术[7](Synthetic Minority Oversampling Technique,SMOTE)解决数据中样本分类不均衡的问题,避免在检测中出现过拟合。其次,以LASSO[8]为基础,达到时间序列数据重要特征信息提取的目的。最后,以基于添加注意力机制的长短期记忆网络(Long Short-Term
Memory Network,LSTM)为异常检测模型,完成对时间序列数据进行异常检测分类。
1 时间序列数据
时间序列是在一个统一的统计指标下,数值按照时间先后顺序排列形成的序列。时间序列数据是对这些随着时间变化而变化的数据的统称,它用于描述事物或是现象随时间变化的情况。例如:温度传感器读数、股票价格、机器状态等都属于时间序列数据。
2 时间序列数据异常检测算法构建
2.1  数据预处理
解决数据分类不平衡问题的一种典型的过采样方法是SMOTE算法,该算法采用了合成新样本的方法,避免随机采样方法在检测过程中的过拟合。实验表明,用SMOTE方法在提高少数类数量的同时,分类器的准确性会随之提高。实现过程如下。
第一步,对于少数类中每一个样本X,用欧式距离计算它在少数类中的K和近邻,通常K值由自己设定。
第二步,在K个近邻中随机选择一个样本x。
第三步,随机生成一个(0,1)之间的随机数,用下式合成一个新样本。
x new =x+rand(0 1)´(x-x)
2.2  特征选择算法
LASSO的核心是利用L1范数的稀疏性来解决回
归相关的惩罚优化问题。该算法可以将一些不重要特
征的系数缩减为零从而降低解释变量矩阵的维数,在
模型选择方面具有较低的结构风险,从而快速处理高
维数据。LASSO算法的目标函数可以表示为
β=arg min
β∑i(y t+1-β0-
∑iβi x i t)2+λLasso∑i||βi
式中,λLasso表示LASSO算法的非负正则化参数,
用于调节惩罚项对模型的压缩强度。增大λLasso的值,
被压缩的解释变量数目增加,不重要变量的βi系数可
以压缩为零,从而去除不重要的特征项。
2.3  基于添加注意力机制的LSTM网络模型检测模型
LSTM神经网络是一种能够很好地处理时间序列
数据的网络。通过对LSTM网络引入注意力机制[9],对
于该文采集泵的传感器数据中,将泵的多个传感器作
为输入数据,将泵的工作状态作为异常检测分类的输
出,重点关注对象是对异常检测结果起主导作用的输
入特征,对相关性和依赖性较弱的特征应减少关注,可
以做出更精准的异常检测分类。LSTM添加注意力机
制的模型如图1所示。
3 实验仿真及算法应用
3.1  实验数据采集及说明
该文采用Kaggle上公开的泵的传感器时间序列数
据,采集的时间从2018年4月1日至2018年8月31日。
该数据集通过52个传感器获取的数据来表示系统故
障信息,每条样本数据由3个部分组成:(1)时间戳数
据(timestamp),表示每条数据采集的时间;(2)传感器
输入层
全连接层
LSTM
状态层
注意力机制
全连接层
输出层
图1    添加注意力机制的LSTM模型
表1    实验数据                                                            (单位:条)
类别
正常工作
194 715(88.4%)
已修复
5 960(2.7%)
损坏
19 648(8.9%)
总数
220 321
数据(sensor00~sensor51),表示52个传感器的信息;(3)机器状态(machine_status ),表示泵的工作状态信息。实验所用的数据信息见表1。测试环境条件如下:操作系统Windows10,实验平台为PyCharm。3.2  实验结果分析
根据表1数据可知,数据集分类存在不均衡,使用SMOTE 方法对数据集作均衡化处理,均衡后的实验数据如表2所示。
为了评价训练后的算法特性,该文将通过AUC 值、测试损失值、测试准确率,对构建的时间序列异常检测模型做出评估。
由图2的AUC 值曲线图可知,选择不同个数的特征数量对检测结果的影响不同。当特征项为22个时,AUC 值最大,对检测模型影响最大,使用LASSO 特征选择算法,选出对检测结果影响较大的22个特征项,如图3所示。
根据特征选择结果,为了进一步说明构建的时间序列异常检测模型的可行性,该文用LSTM
网络和LSTM-attention 网络分别作为检测模型进行对比分析,
从测试损失值和测试准确率两方面说明模型的有效性。
两种模型的训练的epoch 均为15,见图4。两种模型的损失值均呈下降趋势。LSTM 网络在第三、第四
图2    AUC 曲线图
图3    LASSO 特征选择图
表2    均衡后数据                                                          (单位:条)
类别
正常工作194 715
已修复194 715
损坏194 715
总数584 145
epoch稍稍提升,在后面的epoch中呈缓慢下降。基于添加注意力机制的LSTM-attention 模型中,在epo
ch 等于6、7时稍有增长,在epoch 等于8时又下降,在epoch 为9、11时稍有波动,可能的原因是数据存在噪声。在最后的epoch 中,LSTM_attention 的损失值比LSTM 的损失值低。
如图5可知,两种模型在整体上都呈上升趋势,中
间稍有波动。LSTM 网络在前3个epoch 中稍有下降,在第五个epoch 中突然升高,随后略有下降,但是还是呈上升趋势。LSTM-attention 模型epoch 为6、7、9时有较大的震荡,经过10个epoch 后一直上升,在最后的异常检测准确率上比单一的LSTM 网络准确率高。
4  结语
对于多特征的时间序列数据集,存在样本分类不平衡问题时,首先进行样本均衡化处理,然后使用LASSO 算法对数据进行特征选择,再使用基于添加注意力机制的LSTM 网络作为异常检测模型进行分类检测。该文从AUC 曲线、测试损失值及测试准确率的角度对构建的时间序列异常检测算法模型进行实验验证,说明了模型的有效性和可行性。
参考文献
[1]李雪珂.基于正则化稀疏模型与Xgboost 算法的估
值预测研究[D].武汉:中南财经政法大学,2019.[2]VERSTRAETE G,AGHEZZAF E,DESMET B.A Leading Macroeconomic Indicators' Based Framework to Auto‐maticallygenerate Tactical Sale Forecasts[J].Computers & Industrial Engineering,2020,139(1):106169.
[3]王格华,王璞玉,张海.分布式变量选择:MCP 正则化[J].工程数学学报,2021,38(3):301-314.
[4]PATIL A R,PARK B K,KIM S.Adaptive Lasso with
Weights Based on Normalized Filtering Scores in Mo‐lecular Big Data[J].Journal of Theoretical and Compu‐tational Chemistry,2020.
[5]朱海龙,李萍萍.基于岭回归和LASSO 回归的安徽省财政收入影响因素分析[J].江西理工大学学报,2022,43(1):59-65.
[6]吴进,吴汉宁,刘安,等.一种基于Lasso 回归与SVD 融合的深度学习模型压缩方法[J].电讯技术,2019,59(5):495-500.
[7]王俊红,段冰倩.一种基于密度的SMOTE 方法研究[J].智能系统学报,2017,12(6):865-872.
[8]陈细军.基于Lasso 及其改进方法的仿真和GDP 实证分析[D].
武汉:武汉大学,2019.
[9]
唐蕾霞.自注意力LSTM 在时间序列分析中的应用研究[D].大连:大连理工大学,2021.
图5    测试准确率
图4    测试损失值

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。