1引言
在煤矿等采掘作业中,瓦斯(甲烷)是一种常见的有害气体,如果瓦斯浓度超过一定的安全范围,就会引起煤矿爆炸、火灾等严重事故[1-3]。此外,高浓度的瓦斯还会对人体造成窒息、中毒等危害。瓦斯浓度的影响因素很多,主要包括煤层中瓦斯的含量、煤层厚度、地下温度和压力、采矿方法等。因此,在采矿、隧道、地下工程等领域中,需要采取一系列措施来降低瓦斯浓度,如对瓦斯浓度进行实时监测和预测,及时采取措施避免瓦斯积聚,保障人员和设备的安全。许多研究人员在瓦斯浓度预测问题上做了许多工作。张震等[4]基于ARIMA 实现了对瓦斯浓度的预测;使瓦斯浓度预测均方根误差降低至2.34%。孙卓越等[5]通过LSTM 建立了实时预测模
型,能够及时预测瓦斯浓度的走势。刘莹等[6]基于LSTM 建立了多因素瓦斯浓度预测模型,使均方根误差降为2.1%。林旭杰[7]通过ARIMA 模型来预测瓦斯浓度,使得瓦斯浓度预测平均绝对误差低至
1.9%;刘晓悦等[8]结合云计算,遗传算法和Elman 神经网络来预测瓦斯浓度,并通过此模型对大量数据进行训练,此方法提高了瓦斯浓度短期预测情况下的效率,并且保证了一定的预测准确性。但上述研究存在两个问题:(1)在长期预测方面,每次预测都只是根据过去的历史数据预测当前时刻的数据,
而不是未来多个时刻的瓦斯浓度。(2)短期预测方面虽然准确度较高但无法为煤矿生产作业留下充足的防范时间。结合上述研究存在的问题,本文利用LSTM 在时间序列预测方面的优势,以CNN、GRU 模型为对
比,从传感器中搜集的瓦斯浓度数据作为训练样本进行瓦斯浓度的预测,降低预测误
差的同时多步预测未来瓦斯浓度趋势。2深度网络预测模型2.1
LSTM 模型
LSTM,全称为Long Short-Term Memory(长短时记忆)模型[9],是一种用于序列数据建模的神经网
络。是对循环神经网络(Recurrent Neural Networks)的改进,可以更好地捕捉长期依赖关系。LSTM 模型被广泛应用于自然语言处理、时间序列预测等领域,因为它能够有效地处理长序列数据,并且具有很好的泛化性能。
LSTM 模型的核心是LSTM 单元,它由三个门
(输入门、输出门和遗忘门)和记忆单元组成。这些门通过学习权重来控制信息流动,从而使模型能够选择性地记住或遗忘先前的信息。输入门决定哪些
信息可以进入记忆单元,遗忘门决定着从记忆单元中删除某些信息,输出门决定输出内容。记忆单元用于存储长期记忆,它可以看作是一个传送带,可以在多个时间步骤中保留信息,使得模型可以更好基于LSTM 的瓦斯浓度多步预测研究
张
玲袁杨超宇
(安徽理工大学,安徽
淮南
232001)
摘
要:监测瓦斯浓度是预防煤矿灾害的重要手段,其浓度变化预测在提高安全生产方面至关重要。
本文针对瓦斯浓度预测问题,建立了一种基于LSTM 的瓦斯浓度多步预测模型,并采用前向验证的方法对瓦斯浓度预测结果进行了比较验证。以GRU 、CNN 模型为对比,研究结果表明:基于LSTM 的瓦斯浓度多步预测模型效果最好,均方根误差为0.028,GRU ,CNN 的均方根误差为0.031,0.032。因此,LSTM 模型可更精准地进行瓦斯浓度多步预测,降低瓦斯浓度过高对煤矿安全生产造成的危害。
关键词:LSTM ;GRU ;CNN ;瓦斯浓度预测;时间序列中图分类号:TD712文献标识码:A
文章编号:1673-260X(2024)01-0039-05
收稿日期:2023-10-03
通信作者:杨超宇(1981-),博士,教授,研究方向:计算机信息技术与应用。基金项目:国家自然科学基金项目(61873004)
Vol.40No.1Jan.2024
赤峰学院学报(自然科学版)
Journal of Chifeng University (Natural Science Edition)
第40卷第1期2024年1月
地处理长序列数据。
LSTM 模型的输入是一个序列,每个时间步的
输入都会被送入LSTM 单元进行处理,同时LSTM 单元会输出一个隐藏状态并交给下个时间步,用于下一个时间步的预测。其结构如图1所示。
(1)遗忘门的两个输入来自前一个隐藏状态
h t -1的输出,和当前状态x t 的输入。再结合它们的权重、偏置,最后通过sigmoid 函数(1)来估计是保留还是删除信息。其结果取值范围为0到1,其中0表示完全忘记该信息,而1表示最终保持该信息。其数学表达式为:
f t =σ(W f ·[h t-1,x t ]+b f )
(2)输入门是决定应该向单元中添加多少新信
息。sigmoid 函数(2)与遗忘门中的功能相同。然后我们创建一个记忆单元C′t ∈R n*h
并使用tanh 函数
(3)来解决旧单元C′t-1∈R
n*h
中应该保持多少记忆。
我们在这里使用tanh 函数,因为tanh 允许负结果的出现,这意味着可以向单元中添加或删除信息。通过
结合f t 和C t-1、i t 和C′t ,我们得到新的细胞状态C t (4)。数学表达式为:
i t =σ(W i ·[h t-1,x t ]+b i )
C′t =tanh(W c ·[h t-1,x t ]+b c )
C t =f t ·C t-1+i t ·C′t (3)输出门用于更新隐藏状态h t ∈R n*h 。仍然使
用sigmoid 函数(5)来确定需要从先前的隐藏状态
和当前状态的新输入中保留哪些信息。通过将更新后的单元状态C t 传递给tanh 函数来确定要添加或删除的内容。结合tanh 函数,sigmoid 函数,最终得
到新的隐藏状态h t 如下所示。
o t =σ(W o ·[h t-1,x t ]+b o )h t =o t ·tanh
·(C t )2.2
GRU 模型
GRU 模型,即门控循环单元模型(Gated Recur⁃
rent Unit)[10],是一种循环神经网络模型,它是对标准循环神经网络(RNN)的改进,可以更好地捕捉时间序列中的长期依赖性。
GRU 模型中的每个单元包含了一个门控机
制,这个门控机制包括一个重置门和一个更新门。重置门决定了历史信息的保留程度。更新门决定了新信息的加入程度。这样,GRU 模型可以通过选择性地忘记和记住历史信息,更好地捕捉时间序列中的长期依赖性。
在GRU 模型中,每个单元都有一个隐藏状态和一个输出。隐藏状态被传递到下一个单元,并用于计算当前单元的输出。输出可以作为整个序列的预测或者用于其他任务。其结构如图2所示。
对于给定的时间步长t,假设输入是一个小批
量样本X t ∈R n×d (样本数:n,输入维度:d),前一个时
间步的输出的隐层状态为h t-1∈R n×h (隐藏层单元数:h)。然后,重置门R t ∈R n×h 和更新门Z t ∈R n×h 计算如下。
R t =σ(W xr x t +W hr h t-1+b r )
Z t =σ(W xz x t +W hz h t-1+b z )
其中,W xr ,W xz ∈R d ×h ,W hr ,W hz ∈R h ×h 是权重,b r ,
b z ∈R 1×h 是偏置。
为了获得候选隐藏状态h ~t ,r t 、h t-1进行Hadamard
乘积以减少先前状态的影响,然后将求和传递给tanh 激活函数。最后结合更新门,确定先前状态h t-1
和候选状态h ~t 的影响程度,其数学表达式为:
h ~t =tanh(W xh x t +W hh (r t ☉h t-1)+b h )
h t =(1-z t )☉h t-1+z t ☉h ~t
2.3
CNN 模型
卷积神经网络是一类前馈神经网络。在图像分
类或识别方面,卷积神经网络CNN [11]表现优异。它在二维领域的成功让一些研究人员在数据回归问题上探索一维CNN。2018年,Bai 等人[12]表明,对于许多序列建模任务,一维CNN 的表现通常与递归神经网络架构一样好或更好。在时间序列领域,它的预测只依赖于自变量的局部区域,
而不与长期的
图1LSTM
模型
图2GRU 模型
输入跨度相联系。一维CNN 在从整个数据集的短固定长度输入中提取特征时表现良好,其位置相关性较低。在一维CNN 层之后,我们将结果传递给最大池化层以防止过拟合。
图3中的卷积阶段显示了一组可学习的卷积核,后跟一个池化操作。这些卷积核通过将一组权重与输入进行卷积并应用非线性激活函数,从提供的输入中提取高级特征。然后将其输出送入池化层,该操作减少了卷积核提取的特征的空间大小,同时保留了每个卷积核学习到的主要特征。最后经过全连接层输出目标值。
本文使用Keras 深度学习框架,对于一维CNN 的卷积层(即时域卷积),该层将输入与卷积核按照单一的空域(或时域)方向进行卷积,Conv1D 层的输入数据形状是(samples,steps,input_dim)的3D 张量。例如(6,12)代表一个长为6的序列,序列中每个信号为12维的向量。Keras 中使用MaxPooling1D 层对时域1D 信号进行最大值池化。3基于LSTM 的瓦斯浓度多步预测模型3.1
模型整体设计
本文建立的模型对瓦斯浓度进行预测,包括以下几个步骤:读取数据、数据预处理、模型构建与训练、模型预测评价。主要流程如图4所示。
模型首先从数据库中获取矿井下的瓦斯浓度数据作为原始数据,将瓦斯浓度按照产生时刻进行
排序来构成完整的样本数据。接着对数据进行预处理,主要是缺失值处理、数据集划分、归一化、有监督化。其中,缺失值处理是数据预处理中非常重要的一步,它可以提高数据的可用性和可靠性,避免数据分析偏差,改善机器学习算法性能,以及提高数据分析效率。数据集划分指将数据集分为训练集、验证集和测试集。训练集来训练模型,验证集调整模型超参数,测试集评估模型性能。特征归一化指将特征缩放到统一的范围内,以便于模型可以更好地处理数据,有监督化是指将原始特征转换成模型可以处理的形式,本文将时间序列的瓦斯浓度数据转换成模型可以识别的有监督形式。3.2瓦斯浓度数据预处理3.2.1
缺失值处理
瓦斯浓度数据中存在一些缺失值,处理缺失值
可以使得数据集中的数据更完整,提高数据可用性和模型可靠性。由于序列数据的特性不宜直接删除缺失值。本文采用LOCF (last observation carried
forward),用前一时刻的数据填补后面的数据。3.2.2
数据集划分
正则化过滤器为了不破坏瓦斯浓度数据的时序性,将数据按
照时间戳顺序分为训练集、验证集、测试集。本文按照2个时间点将数据集分隔开,第一个时间点之前数据的为训练集,第二个时间点之后的数据作为测试集,中间部分则为验证集,划分比例分别为90%,5%,5%。3.2.3
归一化
本文采用最小-最大归一化(Min-Max Nor⁃
malization)将瓦斯浓度数据缩放到指定的范围内,并且保留了数据的相对大小关系。归一化数学公式如下:
x′=x-min
max-min
式中:x 是输入,max,min 分别为最大值,最小值,x′是无量纲化后的结果。3.2.4
有监督化
本文所使用的瓦斯浓度数据是每隔一分钟采集一次。如果将前15分钟的瓦斯浓度数据作为历史数据,对于短期预测,将滞后期为15分钟的瓦斯浓度作为当前t 时刻的特征,t 时刻作为目标值来
预测未来一分钟的瓦斯浓度。对于多步预测,将滞后期为15分钟的瓦斯浓度作为当前t 时刻的特征,从t 时刻开始的未来15
分钟的瓦斯浓度作为
图3
一维卷积神经网络模型
图4
基于LSTM 的瓦斯浓度预测流程
目标值来预测未来15分钟的瓦斯浓度趋势。本文采用后者来实现多步预测。
3.3损失函数和超参数设定
本文在训练模型时,以均方误差(MSE)为损失函数,Adam为优化器。Adam是专门为训练深度学习模型而创建的,它结合了自适应梯度算法(AdaGrad)[13]与稀疏梯度配合良好的优点,以及RM⁃SProp在非平稳目标上表现出的优点。
我们根据每个模型调整超参数。每个模型的epoch数量为30。并且在训练时采用早停法(early stopping)。EarlyStopping是一种在机器学习中常用的正则化技术。它可以帮助我们在训练模型时避免过拟合,同时也可以减少训练时间和提高模型性能。在每次迭代过程中,我们可以使用验证集的性能指标来监控模型的训练情况,当模型在验证集的表现没有变得更好时甚至下降,就自动结束模型的训练来提高效率。
对于超参数的设置,本文采用控制变量法。根据已知的模型结果在验证集上对超参数进行调整,从而确定最优的超参数。对于LSTM、GRU,本文将它们的隐藏层数、隐藏层神经元数、批量大小分别设置为1、5、32。对于CNN,过滤器、卷积核大小分别为32、6。最大池化层内核大小为2。
4实验与分析
实验中使用的数据来自于贵州省某煤矿,时间跨度为2021年1月14日的10时49分至2021年4月9日的19时26分,数据是从井下瓦斯浓度传感器中采集得到的。瓦斯浓度每分钟采集一次。样本数据量为103779条。样本按90%,5%,5%拆分为训练集,验证集和测试集。
4.1前向验证
关于模型的评价,许多以前的研究很少提及他们的测试模型。这很容易让读者误解统计指标和结论。在
本文中,我们采用前向验证来预测接下来15个时间步的观察,给定前15个时间步的观察。即用前15分钟的瓦斯浓度来预测后15分钟的瓦斯浓度。前向验证中有两种窗口。在本文中,我们选择扩展窗口。如图5第一行所示,我们先输入15分钟的已知数据来预测16分钟到30分钟的数据。第二行表示我们将输入从15分钟扩展到30分钟,然后预测数据为接下来的15分钟。基于图5中浅灰方块所指模型的所有预测都被存储起来,并最终与已知值进行比较。4.2统计指标
为了能够测试模型的预测能力,本文选择了两个常用的统计指标并比较它们在测试集中的值。它们分别是均方根误差(RMSE)、平均绝对误差(MAE),对于RMSE和MAE,越接近0表示性能越好。均方根误差、平均绝对误差的数学表达如下: RMSE=1n∑t=1n·(y t-y′t)2
√
MAE=1n∑t=1n·|y t-y′t|
式中:y t为t时刻的真实值,y′t为对应的t时刻的预测结果。n为预测的数据总数。
4.3结果分析
本节介绍了使用LSTM预测未来15分钟的瓦斯浓度的结果,以GRU、CNN为对比,由于测试集数据量过大,本文仅展示部分时间段内的瓦斯浓度多步预测结果。由图6可知,在4个多小时内, LSTM的预测准确
度最高,其次是GRU模型,最后是CNN模型。由表1可以看出,LSTM模型的均方根误差和平均绝对误差小于GRU模型,LSTM模型的预测结果与真实值最接近。
为了比较LSTM、GRU、GRU在瓦斯浓度多步预测中的表现,本文还绘制了它们的预测误差随时间步的变化情况。图7、8显示模型的预测能力随着时间步长的增加而逐渐下降。比如第10分钟及之后的可靠性和准确性远小于前10分钟。LSTM在测试集中每个时间步的平均RMSE和MAE最低。这提供了强有力的证据支持LSTM
在本研究中优
图5
模型的测试结构
图6不同模型的瓦斯浓度多步预测结果
模型RMSE MAE
LSTM0.0280.014
GRU0.0310.019
CNN0.0320.019
表1不同模型预测误差对比
于GRU 和CNN。
5总结
本文根据采集到的瓦斯浓度数据构建数据集,采用LSTM 模型进行多步预测,与GRU 和CNN 模型相比,
LSTM 模型表现出了优异的性能。整体预测准确度最高。但本文依旧存在不足之处,比如仅仅采用瓦斯浓度这一单一变量来训练LSTM 模型,但在实际上影响瓦斯浓度变化的因素还有很多,下一步将考虑到其他变量的影响,如压力,风速等来进一步降低模型的预测误差。———————————————————参考文献:
〔1〕叶光莉.定性比较分析法在瓦斯爆炸事故分析
中的应用[J].煤炭技术,2022,41(02):125-127.〔2〕曹家琳,崔永国.煤矿瓦斯突出事故致因分类研
究[J].煤矿安全,2018,49(04):229-232.
〔3〕司鹄,赵剑楠,胡千庭.大数据理论下的煤与瓦斯突出事故致因分析[J].西安科技大学学报,2018,
38(04):515-522+537.
〔4〕张震,朱权洁,李青松,等.基于Python 的瓦斯浓
度ARIMA 预测模型构建及其应用[J].华北科技学院学报,2020,17(02):7-9.
〔5〕孙卓越,曹垚林,杨东,等.基于长短时记忆神经网络的回采工作面瓦斯浓度动态预测[J].煤矿安全,2019,50(12):6-10.
〔6〕刘莹,杨超宇.基于多因素的LSTM 瓦斯浓度预测模型[J].中国安全生产科学技术,2022,18(01):
108-113.
〔7〕林旭杰,孟祥瑞.基于ARIMA 时间序列的瓦斯
浓度预测研究[J].黑龙江工业学院学报(综合版),2022,22(07):77-83.
〔8〕刘晓悦,刘婉晴,郭强.基于云计算的煤矿瓦斯浓度短期预测[J].控制工程,2018,25(08):1364-1369.
〔9〕Hochreiter S,Schmidhuber J.Long Short -Term Memory [J].Neural Computation,1997,9(08):1735-1780.
〔10〕Cho K,Merrienboer B V,Gulcehre C,etal.
Learning Phrase Representations using RNN Encoder -Decoder for
Statistical
Machine
Translation[J].Computer Science,2014.
〔11〕Nils Ackermann.
“Introduction to 1D Con⁃
volutional Neural Networks
in
Keras
for
Time Sequences ”.In:(Sept.2018).URL:daudience/introduction -to -1d -convolutional -neural -networks -in -keras -for-time-sequences-3a7ff801a2cf.
〔12〕Bai,S.,Kolter,J.Z.,&Koltun,V.(2018).
An Empirical Evaluation of Generic Convolu⁃tional and Recurrent Networks for Sequence Modeling.ArXiv,abs/1803.01271.
〔13〕Duchi J,Hazan E,Singer Y.Adaptive Sub⁃
gradient Methods for Online Learning and Stochastic Optimization[C]//
2011:257-269.
图7测试集上关于每个时间步的平均
RMSE
图8测试集上关于每个时间步的平均MAE
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论