收稿日期:2020⁃01⁃11;修回日期:2020⁃04⁃10㊀㊀
作者简介:屈松林(1996⁃),男,四川广安人,硕士研究生,主要研究方向为无线通信数据处理;刘林(1974⁃),女(通信作者),四川资中人,副教授,硕导,博士,主要研究方向为无线定位技术㊁专用移动通信技术等(lliu@swjtu.edu.cn).
基于波形字典的铁路空口监测数据压缩算法
屈松林1,刘㊀林1,2†
(1.西南交通大学信息科学与技术学院,成都611756;2.中铁第一勘察设计院集团有限公司轨道交通工程信息化国家重点实验室,西安710043)
摘㊀要:空中接口是铁路无线通信中与列车之间的接口,该接口是分析无线干扰㊁无线信道的拥塞等网络故障问
题的最佳结合点㊂为了监测该接口,必须采集其数据,而随着铁路多站关联的智能干扰监测系统的建立,空口监测的数据量将迎来爆发性地增长,因此需要寻一种适合于铁路无线通信空口监测数据的压缩算法㊂利用USRP在铁路沿线采集到的空口数据对哈夫曼编码㊁BZip2㊁LZMA等常见数据压缩算法进行了验证,结果表明这些算法对该类型数据压缩效果欠佳,使用哈夫曼编码压缩率为14%,
基于字典的压缩算法中压缩率最高为13%㊂为了提高压缩率,满足空中接口监测需要,提出了基于波形字典的有损压缩算法㊂结果表明,使用波形字典可以得到超过80%的压缩率㊂波形字典是有损压缩,可能出现过大的重构误差㊂但当阈值或者波形匹配规则选择恰当时,波形字典压缩算法应用于铁路无线通信数据压缩可以获得极高的压缩率,并且能够保持原始数据的信号特征㊂关键词:无线电子通信;铁路;数据压缩;字典;仿真
0㊀引言
我国目前的CTCS⁃3列车控制系统使用GSM⁃R数字移动通信系统来承载列车和地面数据交互㊂通过对GSM⁃R网络进行监测,及时发现网络中存在的故障和隐患,并进行相应的优化处理,可以保证网络的可靠运营,提高运输安全[1]㊂目前对GSM⁃R网络的监测手段主要是通过对Abis接口㊁A接口及Pri接口的监测来实现的,对于空中无线接口Um口的监测研究较少[2]㊂Um口是直接面向无线信道的,而无线网络环境更为复杂,有着更多的不稳定性,同时,因为的所有数据都先经过Um口接收,所以它的协议与消息类型更为复杂,它才是分析无线干扰㊁网络覆盖㊁无线信道拥塞和车地设备故障最佳结合点,也是唯一能够解析无线测量报告㊁无线系统消息,实现信号的频谱分析,实现电路域和分组域信令和业务并行监测的接口㊂因此Um接口的监测是一个重点,通过对Um接口的动态监测,可以更加准确地定位网络故障㊁分析无线干扰㊂
要进行Um接口的动态监测,首要问题就是采集Um接口上的数据,按照奈奎斯特采样定理进行采样,会得到相当大的数据量㊂在宽带干扰监测与采集前端硬件平台能力支撑下,就单台前置机采集的数据量,以每秒采样上/下行各4MB带宽GSM⁃R全频段数据为例,以奈奎斯特采样率采样,则采样率至少为8MHz,采样后数据按照一个点4Byte存储,则数据量可以达到32MB㊂而多站关联㊁网络化监测系统建成后,数十台前置机将每天汇聚上TB乃至几十TB频谱数据㊂如何克服铁路专用网络带宽限制㊁有效实时传输前端采集数据并智能化再现频谱和干扰模式,是当前 前端采集 专网传输 实时存储 智能分析 统一智能干扰监测系统[3,4]面临的巨大难题㊂因此寻一种适合于铁路空口干扰监测数据的算法是非常重要的㊂
目前并没有针对铁路无线通信的专用压缩算法,所以实际使用的压缩算法都是一些通用的压缩算法,文献[5]讨论了一些常见算法对铁路通信中的车次号㊁调度命令和DMS三类消息数据的压缩效果㊂本文首先讨论了一些常用数据压缩算法应用于铁路空口监测数据的效果,在此基础上提出了波形字典算法,并进行了仿真验证㊂波形字典算法主要是通过波形分段匹配,把相似度达到阈值的波形统一表示,从而达到压缩的目的㊂目前,已经有许多计算两段数据的相似度的算法,如NID(normalizedinformationdistance)与NCD(normalizedcompressiondistance)[6]算法,PRDC(patternrec⁃ognitionbasedondatacompression)[7]和McDCSM(modelconditione
ddatacompressionbasedsimilaritymeasure)[8]等㊂在2019年数据压缩会议中,也有研究将模式匹配运用到传感器网络的多维数据压缩中[9],并且取得了良好的效果㊂因为波形字典压缩算法中每段波形的数据量较小,所以本文并未采用上述较为复杂的相似度算法,而是利用波形数据的差值和导数差值来衡量波形的相似度㊂1㊀常用数据压缩算法概述
常用压缩算法按照压缩结果可以分为无损压缩算法和有损压缩算法㊂无损压缩指通过消除统计冗余实现数据的缩减,在数据
解压时能够完全还原源数据㊂有损压缩指在允许一定程度信息损失的前提下,移除一些不重要的信息,可以达到更大程度上的数据压缩㊂
无损数据压缩算法按照压缩模型主要分为基于统计压缩算法和基于字典压缩算法两类㊂基于统计压缩算法主要包括游程长度编码[10]㊁哈夫曼编码[11]㊁算术编码[12]等;基于字典的压缩算法主要包括LZ77编码[13]㊁LZW算法[14]等㊂
1.1㊀游程长度编码
游程长度编码的思想可以简单地概括为去重,即在一个待压缩的字符串中,有连续重复多次的字符,则使用重复次数加字符代替连续多个相同的字符,如:ssssssooogggg,压缩后即为6s3
o4g,原本需要13个字符表示的字符串,现在只需要6个字符㊂但是应用于铁路无线通信时,游程编码就不合适了,因为其需要压缩的文件是采样后的数据,对一个调制后的GMSK信号或其他调制方式的无线信号都是以正弦波为基础,所以基本不会出现前后两个采样点值相等的情况,达不到去重的目的㊂
1.2㊀哈夫曼编码
哈夫曼编码是以统计为基础,其主要思想是通过变长编码来对数据进行编码,出现频率较高的字符就用较短的编码来表示,出现频率低的字符用长编码表示,从而达到节省空间的目的㊂哈夫曼算法最重要的是构建哈夫曼树,首先统计各个字符出现的频率,以频率为权重,将权重最小的两个符号合并得到一棵树,树的根为两个符号的权重之和,子节点为对应的符号,将得到的新树作为一个新符号,继续合并权重最小的两个符号,循环下去直到最后所有符号都在一棵树上㊂哈夫曼树的每个叶子节点表示一个字符,从根节点开始用0表示左分支,用1表示右分支,每个字符的编码用从根节点到该节点的路径记录表示㊂如图1即为一棵哈夫曼树,其中各个字符的频率以及使用哈夫曼算法的编码见表1㊂
表1㊀字符频率与编码字符出现次数编码S
15
010O1810N3500
G100111L2511
I50110
通过表1的哈夫曼编码来编码表中的数据需要使用261bit,而未压缩时使用ASCII码表示表中数据需要864bit㊂所以哈夫曼编码对于字符频率不同的数据可以起到有效的压缩作用,频率相差越大时,压缩效果越好㊂而空口数据是从模拟信号采样而来,信号夹带着随机的噪声,采样数据应该集中于某些区别,但是在这些区域内是随机分布,所以当采样精度较高时,将这些区域拆分成了多个小区域,此时字符频率相差不大,压缩效果也就不那么好㊂1.3㊀基于字典的压缩算法
基于字典的压缩算法同基于统计的压缩算法相比更为通用,压缩效果也更好㊂LZ77压缩算法是最早被提出的基于字典的压缩算法,它有着许多的派生算法,比如LZ78㊁LZW算法等㊂在PKZip㊁RAR㊁WinZip㊁GZip㊁ARJ㊁LHArc等一些日常使用的通用压缩软件中,都可以看到LZ77算法的影子㊂
LZ77算法采用的字典为一个动态的滑动窗口,而把待压缩的数据放入一个预读缓冲器当中(也是一个滑动窗口)㊂字典是一个历史缓冲器,其中存放的是之前N个数据㊂预读缓冲器是用来存放待压缩的N个数据点㊂压缩时需要在字典中寻与预读缓冲器中最匹配的数据,即最长的匹配长度的数据㊂每次输出的数据为(offset,length,char),offset表示匹配的字符串开始距离
字典边界的长度;length表示最长匹配的字符串长度;char表示下一个字符,即第一个不匹配的字符㊂
例如 sssssossooogggg 使用LZ77压缩,字典长度为4Byte,第一次压缩时字典为空,预读缓冲器为 ssss ,输出为(0,0,s),滑动窗口后,字典为 s ,滑动窗口为 ssss ,输出为(1,4,o),这里虽然字典只有s一个字符,但是从第一个往后走4Byte都可以匹配,即能匹配整个 ssss ,可以先把(1,4,o)看做(1,1, )从而使用字典的第一位扩大了字典,如此便可以表示后面的字符㊂继续滑动窗口,字典为 ssso ,预读缓冲区为 ssoo ,输出为(3,3,o)㊂因为空口数据携带着噪声,所以即使某一段去掉噪声后和字典中一模一样,但是由于噪声的随机性,使得它们在数值上并不完全一样,所以所得到的压缩率比理想情况会低很多㊂
Bzip2是一个基于Burrows⁃Wheeler变换的压缩算法,它通过Burrows⁃Wheeler变换将经常重复出现的所有字符序列转换为相同的字母字符串,然后使用霍夫曼编码对变换后的数据编码,Bzip2的效果要比LZ77更好㊂
PPMd算法是基于部分匹配预测模型(predictionbypartialmatching,PPM)的数据压缩算法㊂PPMd通过统计构建出上下文索引树,使用输入的一部分数据来预测后续符号的概率,最后将预测的概率值运用区间编码器编码㊂
LZMA压缩算法是对LZ77算法的一个改良优化,LZMA同LZ77一样,也使用(offset,length,char)格式,但是LZMA在到匹配时,LZMA会将(offset,length,char)进行区间编码后,再写入到输出流中㊂LZMA2是LZMA的一种改进,提升了对不可压缩数据的压缩率㊂
2㊀压缩算法对铁路无线空口监测数据的压缩性能比较
㊀㊀本章利用实测数据,对各压缩算法在处理铁路无线通信空口监测数据时的性能进行对比分析㊂此次采用的数据是通过USRP在铁路沿线采集到的GSM⁃R信号数据,采样率为1081.33KHz,数据格式为IQ数据交替出现,使用float类型保存㊂并且去除掉了FCCH(载波同步信道)所属帧的数据和GSM⁃R中8.25bit的保护带的数据,本文数据处理时并未如文献[15]对逻辑信道或信令进行拆分分类,而是把从当前频段采集到的所有数据一起进行分析,所以得出的结果更为通用㊂
其中BZip2采用的字典大小为900KB,PPmd采用的字典大小为192MB,LZMA和LZMA2采用的字典大小为64MB㊂仿真中使用的文件大小为107071488bit,压缩率的定义为:压缩率=(压缩前的文件大小-压缩后的文件大小)/压缩前的文件大小,仿真的各个算法的压缩率如表2所示㊂
表2㊀不同算法的压缩率
算法名称压缩后的文件大小/bit压缩率
哈夫曼编码919111680.1416
BZip2987517520.0778
PPmd943231590.1191
LZMA929182830.1322
LZMA2929290420.1321
㊀㊀从表2数据可知,这些常见的通用算法在对铁路空口监测数据压缩时的压缩率均不高于0.15,和文献[15]的结果大致吻合,即哈夫曼编码应用于铁路空口监测数据时效果反而比基于字典的压缩算法效果更好㊂
由以上仿真结果可以看出,常见的一些压缩算法对空口数据的压缩率都不高,为此,本文提出了波形字典算法,通过波形字典算法可以有效地压缩数据,并且保留数据特征㊂
3㊀波形字典算法
3.1㊀算法描述
无论是哈夫曼编码还是基于字典的压缩算法采用的都是无损压缩方式,由于无损压缩率太低,所以本文认为在压缩时可以采用有损的压缩方式,只要带来的损耗不超过通信系统的噪声容限,依靠通信系统处理噪声的能力,对后续的信号分析理论上不会存在影响㊂基于此想法,本文提出一种基于波形分段匹配的压缩算法 波形字典压缩算法㊂该算法的主要想法是通过把原始信号分段,通过段落与字典段之间的相关性来决定此分段是否可以由字典索引来进行表示㊂因为GSM信号是采用GMSK调制产生的,而GMSK信号是由MSK信号通过高斯滤波器得到的㊂最初的MSK信号的调制的公式为
sk(t)=coswct+akπ2T
b
+φk
æ
è
ç
ö
ø
÷㊀kTbɤtɤ(k+1)Tb(1)其中:ω为载波频率;a为输入码元,为+1或者-1;T为码元周期;φ为码元常数,确保MSK信号在t=kT时刻信号的相位是连续的,其具体计算公式为
φk=kπ2(ak-1-ak)+φk-1=
φk-1㊀㊀㊀㊀ak-1=ak
φk-1ʃkπak-1ʂak
{(2)
令初始的码元常数为0,那么可以得出φ(k)=ʃπ,k=0,1,2, ㊂还可以计算出MSK信号的前后码元间存在相关性,在每个码元周期的相位差为ʃπ/2㊂所以在一个码元开始时,可能存在0㊁π/2㊁π㊁3π/2四种波形,但是只要第一个码元确定后,第二个码元周期的初始相位就只能在一个码
元周期的初始相位上加上或者减去π/2,即后面的码元波形只有一种㊂GMSK是MSK通过高斯滤波产生的,理论上的高斯滤波器带宽为无限长,但在实际的高斯滤波器中通常使用3Tb或者5Tb截断㊂使用5Tb截断时,5个前后码元的相关组合共有32种,而初始码元波形有4种,所以此时GMSK信号的波形种数不低于128种㊂综上,在GSM信号中,信号波形分段后为有限种波形,但是由于噪声㊁多普勒平移等因素存在,可能造成同一种波形呈形状上会有些许的不同㊂即设理论波形为n种,则实际波形可能有n+k中,波形字典的理想情况是使用信号对应的n种理想波形代替实际信号中的n+k波形,这样不仅可以减小噪声等小幅度干扰,当有强干扰出现时,因为原始信号的理论波形中不能到干扰存在时的对应波形,可以更准确地识别干扰,并且不止能够从频谱发现,因为波形字典是通过时域波形匹配工作的,所以还能准确地识别干扰产生的时间点㊂
本文中的波形字典就是通过忽略实际数据波形和字典波形在一定范围内的不同,把实际波形使用字典中的波形替代㊂在本文中波形字典是由原始信号生成而来,字典的元素为波形的数值和对应波形最新的出现时间㊂使用伪代码表示为
dictionary_element{
㊀㊀wavew;㊀//波形数据
㊀㊀timeapprar_time;㊀//此波形最新的出现时间};
字典的伪代码表示为
dictionary{
㊀㊀dictionary_element㊀wave_set;㊀//波形数据的集合
㊀㊀dictionary_capacity㊀capacity;㊀//字典能容纳的波形个数㊀}
压缩时首先设置好字典的容量,本文中字典容量设为256,编号为1 255,0号表示插入新的波形㊂然后在得到信号采样数据时,通过同步信道(SCH)到帧的开始处,从这一点开始,按照信号的过采样率,把数据分段,本文中的过采样率为4倍,故把数据拆分为每4个点一组,一组即为一个波形㊂在一段新波形输入时,在字典所存储的波形中查与当前波形对应位置差值绝对值的平均值加上导数差值的绝对值的平均值最小编号的波形,具体计算公式为
difference=|orij-di|+|oriᶄ(j)-fᶄ(i)|(3)其中:ori表示原始数据的波形;d表示字典中的波形㊂
并且只有当计算出的差值小于阈值时,才使用该匹配段编号表示实际数据波形,并且修改字典中此波形对应的时间为当前时
间,否则使用0编号此波形后面加上实际数据的值,即若实际波形为(121,232,343,545),在字典中不到匹配的波形,则将该段波形数据编码为0|(121,232,343,545)㊂如果此时字典容量未满,则在字典中插入此波形和当前的时间,表示这个波形的出现时间;如果此时字典已经填满,则将字典中出现时间最早的那一个波形替换掉,这样做的目的是因为,无线信道的环境可能造成即使同一个理论波形,比如当前出现了比较严重的干扰,呈现出来的差值也超过了本文设定的阈值,这样更能适应信道的改变,更能较好地保留原始信号的特征㊂
3.2㊀算法仿真
本次仿真数据使用的是与第2章所使用的相同数据,阈值为0.06ˑMAX_amplitude(MAX_amplitude表示波形最大幅值,下文使用MA表示)仿真结果如表3所示㊂
表3㊀波形字典的压缩率字符串长度压缩
算法名称压缩后的文件大小/bit压缩率波形字典
16478066
0.8461
㊀㊀由表3结果可以看出波形字典压缩可以得到相对较高的压缩率,但是因为波形字典是有损压缩,所以不只需要比较压缩率,还需要比较数据的还原度㊂
本文将重构数据和原始数据在时域上进行对比,本文随机选择了两个时隙进行观察,因为波形字典是将数据分段匹配,所以作图时也采用分段观察的方式,并截取了当前时隙图中某段进行放大展示㊂对比结果如图2 4所示㊂图中红线段表示重构数据,蓝线段表示原始数据(见电子版
)㊂
由图2 4结果可以看出,重构数据与原始数据虽然不是完全重合的,但是两者的差值非常小,并且重构数据基本能够保持原始数据的变化趋势㊂在无线通信中,通常是通过信号的变化趋势来进行解调分析,所以在具体值上有些许差别,对最后解调结果影响不大,但是波形形状不同可能得到错误的结果㊂为了验证以上误差对解调性能的影响,本文将原始数据和重构数据分别进行解调处理,将两者的结果做差,并在MATLAB中使用茎干图来画出差值,结果如图5所示㊂
由图5可以看出,原始数据的解调结果和重构数据完全一致,
在解调后得到的3345984个点中,没有与原始数据解调有差别的点存在㊂因为重构数据的变化趋势和原始数据基本一致,只有一些非常细微的差别,而无线通信系统的容噪能力允许数据在理想数据有一些差别的情况下能够得到与理想数据一样的结果㊂
信号的频谱分析是在无线通信的一个关键分析手段,所以本文将重构数据和原始数据的频谱也进行了对比,使用MATLAB分别画出了原始数据和重构数据的I支路和Q支路的频谱,结果如图6㊁7所示
㊂
由图6㊁7可以看出重构数据的频谱和原始数据的频谱也基本一致,虽然在每个频率分量的值不完全相等,但是在此数量级下,
误差基本可以忽略
㊂
为了比较阈值的影响,本文分别将阈值增大5倍和10倍,改为0.3MA和
0.
6MA,重新进行了仿真,结果如表4所示(表中简单使用0.3㊁0.6区分不同阈值)㊂
表4㊀阈值改变后波形字典的压缩比算法名称压缩后的文件大小/bit
压缩率波形字典(0.3)66939120.9374847波形字典(0.6)
6692370
0.9374962
㊀㊀由表3㊁4数据对比可以看出,阈值为0.3(0.6)MA时得到的压缩率升高了,这是符合的,因为阈值低,波形匹配更严格,从而有很多波形编号为0加原始数据,而阈值高时,减少了不匹配波形,有更多波形可以使用字典波形替代;另外阈值为0.3MA与0.6MA的压缩率并不大㊂
选取与前文中相同的位置数据进行重构数据和原始数据的时域对比,结果如图8 12所示㊂
由图8 13结果和阈值为0.6MA的结果对比,可以发现,原始数据与重构数据的差别明显增大,虽然大多数重构数据仍然能够维持原始数据的波形变化,但是在个别地方,重构数据和原始数据波形的变化形式完全不同,如图9中第55个点和第60个点之间的波形,原始数据呈现的是下凹的形式,而重构数据是呈现上凸㊂
在图13中的第290个点和第300个点之间处也出现了类似的情况;进一步观察可以发现,0.3MA中波形相反的情况少于0.6MA,并且重构数据和原始数据也更接近㊂同之前一样,本文将原始
数据和重构数据分别进行解调处理,将两者的结果做差,并在
MATLAB中使用茎干图来画出差值,如图14㊁15所示
㊂
通过图14㊁15两者的解调结果可以直观地看到有相当大的一部分点存在着差异,图14
中在解调后得到的3345984个点中,有57个点存在差别,错误率为0.0017%,而图15中有60792个点的结果存在差别,错误率约为1.816%,错误率非常高㊂虽然在时域分析中只有个别波形存在着形状的差异,但是因为GMSK的每个波形并不孤立,解调时需要计算相位的变化,所以,在一个波形形状相差太多的时候可能造成它之后的波形解调的初始相位变化,从而导致后续出现一连串的错误;另外,虽然两者的压缩率差距不大,但是解调结果差距很大,这是因为0.6MA时当字典波形与实际波形之间的形变差距已经能影响结果了,但是因为阈值设置过大,所以不能识别到此种错误㊂将频谱进行对比,结果如图16㊁17所示
㊂
从图16㊁17可以看到,改变阈值后,重构数据频谱与原始数据频谱出现了明显的差别㊂首先,IQ两支路的频谱和原本信号频谱的形状大致相似,但是重构数据的频谱在边带并不光滑,有许多异常的波峰出现,并且重构数据频谱在某些频率点更稀疏,如Q支路频谱的第三高的波峰处㊂其次,无论是I路还是Q路都造成了频谱中出现了极大的 干扰 ,且其幅值大于原本频谱中的峰值,在I支路的频谱中, 干扰 频率分量是原本频谱峰值的两倍左右;另外,0.3MA的Q支路中,原始频谱中的第二高的频率分量幅值明显减少;最后,由图17㊁18的对比来看,0.3MA的频谱中, 干扰 频率的峰值明显小于0.6MA且更光滑,说明不恰当的匹配数量减少了㊂因为波形字典采取的是使用字典中与原始数据波形差值最小的,且差值小于设定阈值的波形去替代原始波形㊂当某一个原始波形输入之后,在字典
中此时并未记录该波形对应的理想波形,但是又受到干扰或噪声产生形变的某一波形与此波形的差值在字典的所有波形中最小,那么当阈值设置过大时,不能分辨出这个形变的 干扰波形 并不能替代原始波形,而会使用这个波形替代原始数据,从而造成原本可能只出现一次的干扰再次出现,即增大了干扰的出现频率,经过多次替换之后造成此干扰频率分量增大㊂从而造成某一个在原始频谱中幅值很小的频率分量在重构数据频谱中幅值很大㊂在频谱的边带区域,原始信号数据会更光滑一些,重构数据要抖动一些是由于使用波形字典压缩时,只要信号与字典的差值没有超过阈值,信号便会被以前的信号替代,字典没有进一步校正㊂如果在字典波形中带有某个频率的分量,但是在被替代信号中没有,那么替代后就会造成字典中的对应频率分量增加,所以会造成峰值较高,出现抖动㊂由于同样的原因,某些在被替代波形中出现而字典中不存在的频率分量,在替代后的重构数据中该频率分量便不存在或者减少了,所以造成了重构数据更加稀疏或者某些分量取值降低㊂但是这些不同大多数情况下不会造成信号特征的改变,不会引起解调数据解析错误㊂
综上,波形字典算法可以有效地压缩铁路空口监测数据,但是由于是有损压缩,所以当阈值选择不正确时会造成重构误差增大,良好的阈值选择和波形匹配规则,可以使得重构误差忽略不计,对后续分析不带来影响㊂当阈值选择不合适时,也会造成重构误差的增加,所以需要调整阈值或波形匹配规则达到(下转第244页)
中最小的数据值;xmax为当前数据中最大的数据值㊂
本文混合模型中的卷积层和全连接网络使用ReLU函数作为激活函数,优化器采用AdamOptimizer,损失值计算使用稀疏分类交叉熵算法,其训练集和测试集的损失值及识别率的变化情况如图6所示,其中loss和val_loss分别代表训练集和测试集的损失值变化曲线,accuracy和val_accuracy分别代表训练集和测试集的识别率
变化曲线
㊂
从该图中可以看出CNN⁃BILSTM混合模型的收敛速度快,并且训练集和测试集的识别率均到达了100%㊂
为了进一步验证该混合模型的有效性与可靠性,用标准的LSTM神经网络对该数据进行训练,训练后的损失值及识别率情况如图7所示㊂
从标准LSTM损失值及识别率变化曲线中可以看出,标准LSTM神经网络虽然最后测试集识别率也达到了100%,但训练集识别率最终为97.5%,没有CNN⁃BILSTM混合模型高,并且收敛速度较慢,验证了CNN⁃BILSTM混合模型的有效性与可靠性㊂4㊀结束语
本文研究出了一种CNN⁃BILSTM混合模型,并将其应用于工业控制系统的ARP攻击入侵检测中㊂该模型先采用CNN,在不破坏数据时序特征的情况下,将数据中大量与攻击无关㊁关联性不强的报文进行过滤,提取出数据中的显著特征㊂再利用BiLSTM神经网络在可以发现ARP攻击的同时,还可以将网络将来的状态也作为预测时的参考条件,提高了预测准确率㊂最后使用全连接网络和softmax函数将检测结果进行输出,并以某冶金工业控制系统为对象,验证了该模型与标准的LSTM神经网络相比,拥有收敛速度更快㊁训练速度更快和预测准确率更高等优点㊂
参考文献:
[1]姚羽,祝烈煌,武传坤.工业控制网络安全技术与实践[M].北京:
机械工业出版社,2018.
[2]张文安,洪榛,朱俊威,等.工业控制系统网络入侵检测方法综述
[J].控制与决策,2019,34(11):2277⁃2288.
[3]赖英旭,刘增辉,蔡晓田,等.工业控制系统入侵检测研究综述
[J].通信学报,2017,38(2):143⁃156.
[4]JuanER,CristinaA,RodrigoR,etal.Currentcyber⁃defensetrends
inindustrialcontrolsystems[J].Computers&Security,2019,87(12):101561.
[5]YounesOS.Modelingandperformanceanalysisofanewsecuread⁃
dressresolutionprotocol[J/OL].InternationalJournalofCommuni⁃cationSystems.(2017⁃08⁃01)[2019⁃10⁃20].https://doi.org/10.1002/dac.3433.
[6]HannaD,VeeraraghavanP,PardedeE.PrECast:anefficientcrypto⁃
freesolutionforbroadcast⁃basedattacksinIPv4networks[J].Elec⁃tronics,2018,7(5):65.
[7]PrabadeviB,JeyanthiN.TSCBA⁃AmitigationsystemforARPcache
poisoningattacks[J].Sciendo,2018,18(4):75⁃93.
[8]SrinathD,PanimalarS,JerrinSA,etal.Detectionandpreventionof
ARPspoofingusingcentralizedserver[J].InternationalJournalofComputerApplications,2015,113(1
9):26⁃30.
[9]KaurR,SinghEG.AsecurityapproachtopreventARPpoisoningand
defensivetools[J].InternationalJournalofComputerandCom⁃municationSystemEngineering,2015,2(3):431⁃437.
[10]SinghJ,GrewalV.AsurveyofdifferentstrategiestopacifyARPpoi⁃
soningattacksinwirelessnetworks[J].InternationalJournalofComputerApplications,2015,116(11):25⁃28.
[11]郭茂祖,王鹏跃,赵玲玲.基于深度学习的出行模式识别方法[J].
哈尔滨工业大学学报,2019,51(11):1⁃7.
[12]尹霄丽,郭翊麟,崔小舟,等.基于卷积神经网络的多OAM态识别
方法[J].北京邮电大学学报,2019,42(1):47⁃52.
[13]王恩德,齐凯,李学鹏,等.基于神经网络的遥感图像语义分割方
法[J].光学学报,2019,39(12):85⁃96.
[14]陈莉明,邓德祥.混合深度卷积神经网络对人脸年龄的分类[J].
华中科技大学学报:自然科学版,2019,47(3):104⁃108.
[15]周飞燕,金林鹏,董军.卷积神经网络研究综述[J].计算机学报,
2017,40(6):1229⁃1251.
[16]YingWangyang,ZhangLei,DengHongli.Sichuandialectspeechre⁃
cognitionwithdeepLSTMnetwork[J].FrontiesofComputerSci⁃ence,2020,14(2):378⁃387.
[17]舒帆,屈丹,张文林,等.采用长短时记忆网络的低资源语音识别
方法[J].西安交通大学学报,2017,51(10):120⁃127.
[18]周博通,孙承杰,林磊,等.基于LSTM的大规模知识库自动问答
[J].北京大学学报:自然科学版,2018,54(2):286⁃292.
[19]王文琦,汪润,王丽娜,等.面向中文文本倾向性分类的对抗样本
生成方法[J].软件学报,2019,30(8):2415⁃2427.(上接第269页)压缩率和重构误差的平衡㊂关于最优阈值的分析
在后续研究中进行深入探讨㊂
4㊀结束语
本文基于USRP在铁路沿线采集到的空口数据,对常见的一些压缩算法应用于铁路空口数据的压缩效果进行了实验,为提高压缩率,提出波形字典压缩算法,并在不同的匹配阈值下进行了实验,通过对结果的分析得出下列结论:
a)通过对常见的压缩算法的结果对比,可以发现哈夫曼编码应用于铁路无线通信数据的压缩效果比基于字典的压缩算法效果更好㊂
b)由常见压缩算法的实验结果,可以得到常见的压缩算法应用于铁路无线通信数据的压缩效果都不理想㊂
c)在合理选择波形匹配阈值的情况下,波形字典算法可以获得比较好的压缩率,并且能够保留原始信号的特征㊂
d)波形字典算法中波形匹配阈值恢复数据有着非常大的影响,不仅关系着压缩率,并且也影响着重构误差㊂后续研究中需要对最有阈值的分析进行深入探讨㊂
参考文献:
[1]吴宇,韩蕾.基于GSM⁃R网络空中接口动态监测系统研究[J].铁
路通信信号工程技术,2014,11(2):26⁃31.
[2]郭桂芳.GSM⁃R无线空中接口动态监测系统[J].中国铁路,2012
(6):22⁃24.
[3]刘大为,郭进,王小敏,等.中国铁路信号系统智能监测技术[J].
西南交通大学学报,2014,49(5):904⁃912.
[4]张晋渊.中国铁路信号系统智能监测技术[J].科技创新导报,
2018,15(3):7⁃8.
[5]王开锋,蒋韵,王祖元,等.压缩算法在GSM⁃R分组域数据传输中
的应用研究[J].铁路计算机应用,2015,24(10):51⁃52.
[6]LiMing,ChenXin,LiXin,etal.Thesimilaritymetric[J].IEEE
TransonInformationTheory,2004,50(12):3250⁃3264.
[7]WatanabeT,SugawaraK,SugiharaH.Anewpatternrepresentation
schemeusingdatacompression[J].IEEETransonPatt
ernAnalysisandMachineIntelligence,2002,24(5):579⁃590.
[8]CerraD,DatcuM.Amodelconditioneddatacompressionbasedsimi⁃
laritymeasure[C]//ProcofDataCompressionConference.Piscata⁃way,NJ:IEEEPress,2008.
[9]DelGuercioO,OrozcoR,SimA,etal.Multidimensionalcompres⁃
sionwithpatternmatching[C]//ProcofDataCompressionConfe⁃rence.Piscataway,NJ:IEEEPress,2019.
[10]刘冰.游程长度编码算法的研究[J].天津理工学院学报,2001,17
(4):77⁃81.
[11]HuffmanDA.Amethodfortheconstructionofminimum⁃redundancy
codes[J].ProceedingsoftheIRE,1952,40(9):1098⁃1101.
[12]王成山,王继东.基于能量阈值和自适应算术编码的数据压缩方
法[J].电力系统自动化,2004,28(24):56⁃60.
[13]ZivJ,LempelA.Auniversalalgorithmforsequentialdatacompres⁃
sion[J].IEEETransonInformationTheory,1977,23(3):337⁃343.
[14]王平.LZW无损压缩算法的实现与研究[J].计算机工程,2002,28
(7):98⁃99.
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论