基于波形字典的铁路空口监测数据压缩算法--688IT编程网

收稿日期：２０２０⁃０１⁃１１；修回日期：２０２０⁃０４⁃１０㊀㊀

作者简介：屈松林（１９９６⁃），男，四川广安人，硕士研究生，主要研究方向为无线通信数据处理；刘林（１９７４⁃），女（通信作者），四川资中人，副教授，硕导，博士，主要研究方向为无线定位技术㊁专用移动通信技术等（ｌｌｉｕ＠ｓｗｊｔｕ．ｅｄｕ．ｃｎ）．

基于波形字典的铁路空口监测数据压缩算法

屈松林１，刘㊀林１，２†

（１．西南交通大学信息科学与技术学院，成都６１１７５６；２．中铁第一勘察设计院集团有限公司轨道交通工程信息化国家重点实验室，西安７１００４３）

摘㊀要：空中接口是铁路无线通信中与列车之间的接口，该接口是分析无线干扰㊁无线信道的拥塞等网络故障问

题的最佳结合点㊂为了监测该接口，必须采集其数据，而随着铁路多站关联的智能干扰监测系统的建立，空口监测的数据量将迎来爆发性地增长，因此需要寻一种适合于铁路无线通信空口监测数据的压缩算法㊂利用ＵＳＲＰ在铁路沿线采集到的空口数据对哈夫曼编码㊁ＢＺｉｐ２㊁ＬＺＭＡ等常见数据压缩算法进行了验证，结果表明这些算法对该类型数据压缩效果欠佳，使用哈夫曼编码压缩率为１４％，

基于字典的压缩算法中压缩率最高为１３％㊂为了提高压缩率，满足空中接口监测需要，提出了基于波形字典的有损压缩算法㊂结果表明，使用波形字典可以得到超过８０％的压缩率㊂波形字典是有损压缩，可能出现过大的重构误差㊂但当阈值或者波形匹配规则选择恰当时，波形字典压缩算法应用于铁路无线通信数据压缩可以获得极高的压缩率，并且能够保持原始数据的信号特征㊂关键词：无线电子通信；铁路；数据压缩；字典；仿真

０㊀引言

我国目前的ＣＴＣＳ⁃３列车控制系统使用ＧＳＭ⁃Ｒ数字移动通信系统来承载列车和地面数据交互㊂通过对ＧＳＭ⁃Ｒ网络进行监测，及时发现网络中存在的故障和隐患，并进行相应的优化处理，可以保证网络的可靠运营，提高运输安全［１］㊂目前对ＧＳＭ⁃Ｒ网络的监测手段主要是通过对Ａｂｉｓ接口㊁Ａ接口及Ｐｒｉ接口的监测来实现的，对于空中无线接口Ｕｍ口的监测研究较少［２］㊂Ｕｍ口是直接面向无线信道的，而无线网络环境更为复杂，有着更多的不稳定性，同时，因为的所有数据都先经过Ｕｍ口接收，所以它的协议与消息类型更为复杂，它才是分析无线干扰㊁网络覆盖㊁无线信道拥塞和车地设备故障最佳结合点，也是唯一能够解析无线测量报告㊁无线系统消息，实现信号的频谱分析，实现电路域和分组域信令和业务并行监测的接口㊂因此Ｕｍ接口的监测是一个重点，通过对Ｕｍ接口的动态监测，可以更加准确地定位网络故障㊁分析无线干扰㊂

要进行Ｕｍ接口的动态监测，首要问题就是采集Ｕｍ接口上的数据，按照奈奎斯特采样定理进行采样，会得到相当大的数据量㊂在宽带干扰监测与采集前端硬件平台能力支撑下，就单台前置机采集的数据量，以每秒采样上／下行各４ＭＢ带宽ＧＳＭ⁃Ｒ全频段数据为例，以奈奎斯特采样率采样，则采样率至少为８ＭＨｚ，采样后数据按照一个点４Ｂｙｔｅ存储，则数据量可以达到３２ＭＢ㊂而多站关联㊁网络化监测系统建成后，数十台前置机将每天汇聚上ＴＢ乃至几十ＴＢ频谱数据㊂如何克服铁路专用网络带宽限制㊁有效实时传输前端采集数据并智能化再现频谱和干扰模式，是当前前端采集专网传输实时存储智能分析统一智能干扰监测系统［３，４］面临的巨大难题㊂因此寻一种适合于铁路空口干扰监测数据的算法是非常重要的㊂

目前并没有针对铁路无线通信的专用压缩算法，所以实际使用的压缩算法都是一些通用的压缩算法，文献［５］讨论了一些常见算法对铁路通信中的车次号㊁调度命令和ＤＭＳ三类消息数据的压缩效果㊂本文首先讨论了一些常用数据压缩算法应用于铁路空口监测数据的效果，在此基础上提出了波形字典算法，并进行了仿真验证㊂波形字典算法主要是通过波形分段匹配，把相似度达到阈值的波形统一表示，从而达到压缩的目的㊂目前，已经有许多计算两段数据的相似度的算法，如ＮＩＤ（ｎｏｒｍａｌｉｚｅｄｉｎｆｏｒｍａｔｉｏｎｄｉｓｔａｎｃｅ）与ＮＣＤ（ｎｏｒｍａｌｉｚｅｄｃｏｍｐｒｅｓｓｉｏｎｄｉｓｔａｎｃｅ）［６］算法，ＰＲＤＣ（ｐａｔｔｅｒｎｒｅｃ⁃ｏｇｎｉｔｉｏｎｂａｓｅｄｏｎｄａｔａｃｏｍｐｒｅｓｓｉｏｎ）［７］和ＭｃＤＣＳＭ（ｍｏｄｅｌｃｏｎｄｉｔｉｏｎｅ

ｄｄａｔａｃｏｍｐｒｅｓｓｉｏｎｂａｓｅｄｓｉｍｉｌａｒｉｔｙｍｅａｓｕｒｅ）［８］等㊂在２０１９年数据压缩会议中，也有研究将模式匹配运用到传感器网络的多维数据压缩中［９］，并且取得了良好的效果㊂因为波形字典压缩算法中每段波形的数据量较小，所以本文并未采用上述较为复杂的相似度算法，而是利用波形数据的差值和导数差值来衡量波形的相似度㊂１㊀常用数据压缩算法概述

常用压缩算法按照压缩结果可以分为无损压缩算法和有损压缩算法㊂无损压缩指通过消除统计冗余实现数据的缩减，在数据

解压时能够完全还原源数据㊂有损压缩指在允许一定程度信息损失的前提下，移除一些不重要的信息，可以达到更大程度上的数据压缩㊂

无损数据压缩算法按照压缩模型主要分为基于统计压缩算法和基于字典压缩算法两类㊂基于统计压缩算法主要包括游程长度编码［１０］㊁哈夫曼编码［１１］㊁算术编码［１２］等；基于字典的压缩算法主要包括ＬＺ７７编码［１３］㊁ＬＺＷ算法［１４］等㊂

１．１㊀游程长度编码

游程长度编码的思想可以简单地概括为去重，即在一个待压缩的字符串中，有连续重复多次的字符，则使用重复次数加字符代替连续多个相同的字符，如：ｓｓｓｓｓｓｏｏｏｇｇｇｇ，压缩后即为６ｓ３

ｏ４ｇ，原本需要１３个字符表示的字符串，现在只需要６个字符㊂但是应用于铁路无线通信时，游程编码就不合适了，因为其需要压缩的文件是采样后的数据，对一个调制后的ＧＭＳＫ信号或其他调制方式的无线信号都是以正弦波为基础，所以基本不会出现前后两个采样点值相等的情况，达不到去重的目的㊂

１．２㊀哈夫曼编码

哈夫曼编码是以统计为基础，其主要思想是通过变长编码来对数据进行编码，出现频率较高的字符就用较短的编码来表示，出现频率低的字符用长编码表示，从而达到节省空间的目的㊂哈夫曼算法最重要的是构建哈夫曼树，首先统计各个字符出现的频率，以频率为权重，将权重最小的两个符号合并得到一棵树，树的根为两个符号的权重之和，子节点为对应的符号，将得到的新树作为一个新符号，继续合并权重最小的两个符号，循环下去直到最后所有符号都在一棵树上㊂哈夫曼树的每个叶子节点表示一个字符，从根节点开始用０表示左分支，用１表示右分支，每个字符的编码用从根节点到该节点的路径记录表示㊂如图１即为一棵哈夫曼树，其中各个字符的频率以及使用哈夫曼算法的编码见表１㊂

表１㊀字符频率与编码字符出现次数编码Ｓ

１５

０１０Ｏ１８１０Ｎ３５００

Ｇ１００１１１Ｌ２５１１

Ｉ５０１１０

通过表１的哈夫曼编码来编码表中的数据需要使用２６１ｂｉｔ，而未压缩时使用ＡＳＣＩＩ码表示表中数据需要８６４ｂｉｔ㊂所以哈夫曼编码对于字符频率不同的数据可以起到有效的压缩作用，频率相差越大时，压缩效果越好㊂而空口数据是从模拟信号采样而来，信号夹带着随机的噪声，采样数据应该集中于某些区别，但是在这些区域内是随机分布，所以当采样精度较高时，将这些区域拆分成了多个小区域，此时字符频率相差不大，压缩效果也就不那么好㊂１．３㊀基于字典的压缩算法

基于字典的压缩算法同基于统计的压缩算法相比更为通用，压缩效果也更好㊂ＬＺ７７压缩算法是最早被提出的基于字典的压缩算法，它有着许多的派生算法，比如ＬＺ７８㊁ＬＺＷ算法等㊂在ＰＫＺｉｐ㊁ＲＡＲ㊁ＷｉｎＺｉｐ㊁ＧＺｉｐ㊁ＡＲＪ㊁ＬＨＡｒｃ等一些日常使用的通用压缩软件中，都可以看到ＬＺ７７算法的影子㊂

ＬＺ７７算法采用的字典为一个动态的滑动窗口，而把待压缩的数据放入一个预读缓冲器当中（也是一个滑动窗口）㊂字典是一个历史缓冲器，其中存放的是之前Ｎ个数据㊂预读缓冲器是用来存放待压缩的Ｎ个数据点㊂压缩时需要在字典中寻与预读缓冲器中最匹配的数据，即最长的匹配长度的数据㊂每次输出的数据为（ｏｆｆｓｅｔ，ｌｅｎｇｔｈ，ｃｈａｒ），ｏｆｆｓｅｔ表示匹配的字符串开始距离

字典边界的长度；ｌｅｎｇｔｈ表示最长匹配的字符串长度；ｃｈａｒ表示下一个字符，即第一个不匹配的字符㊂

例如ｓｓｓｓｓｏｓｓｏｏｏｇｇｇｇ使用ＬＺ７７压缩，字典长度为４Ｂｙｔｅ，第一次压缩时字典为空，预读缓冲器为ｓｓｓｓ，输出为（０，０，ｓ），滑动窗口后，字典为ｓ，滑动窗口为ｓｓｓｓ，输出为（１，４，ｏ），这里虽然字典只有ｓ一个字符，但是从第一个往后走４Ｂｙｔｅ都可以匹配，即能匹配整个ｓｓｓｓ，可以先把（１，４，ｏ）看做（１，１，）从而使用字典的第一位扩大了字典，如此便可以表示后面的字符㊂继续滑动窗口，字典为ｓｓｓｏ，预读缓冲区为ｓｓｏｏ，输出为（３，３，ｏ）㊂因为空口数据携带着噪声，所以即使某一段去掉噪声后和字典中一模一样，但是由于噪声的随机性，使得它们在数值上并不完全一样，所以所得到的压缩率比理想情况会低很多㊂

Ｂｚｉｐ２是一个基于Ｂｕｒｒｏｗｓ⁃Ｗｈｅｅｌｅｒ变换的压缩算法，它通过Ｂｕｒｒｏｗｓ⁃Ｗｈｅｅｌｅｒ变换将经常重复出现的所有字符序列转换为相同的字母字符串，然后使用霍夫曼编码对变换后的数据编码，Ｂｚｉｐ２的效果要比ＬＺ７７更好㊂

ＰＰＭｄ算法是基于部分匹配预测模型（ｐｒｅｄｉｃｔｉｏｎｂｙｐａｒｔｉａｌｍａｔｃｈｉｎｇ，ＰＰＭ）的数据压缩算法㊂ＰＰＭｄ通过统计构建出上下文索引树，使用输入的一部分数据来预测后续符号的概率，最后将预测的概率值运用区间编码器编码㊂

ＬＺＭＡ压缩算法是对ＬＺ７７算法的一个改良优化，ＬＺＭＡ同ＬＺ７７一样，也使用（ｏｆｆｓｅｔ，ｌｅｎｇｔｈ，ｃｈａｒ）格式，但是ＬＺＭＡ在到匹配时，ＬＺＭＡ会将（ｏｆｆｓｅｔ，ｌｅｎｇｔｈ，ｃｈａｒ）进行区间编码后，再写入到输出流中㊂ＬＺＭＡ２是ＬＺＭＡ的一种改进，提升了对不可压缩数据的压缩率㊂

２㊀压缩算法对铁路无线空口监测数据的压缩性能比较

㊀㊀本章利用实测数据，对各压缩算法在处理铁路无线通信空口监测数据时的性能进行对比分析㊂此次采用的数据是通过ＵＳＲＰ在铁路沿线采集到的ＧＳＭ⁃Ｒ信号数据，采样率为１０８１．３３ＫＨｚ，数据格式为ＩＱ数据交替出现，使用ｆｌｏａｔ类型保存㊂并且去除掉了ＦＣＣＨ（载波同步信道）所属帧的数据和ＧＳＭ⁃Ｒ中８．２５ｂｉｔ的保护带的数据，本文数据处理时并未如文献［１５］对逻辑信道或信令进行拆分分类，而是把从当前频段采集到的所有数据一起进行分析，所以得出的结果更为通用㊂

其中ＢＺｉｐ２采用的字典大小为９００ＫＢ，ＰＰｍｄ采用的字典大小为１９２ＭＢ，ＬＺＭＡ和ＬＺＭＡ２采用的字典大小为６４ＭＢ㊂仿真中使用的文件大小为１０７０７１４８８ｂｉｔ，压缩率的定义为：压缩率＝（压缩前的文件大小－压缩后的文件大小）／压缩前的文件大小，仿真的各个算法的压缩率如表２所示㊂

表２㊀不同算法的压缩率

算法名称压缩后的文件大小／ｂｉｔ压缩率

哈夫曼编码９１９１１１６８０．１４１６

ＢＺｉｐ２９８７５１７５２０．０７７８

ＰＰｍｄ９４３２３１５９０．１１９１

ＬＺＭＡ９２９１８２８３０．１３２２

ＬＺＭＡ２９２９２９０４２０．１３２１

㊀㊀从表２数据可知，这些常见的通用算法在对铁路空口监测数据压缩时的压缩率均不高于０．１５，和文献［１５］的结果大致吻合，即哈夫曼编码应用于铁路空口监测数据时效果反而比基于字典的压缩算法效果更好㊂

由以上仿真结果可以看出，常见的一些压缩算法对空口数据的压缩率都不高，为此，本文提出了波形字典算法，通过波形字典算法可以有效地压缩数据，并且保留数据特征㊂

３㊀波形字典算法

３．１㊀算法描述

无论是哈夫曼编码还是基于字典的压缩算法采用的都是无损压缩方式，由于无损压缩率太低，所以本文认为在压缩时可以采用有损的压缩方式，只要带来的损耗不超过通信系统的噪声容限，依靠通信系统处理噪声的能力，对后续的信号分析理论上不会存在影响㊂基于此想法，本文提出一种基于波形分段匹配的压缩算法波形字典压缩算法㊂该算法的主要想法是通过把原始信号分段，通过段落与字典段之间的相关性来决定此分段是否可以由字典索引来进行表示㊂因为ＧＳＭ信号是采用ＧＭＳＫ调制产生的，而ＧＭＳＫ信号是由ＭＳＫ信号通过高斯滤波器得到的㊂最初的ＭＳＫ信号的调制的公式为

ｓｋ（ｔ）＝ｃｏｓｗｃｔ＋ａｋπ２Ｔ

ｂ

＋φｋ

÷㊀ｋＴｂɤｔɤ（ｋ＋１）Ｔｂ（１）其中：ω为载波频率；ａ为输入码元，为＋１或者－１；Ｔ为码元周期；φ为码元常数，确保ＭＳＫ信号在ｔ＝ｋＴ时刻信号的相位是连续的，其具体计算公式为

φｋ＝ｋπ２（ａｋ－１－ａｋ）＋φｋ－１＝

φｋ－１㊀㊀㊀㊀ａｋ－１＝ａｋ

φｋ－１ʃｋπａｋ－１ʂａｋ

{（２）

令初始的码元常数为０，那么可以得出φ（ｋ）＝ʃπ，ｋ＝０，１，２，㊂还可以计算出ＭＳＫ信号的前后码元间存在相关性，在每个码元周期的相位差为ʃπ／２㊂所以在一个码元开始时，可能存在０㊁π／２㊁π㊁３π／２四种波形，但是只要第一个码元确定后，第二个码元周期的初始相位就只能在一个码

元周期的初始相位上加上或者减去π／２，即后面的码元波形只有一种㊂ＧＭＳＫ是ＭＳＫ通过高斯滤波产生的，理论上的高斯滤波器带宽为无限长，但在实际的高斯滤波器中通常使用３Ｔｂ或者５Ｔｂ截断㊂使用５Ｔｂ截断时，５个前后码元的相关组合共有３２种，而初始码元波形有４种，所以此时ＧＭＳＫ信号的波形种数不低于１２８种㊂综上，在ＧＳＭ信号中，信号波形分段后为有限种波形，但是由于噪声㊁多普勒平移等因素存在，可能造成同一种波形呈形状上会有些许的不同㊂即设理论波形为ｎ种，则实际波形可能有ｎ＋ｋ中，波形字典的理想情况是使用信号对应的ｎ种理想波形代替实际信号中的ｎ＋ｋ波形，这样不仅可以减小噪声等小幅度干扰，当有强干扰出现时，因为原始信号的理论波形中不能到干扰存在时的对应波形，可以更准确地识别干扰，并且不止能够从频谱发现，因为波形字典是通过时域波形匹配工作的，所以还能准确地识别干扰产生的时间点㊂

本文中的波形字典就是通过忽略实际数据波形和字典波形在一定范围内的不同，把实际波形使用字典中的波形替代㊂在本文中波形字典是由原始信号生成而来，字典的元素为波形的数值和对应波形最新的出现时间㊂使用伪代码表示为

ｄｉｃｔｉｏｎａｒｙ＿ｅｌｅｍｅｎｔ｛

㊀㊀ｗａｖｅｗ；㊀／／波形数据

㊀㊀ｔｉｍｅａｐｐｒａｒ＿ｔｉｍｅ；㊀／／此波形最新的出现时间｝；

字典的伪代码表示为

ｄｉｃｔｉｏｎａｒｙ｛

㊀㊀ｄｉｃｔｉｏｎａｒｙ＿ｅｌｅｍｅｎｔ㊀ｗａｖｅ＿ｓｅｔ；㊀／／波形数据的集合

㊀㊀ｄｉｃｔｉｏｎａｒｙ＿ｃａｐａｃｉｔｙ㊀ｃａｐａｃｉｔｙ；㊀／／字典能容纳的波形个数㊀｝

压缩时首先设置好字典的容量，本文中字典容量设为２５６，编号为１２５５，０号表示插入新的波形㊂然后在得到信号采样数据时，通过同步信道（ＳＣＨ）到帧的开始处，从这一点开始，按照信号的过采样率，把数据分段，本文中的过采样率为４倍，故把数据拆分为每４个点一组，一组即为一个波形㊂在一段新波形输入时，在字典所存储的波形中查与当前波形对应位置差值绝对值的平均值加上导数差值的绝对值的平均值最小编号的波形，具体计算公式为

ｄｉｆｆｅｒｅｎｃｅ＝｜ｏｒｉｊ－ｄｉ｜＋｜ｏｒｉᶄ（ｊ）－ｆᶄ（ｉ）｜（３）其中：ｏｒｉ表示原始数据的波形；ｄ表示字典中的波形㊂

并且只有当计算出的差值小于阈值时，才使用该匹配段编号表示实际数据波形，并且修改字典中此波形对应的时间为当前时

间，否则使用０编号此波形后面加上实际数据的值，即若实际波形为（１２１，２３２，３４３，５４５），在字典中不到匹配的波形，则将该段波形数据编码为０｜（１２１，２３２，３４３，５４５）㊂如果此时字典容量未满，则在字典中插入此波形和当前的时间，表示这个波形的出现时间；如果此时字典已经填满，则将字典中出现时间最早的那一个波形替换掉，这样做的目的是因为，无线信道的环境可能造成即使同一个理论波形，比如当前出现了比较严重的干扰，呈现出来的差值也超过了本文设定的阈值，这样更能适应信道的改变，更能较好地保留原始信号的特征㊂

３．２㊀算法仿真

本次仿真数据使用的是与第２章所使用的相同数据，阈值为０．０６ˑＭＡＸ＿ａｍｐｌｉｔｕｄｅ（ＭＡＸ＿ａｍｐｌｉｔｕｄｅ表示波形最大幅值，下文使用ＭＡ表示）仿真结果如表３所示㊂

表３㊀波形字典的压缩率字符串长度压缩

算法名称压缩后的文件大小／ｂｉｔ压缩率波形字典

１６４７８０６６

０．８４６１

㊀㊀由表３结果可以看出波形字典压缩可以得到相对较高的压缩率，但是因为波形字典是有损压缩，所以不只需要比较压缩率，还需要比较数据的还原度㊂

本文将重构数据和原始数据在时域上进行对比，本文随机选择了两个时隙进行观察，因为波形字典是将数据分段匹配，所以作图时也采用分段观察的方式，并截取了当前时隙图中某段进行放大展示㊂对比结果如图２４所示㊂图中红线段表示重构数据，蓝线段表示原始数据（见电子版

）㊂

由图２４结果可以看出，重构数据与原始数据虽然不是完全重合的，但是两者的差值非常小，并且重构数据基本能够保持原始数据的变化趋势㊂在无线通信中，通常是通过信号的变化趋势来进行解调分析，所以在具体值上有些许差别，对最后解调结果影响不大，但是波形形状不同可能得到错误的结果㊂为了验证以上误差对解调性能的影响，本文将原始数据和重构数据分别进行解调处理，将两者的结果做差，并在ＭＡＴＬＡＢ中使用茎干图来画出差值，结果如图５所示㊂

由图５可以看出，原始数据的解调结果和重构数据完全一致，

在解调后得到的３３４５９８４个点中，没有与原始数据解调有差别的点存在㊂因为重构数据的变化趋势和原始数据基本一致，只有一些非常细微的差别，而无线通信系统的容噪能力允许数据在理想数据有一些差别的情况下能够得到与理想数据一样的结果㊂

信号的频谱分析是在无线通信的一个关键分析手段，所以本文将重构数据和原始数据的频谱也进行了对比，使用ＭＡＴＬＡＢ分别画出了原始数据和重构数据的Ｉ支路和Ｑ支路的频谱，结果如图６㊁７所示

㊂

由图６㊁７可以看出重构数据的频谱和原始数据的频谱也基本一致，虽然在每个频率分量的值不完全相等，但是在此数量级下，

误差基本可以忽略

㊂

为了比较阈值的影响，本文分别将阈值增大５倍和１０倍，改为０．３ＭＡ和

０．

６ＭＡ，重新进行了仿真，结果如表４所示（表中简单使用０．３㊁０．６区分不同阈值）㊂

表４㊀阈值改变后波形字典的压缩比算法名称压缩后的文件大小／ｂｉｔ

压缩率波形字典（０．３）６６９３９１２０．９３７４８４７波形字典（０．６）

６６９２３７０

０．９３７４９６２

㊀㊀由表３㊁４数据对比可以看出，阈值为０．３（０．６）ＭＡ时得到的压缩率升高了，这是符合的，因为阈值低，波形匹配更严格，从而有很多波形编号为０加原始数据，而阈值高时，减少了不匹配波形，有更多波形可以使用字典波形替代；另外阈值为０．３ＭＡ与０．６ＭＡ的压缩率并不大㊂

选取与前文中相同的位置数据进行重构数据和原始数据的时域对比，结果如图８１２所示㊂

由图８１３结果和阈值为０．６ＭＡ的结果对比，可以发现，原始数据与重构数据的差别明显增大，虽然大多数重构数据仍然能够维持原始数据的波形变化，但是在个别地方，重构数据和原始数据波形的变化形式完全不同，如图９中第５５个点和第６０个点之间的波形，原始数据呈现的是下凹的形式，而重构数据是呈现上凸㊂

在图１３中的第２９０个点和第３００个点之间处也出现了类似的情况；进一步观察可以发现，０．３ＭＡ中波形相反的情况少于０．６ＭＡ，并且重构数据和原始数据也更接近㊂同之前一样，本文将原始

数据和重构数据分别进行解调处理，将两者的结果做差，并在

ＭＡＴＬＡＢ中使用茎干图来画出差值，如图１４㊁１５所示

㊂

通过图１４㊁１５两者的解调结果可以直观地看到有相当大的一部分点存在着差异，图１４

中在解调后得到的３３４５９８４个点中，有５７个点存在差别，错误率为０．００１７％，而图１５中有６０７９２个点的结果存在差别，错误率约为１．８１６％，错误率非常高㊂虽然在时域分析中只有个别波形存在着形状的差异，但是因为ＧＭＳＫ的每个波形并不孤立，解调时需要计算相位的变化，所以，在一个波形形状相差太多的时候可能造成它之后的波形解调的初始相位变化，从而导致后续出现一连串的错误；另外，虽然两者的压缩率差距不大，但是解调结果差距很大，这是因为０．６ＭＡ时当字典波形与实际波形之间的形变差距已经能影响结果了，但是因为阈值设置过大，所以不能识别到此种错误㊂将频谱进行对比，结果如图１６㊁１７所示

㊂

从图１６㊁１７可以看到，改变阈值后，重构数据频谱与原始数据频谱出现了明显的差别㊂首先，ＩＱ两支路的频谱和原本信号频谱的形状大致相似，但是重构数据的频谱在边带并不光滑，有许多异常的波峰出现，并且重构数据频谱在某些频率点更稀疏，如Ｑ支路频谱的第三高的波峰处㊂其次，无论是Ｉ路还是Ｑ路都造成了频谱中出现了极大的干扰，且其幅值大于原本频谱中的峰值，在Ｉ支路的频谱中，干扰频率分量是原本频谱峰值的两倍左右；另外，０．３ＭＡ的Ｑ支路中，原始频谱中的第二高的频率分量幅值明显减少；最后，由图１７㊁１８的对比来看，０．３ＭＡ的频谱中，干扰频率的峰值明显小于０．６ＭＡ且更光滑，说明不恰当的匹配数量减少了㊂因为波形字典采取的是使用字典中与原始数据波形差值最小的，且差值小于设定阈值的波形去替代原始波形㊂当某一个原始波形输入之后，在字典

中此时并未记录该波形对应的理想波形，但是又受到干扰或噪声产生形变的某一波形与此波形的差值在字典的所有波形中最小，那么当阈值设置过大时，不能分辨出这个形变的干扰波形并不能替代原始波形，而会使用这个波形替代原始数据，从而造成原本可能只出现一次的干扰再次出现，即增大了干扰的出现频率，经过多次替换之后造成此干扰频率分量增大㊂从而造成某一个在原始频谱中幅值很小的频率分量在重构数据频谱中幅值很大㊂在频谱的边带区域，原始信号数据会更光滑一些，重构数据要抖动一些是由于使用波形字典压缩时，只要信号与字典的差值没有超过阈值，信号便会被以前的信号替代，字典没有进一步校正㊂如果在字典波形中带有某个频率的分量，但是在被替代信号中没有，那么替代后就会造成字典中的对应频率分量增加，所以会造成峰值较高，出现抖动㊂由于同样的原因，某些在被替代波形中出现而字典中不存在的频率分量，在替代后的重构数据中该频率分量便不存在或者减少了，所以造成了重构数据更加稀疏或者某些分量取值降低㊂但是这些不同大多数情况下不会造成信号特征的改变，不会引起解调数据解析错误㊂

综上，波形字典算法可以有效地压缩铁路空口监测数据，但是由于是有损压缩，所以当阈值选择不正确时会造成重构误差增大，良好的阈值选择和波形匹配规则，可以使得重构误差忽略不计，对后续分析不带来影响㊂当阈值选择不合适时，也会造成重构误差的增加，所以需要调整阈值或波形匹配规则达到（下转第２４４页）

中最小的数据值；ｘｍａｘ为当前数据中最大的数据值㊂

本文混合模型中的卷积层和全连接网络使用ＲｅＬＵ函数作为激活函数，优化器采用ＡｄａｍＯｐｔｉｍｉｚｅｒ，损失值计算使用稀疏分类交叉熵算法，其训练集和测试集的损失值及识别率的变化情况如图６所示，其中ｌｏｓｓ和ｖａｌ＿ｌｏｓｓ分别代表训练集和测试集的损失值变化曲线，ａｃｃｕｒａｃｙ和ｖａｌ＿ａｃｃｕｒａｃｙ分别代表训练集和测试集的识别率

变化曲线

㊂

从该图中可以看出ＣＮＮ⁃ＢＩＬＳＴＭ混合模型的收敛速度快，并且训练集和测试集的识别率均到达了１００％㊂

为了进一步验证该混合模型的有效性与可靠性，用标准的ＬＳＴＭ神经网络对该数据进行训练，训练后的损失值及识别率情况如图７所示㊂

从标准ＬＳＴＭ损失值及识别率变化曲线中可以看出，标准ＬＳＴＭ神经网络虽然最后测试集识别率也达到了１００％，但训练集识别率最终为９７．５％，没有ＣＮＮ⁃ＢＩＬＳＴＭ混合模型高，并且收敛速度较慢，验证了ＣＮＮ⁃ＢＩＬＳＴＭ混合模型的有效性与可靠性㊂４㊀结束语

本文研究出了一种ＣＮＮ⁃ＢＩＬＳＴＭ混合模型，并将其应用于工业控制系统的ＡＲＰ攻击入侵检测中㊂该模型先采用ＣＮＮ，在不破坏数据时序特征的情况下，将数据中大量与攻击无关㊁关联性不强的报文进行过滤，提取出数据中的显著特征㊂再利用ＢｉＬＳＴＭ神经网络在可以发现ＡＲＰ攻击的同时，还可以将网络将来的状态也作为预测时的参考条件，提高了预测准确率㊂最后使用全连接网络和ｓｏｆｔｍａｘ函数将检测结果进行输出，并以某冶金工业控制系统为对象，验证了该模型与标准的ＬＳＴＭ神经网络相比，拥有收敛速度更快㊁训练速度更快和预测准确率更高等优点㊂

参考文献：

［１］姚羽，祝烈煌，武传坤．工业控制网络安全技术与实践［Ｍ］．北京：

机械工业出版社，２０１８．

［２］张文安，洪榛，朱俊威，等．工业控制系统网络入侵检测方法综述

［Ｊ］．控制与决策，２０１９，３４（１１）：２２７７⁃２２８８．

［３］赖英旭，刘增辉，蔡晓田，等．工业控制系统入侵检测研究综述

［Ｊ］．通信学报，２０１７，３８（２）：１４３⁃１５６．

［４］ＪｕａｎＥＲ，ＣｒｉｓｔｉｎａＡ，ＲｏｄｒｉｇｏＲ，ｅｔａｌ．Ｃｕｒｒｅｎｔｃｙｂｅｒ⁃ｄｅｆｅｎｓｅｔｒｅｎｄｓ

ｉｎｉｎｄｕｓｔｒｉａｌｃｏｎｔｒｏｌｓｙｓｔｅｍｓ［Ｊ］．Ｃｏｍｐｕｔｅｒｓ＆Ｓｅｃｕｒｉｔｙ，２０１９，８７（１２）：１０１５６１．

［５］ＹｏｕｎｅｓＯＳ．Ｍｏｄｅｌｉｎｇａｎｄｐｅｒｆｏｒｍａｎｃｅａｎａｌｙｓｉｓｏｆａｎｅｗｓｅｃｕｒｅａｄ⁃

ｄｒｅｓｓｒｅｓｏｌｕｔｉｏｎｐｒｏｔｏｃｏｌ［Ｊ／ＯＬ］．ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｍｕｎｉ⁃ｃａｔｉｏｎＳｙｓｔｅｍｓ．（２０１７⁃０８⁃０１）［２０１９⁃１０⁃２０］．ｈｔｔｐｓ：／／ｄｏｉ．ｏｒｇ／１０．１００２／ｄａｃ．３４３３．

［６］ＨａｎｎａＤ，ＶｅｅｒａｒａｇｈａｖａｎＰ，ＰａｒｄｅｄｅＥ．ＰｒＥＣａｓｔ：ａｎｅｆｆｉｃｉｅｎｔｃｒｙｐｔｏ⁃

ｆｒｅｅｓｏｌｕｔｉｏｎｆｏｒｂｒｏａｄｃａｓｔ⁃ｂａｓｅｄａｔｔａｃｋｓｉｎＩＰｖ４ｎｅｔｗｏｒｋｓ［Ｊ］．Ｅｌｅｃ⁃ｔｒｏｎｉｃｓ，２０１８，７（５）：６５．

［７］ＰｒａｂａｄｅｖｉＢ，ＪｅｙａｎｔｈｉＮ．ＴＳＣＢＡ⁃ＡｍｉｔｉｇａｔｉｏｎｓｙｓｔｅｍｆｏｒＡＲＰｃａｃｈｅ

ｐｏｉｓｏｎｉｎｇａｔｔａｃｋｓ［Ｊ］．Ｓｃｉｅｎｄｏ，２０１８，１８（４）：７５⁃９３．

［８］ＳｒｉｎａｔｈＤ，ＰａｎｉｍａｌａｒＳ，ＪｅｒｒｉｎＳＡ，ｅｔａｌ．Ｄｅｔｅｃｔｉｏｎａｎｄｐｒｅｖｅｎｔｉｏｎｏｆ

ＡＲＰｓｐｏｏｆｉｎｇｕｓｉｎｇｃｅｎｔｒａｌｉｚｅｄｓｅｒｖｅｒ［Ｊ］．ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓ，２０１５，１１３（１

９）：２６⁃３０．

［９］ＫａｕｒＲ，ＳｉｎｇｈＥＧ．ＡｓｅｃｕｒｉｔｙａｐｐｒｏａｃｈｔｏｐｒｅｖｅｎｔＡＲＰｐｏｉｓｏｎｉｎｇａｎｄ

ｄｅｆｅｎｓｉｖｅｔｏｏｌｓ［Ｊ］．ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒａｎｄＣｏｍ⁃ｍｕｎｉｃａｔｉｏｎＳｙｓｔｅｍＥｎｇｉｎｅｅｒｉｎｇ，２０１５，２（３）：４３１⁃４３７．

［１０］ＳｉｎｇｈＪ，ＧｒｅｗａｌＶ．ＡｓｕｒｖｅｙｏｆｄｉｆｆｅｒｅｎｔｓｔｒａｔｅｇｉｅｓｔｏｐａｃｉｆｙＡＲＰｐｏｉ⁃

ｓｏｎｉｎｇａｔｔａｃｋｓｉｎｗｉｒｅｌｅｓｓｎｅｔｗｏｒｋｓ［Ｊ］．ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓ，２０１５，１１６（１１）：２５⁃２８．

［１１］郭茂祖，王鹏跃，赵玲玲．基于深度学习的出行模式识别方法［Ｊ］．

哈尔滨工业大学学报，２０１９，５１（１１）：１⁃７．

［１２］尹霄丽，郭翊麟，崔小舟，等．基于卷积神经网络的多ＯＡＭ态识别

方法［Ｊ］．北京邮电大学学报，２０１９，４２（１）：４７⁃５２．

［１３］王恩德，齐凯，李学鹏，等．基于神经网络的遥感图像语义分割方

法［Ｊ］．光学学报，２０１９，３９（１２）：８５⁃９６．

［１４］陈莉明，邓德祥．混合深度卷积神经网络对人脸年龄的分类［Ｊ］．

华中科技大学学报：自然科学版，２０１９，４７（３）：１０４⁃１０８．

［１５］周飞燕，金林鹏，董军．卷积神经网络研究综述［Ｊ］．计算机学报，

２０１７，４０（６）：１２２９⁃１２５１．

［１６］ＹｉｎｇＷａｎｇｙａｎｇ，ＺｈａｎｇＬｅｉ，ＤｅｎｇＨｏｎｇｌｉ．Ｓｉｃｈｕａｎｄｉａｌｅｃｔｓｐｅｅｃｈｒｅ⁃

ｃｏｇｎｉｔｉｏｎｗｉｔｈｄｅｅｐＬＳＴＭｎｅｔｗｏｒｋ［Ｊ］．ＦｒｏｎｔｉｅｓｏｆＣｏｍｐｕｔｅｒＳｃｉ⁃ｅｎｃｅ，２０２０，１４（２）：３７８⁃３８７．

［１７］舒帆，屈丹，张文林，等．采用长短时记忆网络的低资源语音识别

方法［Ｊ］．西安交通大学学报，２０１７，５１（１０）：１２０⁃１２７．

［１８］周博通，孙承杰，林磊，等．基于ＬＳＴＭ的大规模知识库自动问答

［Ｊ］．北京大学学报：自然科学版，２０１８，５４（２）：２８６⁃２９２．

［１９］王文琦，汪润，王丽娜，等．面向中文文本倾向性分类的对抗样本

生成方法［Ｊ］．软件学报，２０１９，３０（８）：２４１５⁃２４２７．（上接第２６９页）压缩率和重构误差的平衡㊂关于最优阈值的分析

在后续研究中进行深入探讨㊂

４㊀结束语

本文基于ＵＳＲＰ在铁路沿线采集到的空口数据，对常见的一些压缩算法应用于铁路空口数据的压缩效果进行了实验，为提高压缩率，提出波形字典压缩算法，并在不同的匹配阈值下进行了实验，通过对结果的分析得出下列结论：

ａ）通过对常见的压缩算法的结果对比，可以发现哈夫曼编码应用于铁路无线通信数据的压缩效果比基于字典的压缩算法效果更好㊂

ｂ）由常见压缩算法的实验结果，可以得到常见的压缩算法应用于铁路无线通信数据的压缩效果都不理想㊂

ｃ）在合理选择波形匹配阈值的情况下，波形字典算法可以获得比较好的压缩率，并且能够保留原始信号的特征㊂

ｄ）波形字典算法中波形匹配阈值恢复数据有着非常大的影响，不仅关系着压缩率，并且也影响着重构误差㊂后续研究中需要对最有阈值的分析进行深入探讨㊂

参考文献：

［１］吴宇，韩蕾．基于ＧＳＭ⁃Ｒ网络空中接口动态监测系统研究［Ｊ］．铁

路通信信号工程技术，２０１４，１１（２）：２６⁃３１．

［２］郭桂芳．ＧＳＭ⁃Ｒ无线空中接口动态监测系统［Ｊ］．中国铁路，２０１２

（６）：２２⁃２４．

［３］刘大为，郭进，王小敏，等．中国铁路信号系统智能监测技术［Ｊ］．

西南交通大学学报，２０１４，４９（５）：９０４⁃９１２．

［４］张晋渊．中国铁路信号系统智能监测技术［Ｊ］．科技创新导报，

２０１８，１５（３）：７⁃８．

［５］王开锋，蒋韵，王祖元，等．压缩算法在ＧＳＭ⁃Ｒ分组域数据传输中

的应用研究［Ｊ］．铁路计算机应用，２０１５，２４（１０）：５１⁃５２．

［６］ＬｉＭｉｎｇ，ＣｈｅｎＸｉｎ，ＬｉＸｉｎ，ｅｔａｌ．Ｔｈｅｓｉｍｉｌａｒｉｔｙｍｅｔｒｉｃ［Ｊ］．ＩＥＥＥ

ＴｒａｎｓｏｎＩｎｆｏｒｍａｔｉｏｎＴｈｅｏｒｙ，２００４，５０（１２）：３２５０⁃３２６４．

［７］ＷａｔａｎａｂｅＴ，ＳｕｇａｗａｒａＫ，ＳｕｇｉｈａｒａＨ．Ａｎｅｗｐａｔｔｅｒｎｒｅｐｒｅｓｅｎｔａｔｉｏｎ

ｓｃｈｅｍｅｕｓｉｎｇｄａｔａｃｏｍｐｒｅｓｓｉｏｎ［Ｊ］．ＩＥＥＥＴｒａｎｓｏｎＰａｔｔ

ｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，２００２，２４（５）：５７９⁃５９０．

［８］ＣｅｒｒａＤ，ＤａｔｃｕＭ．Ａｍｏｄｅｌｃｏｎｄｉｔｉｏｎｅｄｄａｔａｃｏｍｐｒｅｓｓｉｏｎｂａｓｅｄｓｉｍｉ⁃

ｌａｒｉｔｙｍｅａｓｕｒｅ［Ｃ］／／ＰｒｏｃｏｆＤａｔａＣｏｍｐｒｅｓｓｉｏｎＣｏｎｆｅｒｅｎｃｅ．Ｐｉｓｃａｔａ⁃ｗａｙ，ＮＪ：ＩＥＥＥＰｒｅｓｓ，２００８．

［９］ＤｅｌＧｕｅｒｃｉｏＯ，ＯｒｏｚｃｏＲ，ＳｉｍＡ，ｅｔａｌ．Ｍｕｌｔｉｄｉｍｅｎｓｉｏｎａｌｃｏｍｐｒｅｓ⁃

ｓｉｏｎｗｉｔｈｐａｔｔｅｒｎｍａｔｃｈｉｎｇ［Ｃ］／／ＰｒｏｃｏｆＤａｔａＣｏｍｐｒｅｓｓｉｏｎＣｏｎｆｅ⁃ｒｅｎｃｅ．Ｐｉｓｃａｔａｗａｙ，ＮＪ：ＩＥＥＥＰｒｅｓｓ，２０１９．

［１０］刘冰．游程长度编码算法的研究［Ｊ］．天津理工学院学报，２００１，１７

（４）：７７⁃８１．

［１１］ＨｕｆｆｍａｎＤＡ．Ａｍｅｔｈｏｄｆｏｒｔｈｅｃｏｎｓｔｒｕｃｔｉｏｎｏｆｍｉｎｉｍｕｍ⁃ｒｅｄｕｎｄａｎｃｙ

ｃｏｄｅｓ［Ｊ］．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＲＥ，１９５２，４０（９）：１０９８⁃１１０１．

［１２］王成山，王继东．基于能量阈值和自适应算术编码的数据压缩方

法［Ｊ］．电力系统自动化，２００４，２８（２４）：５６⁃６０．

［１３］ＺｉｖＪ，ＬｅｍｐｅｌＡ．Ａｕｎｉｖｅｒｓａｌａｌｇｏｒｉｔｈｍｆｏｒｓｅｑｕｅｎｔｉａｌｄａｔａｃｏｍｐｒｅｓ⁃

ｓｉｏｎ［Ｊ］．ＩＥＥＥＴｒａｎｓｏｎＩｎｆｏｒｍａｔｉｏｎＴｈｅｏｒｙ，１９７７，２３（３）：３３７⁃３４３．

［１４］王平．ＬＺＷ无损压缩算法的实现与研究［Ｊ］．计算机工程，２００２，２８

（７）：９８⁃９９．

688IT编程网

基于波形字典的铁路空口监测数据压缩算法

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

基于波形字典的铁路空口监测数据压缩算法

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式