通信网络技术DOI:10.19399/jki.tpt.2023.16.056
多源数据约束性融合的传感器网络安全预测模型
张金龙,孙国同
(中电科普天科技股份有限公司,广东广州510310)
摘要:针对单一传感器数据存在信息不全面而无法真实反映网络安全态势的问题,提出一种多源数据约束性融合的传感器网络安全预测方法。首先,该方法采用卷积自编码网络对不同模态的异构数据进行统一维度的特征表示,能够解决传感器之间的异构性问题。其次,采用无监督交叉模态哈希检索方法对卷积自编码网络(Convolutional Auto-Encode,CAE)的参数进行校正,提取多种传感器数据的全局特征和局部特征,解决编码-解码过程的前后特征损失问题。最后,将回归二进制码与多模态数据特征进行加权融合,实现安全类别预测。实验表明,与融合了卷积神经网络(Convolutional Neural Networks,CNN)的格拉姆角场(Gramian Angular Field,GAF)算法相比,所提方法具有较好的健壮性。
关键词:多源数据;安全预测;卷积自编码网络(CAE);无监督交叉模态哈希检索
Sensor Network Security Prediction Model Based on Multi-Source Data Binding Fusion
ZHANG Jinlong, SUN Guotong
(CETC Potevio Science & Technology Co.,Ltd., Guangzhou 510310, China)
Abstract: A multi-source data constrained fusion method for sensor network security prediction is proposed to address the issue of incomplete information in a single sensor data, which cannot truly reflect the network security situation. Firstly, this method uses convolutional self coding networks to uniformly represent the features of heterogeneous data in different modalities, which can solve the problem of heterogeneity between sensors. Secondly, the unsupervised cross modal Hash retrieval method is used to correct the parameters of Convolutional Auto-Encode (CAE), extract global and local features of various sensor data, and solve the problem of feature loss before and after the encoding decoding process. Finally, the regression binary code is weighted and fused with the features of multimodal data to achieve security category prediction. Experiments have shown that the proposed method has better robustness compared to the Gramian Angular Field(GAF) algorithm that integrates Convolutional Neural Networks(CNN).
Keywords: multi-source data; safety prediction; Convolutional Auto-Encode (CAE); unsupervised cross-modal hash retrieval
0 引 言
传感器网络是以传感器为节点,采用无线方式完成通信的自组织网络,广泛应用于生态监测、健康护理、智慧交通以及智慧物流等领域。目前,随着网络攻击不确定性和复杂性的增加,传感器网络的安全预测问题备受关注。传感器网络的数据具有多模态、冗余性以及差异性的特点,且传感器之间存在异构性,给传感器网络的数据融合带来了一定难度。此外,由于安全监控手段多样,不同类型的安全监控设备对传感器的安全评估精度存在一定的差异。文章重点研究如何将传感器提供的信息通过融合后形成对安全监测环境的一致性表述。首先,采用卷积自编码网络(Convolutional Auto-Encode,CAE)对不同模态的异构数据进行编码表示和解码(重构),从而实现不同模态异构数据统一维度的特征表示,解决传感器之间的异构性问题。其次,为有效解决不同模态数据的差异性,以卷积自编码网络为基础,采用无监督交叉模态哈希检索方法(模态内一致性、模态间一致性)约束解码语义(特征重构),将模态内和模态间一致性约束应用于解码(重构)与全局特征学习,解决编码-解码过程前后的特征损失问题,从而提升编码表示的精度。最后,为有效利用标签信息,利用线性回归学习多模态数据的线性回归二进制码,并将其与多模态数据特征进行加权融合,实现安全类别预测。
1 相关技术介绍
1.1 卷积自编码网络
卷积自编码网络实际上是一种卷积自编码器,工作过程与传统的编码器一致。首先通过卷积核自动提取
数据特征,并通过编码表示数据语义,其次解码数据语义,最后调整编码和解码的网络参数,使解码的数据与原始数据差异最小,从而实现数据重构。该方法通常称为无监督的编码和解码方法,在参数训练过程中不需要使用标签数据,直接将重构后的数据与原始数据进行比较即可。卷积自编码网络加入卷积核,
收稿日期:2023-06-22
作者简介:张金龙(1987—),男,安徽淮北人,本科,工程师,主要研究方向为移动通信设计规划、智慧城市物联网;
孙国同(1983—),男,江苏海安人,本科,工程师,主要从事通信相关设计工作。
· 178 ·
是为了增强编码器的抗干扰能力,提升自编码器的健壮性[1-3]。卷积自编码网络广泛应用于机器学习、计算机视觉以及模式识别等领域,通过对原始高维数据采取编码降维措施,尽可能保持样本的全局和局部语义特征,利用编码后的特征进行后续分类、降噪、重构以及回归等应用[4-7]。
1.2 交叉模态检索
交叉模态检索的方法来源于跨模态检索/匹配方面的研究成果。随着媒体数据文本、图像和视频等多模态技术的发展,不同模态的数据表现出一定的异构性。如何快速检索这些数据描述的事件和主题,并用于主题检测和信息推荐,成为媒体广泛关注的问题。与传统的单模态检索方法相比,交叉模态检索方法需要构建模态关系模型,学习不同模态数据之间的相似性与差异性,再比对不同模态之间的相似性,从而实现跨模态检索。然而,如何学习异构数据之间的统一特征空间十分重要。这种学习易构数据统一特征空间的方法与矩阵分解、子空间、邻域图以及稀疏表示等方法密切相关[8-13]。交叉模态检索方法通过学习多种模态数据并将其投影到统一特征空间,在统一特征空间中挖掘不同模态数据之间的相似性和差异性,能够发掘不同模态数据之间的关联。
2 多源数据约束性融合的传感器网络安全预测方法
随着大数据技术的迅猛发展,不同来源和不同领域的数据实时融合处理成为可能。与传统的单一数据相比,多源多模态数据能够提供更多的信息。这些信息有些是冗余的,有些是互补的,但是通过对数据之间的补充和修正,能够为用户提供更加准确的信息。此外,不同领域基于多源多模态数据的融合,能够形成对事物相对完整、一致的感知描述,从而提升信息的呈现效果和表达的健壮性。
然而,多模态数据融合往往需要通过数据格式转换、数据重构、特征提取、语义匹配以及数据融合多个步骤,才能实现多模态数据语义上的融合。因此,文章提出一种多源数据约束性融合的方法,包含数据
编码、特征提取以及特征融合等过程。首先,通过采用自编码网络编码原始数据,解决多源数据维度不一致的问题;其次,采用模态内一致性、模态间一致性以及基于标签信息的线性回归学习等方法,训练卷积自编码网络的参数和线性回归二进制码,得到数据的全局特征和局部特征;再次,将数据特征与线性回归二进制码加权融合,实现统一特征空间的关联;最后,基于融合后的特征,采用激活函数Sigmoid处理融合后的特征,并结合Softmax对处理后的结果输出概率的最大类别实现类别预测。多源数据约束性融合的传感器网络安全预测技术架构,如图1所示。
2.1 数据输入并采用卷积自编码网络获取编码表示和解码表示
为简化所提方法公式的复杂性,采用2类传感器的数据进行说明。在后期使用过程中,可以将2类传感器扩展到k(k>2)类传感器。
第一类传感器在某一段时间内采集的数据集合为{}
1
12i n
,,,,,
d n v v v v
X x x x x
×=  ,其中x
i
v为第一类传感器的一个样本,d1为样本维度,n为样本个数。
第二类传感器在某一段时间内采集的数据集合为{}
2
12j n
,,,,,
d n u u u u
Y y y y y
×=  ,其中y
i
u为第二类传感器的一个样本,d2为样本维度,n为样本个数。
将这2类传感器的数据输入CAE,与经典的卷积神经网络(Convolutional Neural Networks,CNN)在卷积层之后使用全连接层得到固定长度的特征向量进行分类(全联接层+Softmax输出)不同,CAE可以
数据输入
第一类传感器:
n 1个设备采集
数据时间序列第二类传感器:
n 2个设备采集
数据时间序列
……
第k类传感器:
n k 个设备采集
数据时间序列
CAE
……
全局特征与局部特征保持
基于线性回归
学习参数与编码
表示进行加权
特征融合
预测传感器
网络安全
数据输出
图1 多源数据约束性融合的传感器网络安全预测技术架构
· 179 ·
· 180 ·
接受任意尺寸的输入数据,采用反卷积层采样最后一
个卷积层的特征映射,使其恢复到与输入数据相同的尺寸,从而预测数据集合中的每一个维度,同时保留原始输入数据集合中的空间信息,并在采样的特征图中进行逐像素分类。
使用2个CAE 分别对第一类传感器数据和第二类传感器采取编码-解码学习措施,从而提取其编码表示和解码表示。
第一类数据的编码表示和解码表示分别为      ()(
)1
i AE i ;CAE
v v h x C x θ= (1)
      ()CAE
1AE i ;v v u C h x θ  =
(2)第二类数据的编码表示和解码表示分别为
      ()(
)CAE
2
正则化的约束条件
j AE j ;u u
h y C y θ=
(3)
      ()CAE
2AE i ;u u u C h y θ  =
(4)2.2 基于全局特征和局部特征保持训练卷积自编码网络的参数θCAE
为训练卷积自编码网络的参数θCAE ,需要考虑以
下3个问题。2.2.1 标签表示
标签表示对于自编码网络的参数θCAE 的训练有很大帮助。由于不同传感器的2类样本数据本应该具有一致的语义标签信息,可以在有限的标签样本中采用标签监督不同传感器样本数据(或称为不同模态数据)标签的一致性。因此,引入线性回归二进制码拟合不同模态标签数据,即       T min W
−L W B  (5)
式中:L 为语义标签矩阵;W 为回归系数矩阵;B 为
2类数据解码表示的拼接矩阵,有B =[U  v ;U  u ]。2.2.2 数据在编码-解码过程的特征损失问题
针对数据在编码-解码过程存在的特征损失问题,采用模态内相似性衡量同一类传感器样本的局部相似性,
保障数据在编码-解码前后的编码表示和解码表示的一致性,即
   ()2
2
,F F v u v
u
U U X U Y U ϕ=−+− (6)
式中:U  v 为第一类传感器数据的解码表示集合;U u
为第二类传感器数据的解码表示集合;2
F v
X U
−为
每一类模态数据与解码表示的残差。
2.2.3 提升不同模态数据之间全局特征学习的适应性
为提升不同模态数据之间全局特征学习的适应性,在编码过程中尽可能保持原始样本的整体特征。因此,通过描述不同模态间的一致性,实现不同模态
数据之间的有效关联,即
   =−W W U U U U
R ()v u i 2
11
,n
n
F v u T v T u
j i j ϕ==∑∑ (7)
式中:W =[W v ;W u ];R i j 为第一类传感器数据x i v 与第二类传感器数据y j u 相同的标签信息。
为求解卷积自编码网络的参数θCAE ,整合式(5)、式(6)、式(7),并将模态内和模态间最小化,有
min ,,;φθθλW L W B (
)12
T 12
22
T T 3v u i 2
11
CAE CAE
F v
W
F u
n
n F v u j
i j B X U Y U U U R λλ===
−+−+
−+−∑∑W W
(8)式中:λ1、λ2、λ3为平衡函数,是为了避免出现过拟合而设置的正则化参数。
2.3 将编码特征与回归二进制码进行融合
在求出W 、B 以及卷积自编码网络的参数θCAE
的基础上,结合式(1)和式(3)求解编码表示,得到各类传感器数据的特征后拼接特征。拼接方式参考式(5)的B 拼接,得到编码表示的拼接矩阵G ,然后结合线性回归二进制码W 加权实现特征融合L ,即
         =L WB  (9)2.4 传感器网络安全预测
在特征融合的基础上,采用激活函数Sigmoid 处理融合后的特征,并结合Softmax 对处理后的结果输出概率的最大类别,从而实现类别预测。Sigmoid 函数是一种logistic 函数,能够将任意的值转换到[0,1],函数表达式为
      ()1
1e L
L σ−=+ (10)
在对融合特征值L 进行转换后,将其放入softmax 函数实现归一化处理,从而确定σ(L )属于第j 个分类的概率。在各种类别的概率计算公式为
     ()(
)()
1
e e L n L
j P y L σσσ=  =
∑ (11)
式中:y 为分类类别;P [y |σ(L )|]为n 种分类类别的概
率值。
3 实验分析
选取某互联网公司的信息物理系统安全态势数据作为数据集,采集公司连续15周的网络边界多种传感器数据信息、网络内部的数据信息以及部分主机的审计日志数据,共437 218条,其中正常数据有418 951条,异常数集据有18 267条。异常数据集的攻击类型包含拒绝服务攻击、漏洞扫描攻击、非法进入攻击以及非法获取攻击4大类。正常数据的类型标
· 181 ·
记属性为0,拒绝服务攻击、漏洞扫描攻击、非法进入攻击以及非法获取攻击类型标记属性分别为1、2、3、4。安全态势预测类别有安全、轻微危害、一般危害以及非常严重危害4个等级。
为比较不同算法在网络安全态势预测领域的
预测精度,将本文模型与融合CNN 的格拉姆角场(Gramian Angular Field ,GAF )模式识别方法进行对比,通过多次随机抽取30%的正常数据和10%的异常数据进行模型训练与预测,得到的预测精度对比如图2所示[14]。
由图2可知,多数情况下,所提算法预测精度比融合CNN 的GAF 算法高。同时,基于10次预测精度的曲线可知,所提算法健壮性较优。此外,由于在处理多传感器数据时充分考虑了传感器数据之间的冗余性和互补性,采用模态内一致性、模态间一致性以及基于标签信息的线性回归学习等方法,训练卷积自编码网络的参数和线性回归二进制码,实现了多种信息之间的补充和修正,从而为安全预测提供相对完整、一致的语义信息。虽然融合CNN 的GAF 算法在特征提取方面性能较好,但是没有从多模态数据之间一致性、模态内一致性的角度考虑特征的融合,因此在对抗数据的随机性和噪声时略逊一筹。
4 结 论
针对现有多传感器数据融合难的问题,提出基于多源数据约束性融合的传感器网络安全预测方法。该方法弥补了传统使用单一传感器数据实现网络安全态势预测的劣势。实验表明,所提方法具有较高健壮性,通过关联多种传感器数据之间的关系,可为系统提供相对完整、一致的语义信息,有利于实现网络安全预测。参考文献:
[1] JIN Y,ZHANG D,LI M,et al.A fuzzy
support vector machine-enhanced convolutional neural network for recognition of glass defects[J].International Journal of Fuzzy Systems,2019,21 (6):1870-1881.
[2] 吕 鹏.基于深度学习的人脸表情识别算法研
究[D].南京:南京邮电大学,2022.
[3] 张习之,李立君.基于改进卷积自编码机的油
茶果图像识别研究[J].林业工程学报,2019,4 (3):118-124.
[4] CUI W,ZHOU Q,ZHENG Z.Application of
a hybrid model based on a convolutional auto-encoder and convolutional neural network in object-oriented remote sensing classification[J].Algorithms,2018,11(1):1-9.
[5] ZHANG J,GAO J,LI J,et al.An improve
c o n v o l u t i o n a l  a u t o -e n c o
d
e  d e n o i s i n g method[C]//82nd EAGE Annual Conference & Exhibition,2021.
[6] LI N,DENG Y.Cascaded convolution neural
network for color image recovery[C]//2022 5th International Conference on Information Communication and Signal Processing (ICICSP),2022.
[7] LIU J Y,YANG Y H.Denoising auto-encoder
with recurrent skip connections and residual regression for music source separation[C]//2018 17th IEEE International Conference on Machine Learning and Applications(ICMLA),2018.
[8] ZHENG C,ZHU L,LU X,et al.Fast discrete
collaborative multi-modal hashing for large-scale multimedia retrieval[J].IEEE Transactions on Knowledge and Data Engineering,2019,32(11):2171-2184.
[9] ABAVISANI M,PATEL V M.Multimodal sparse
and low-rank subspace clustering[J].Information
82
预测精度/%
第1次第2次第3次第4次第5次第6次第7次第8次第9次第10次
实验次数
图2 算法精度对比
(下转第248页)
间的逻辑关系纷繁复杂,安全管理变得异常烦杂,维护成本越来越高,维护难度越来越大,维护人员所
需具备的专业技术水平也要越来越高。随着供配电系统稳定性、安全性、易维护性、节能效率要求越来越高,集中式供电的不足之处逐渐显现。
2.2.2 分散式配电方案
分散式配电方案中,整个机房建设2个或者多个动力室,动力室内UPS为主设备区提供电能,能够满足特殊的安全要求。分散式配电方案又称点式方案,其特点是在一个机房中由多个动力室内UPS系统分别为IT设备提供电力。
由于存在多个动力室,抗灾能力最佳,但针对数据中心建设而言,相应的配套部分建筑面积占用比例最大。该方案适用于改建型数据中心,由于需要多路外市电引接,建设成本略高。
2.2.3 区域式配电方案
区域式配电往往将配电设备统一规划在一个大的区域,区域内配置多组UPS系统,系统之间无任何复杂的逻辑关系。依据数据中心机房的布局或设备的功能划分为多个区域,每个区域由一组(一路市电+一路UPS电)或2组UPS(双UPS系统)来供应该区域所需电能。
区域式配电属于当下最常见的配电方案。从配电逻辑来看,通过合理的规划,人为地将数据中心服务器设备划分为网格单元,将相配套的配电划归在网格中。通过网格与网格之间的隔离,同样实现了备灾功
能。从维护的角度来看,该配电结构简单、易维护,维护界面清晰,建设更加经济、合理。
3 结 论
作为供配电系统的规划者,应从经济学的角度对供配电系统的稳定性和建设者的个性化需求进行研究与分析。通过评价项目全生命周期的经济效益,充分考虑项目全生命周期的建设、运营、扩建、管理以及维护的总成本,调研论证项目发展初期投入、运行维护企业成本、营收能力,确保获得最大的经济社会效益。在系统架构设计和设备选择的过程中,在保证配电系统安全水平的前提下,充分调研和论证整个项目生命周期内各种影响因素,构建高效合理的配电结构,实现较高的性价比。
参考文献:
[1] 姚 赟.高可靠性绿数据中心的构建[M].
西安:西北工业大学出版社,2013.
[2] 郭 武.数据中心供配电技术与设计[M].北京:
机械工业出版社,2022.
[3] 张 磊,陈 乐.云数据中心网络架构与技
术[M].北京:人民邮电出版社,2019.
[4] 林予松,李润知,刘 炜.数据中心设计与管
理[M].北京:清华大学出版社,2017.
[5] 中华人民共和国住房和城乡建设部,中华人民
共和国国家质量监督检验检疫总局.数据中心
设计规范:GB 50174—2017[S].北京:中国计划
出版社,2017.
Fusion,2018,39:168-177.
[10] FONAŁ K,ZDUNEK R.Fast hierarchical tucker
decomposition with single-mode preservation and tensor subspace analysis for feature extraction from augmented multimodal data[J].Neurocomputing,2021,445:231-243.
[11] JIN L,LI K,HU H,et al.Semantic neighbor
graph hashing for multimodal retrieval[J].IEEE Transactions on Image Processing,2017,27(3):1405-1417.
[12] SHAHDOOSTI H R,MEHRABI A.Multimodal
image fusion using sparse representation classification in tetrolet domain[J].Digital Signal Processing,2018,79:9-22.
[13] YANG K,KANG J,JANG J,et al.Multimodal
sparse representation-based classification scheme for RF fingerprinting[J].IEEE Communications Letters,2019,23(5):867-870.
[14] LYU C,HUO Z,CHENG X,et al.Distributed
optical fiber sensing intrusion pattern recognition based on GAF and CNN[J].Journal of Lightwave Technology,2020,38(15):4174-4182.
(上接第181页)
· 248 ·

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。