doi:
10.3969/j.issn.1003-3106.2024.05.019
引用格式:王文韬,何小海,张豫 ,等.基于改进STANet的遥感图像变化检测算法[J].无线电工程,2024,54(5):1226-1235.
[WANGWentao,HEXiaohai,ZHANGYukun,etal.RemoteSensingImageChangeDetectionAlgorithmBasedonImprovedSTANet[J].RadioEngineering,2024,54(5):1226-1235.]
基于改进STANet的遥感图像变化检测算法
王文韬1
,何小海1
,张豫 2
,王正勇1
,滕奇志
(1.四川大学电子信息学院,四川成都610041;
2.成都西图科技有限公司,四川成都610065)
摘 要:遥感图像变化检测是为了识别出双时相图像之间的显著变化。给定2个在不同时间拍摄的配准图像,光照变化和错配误差会掩盖真实物体的变化,探索不同时空像素之间的关系可以提高遥感图像变化检测方法的性能。在SpatialTemporalAttentionNeuralNetwork(STANet)中,提出了一种基于孪生的时空注意力神经网络。在其基础上进行改进:①对距离度量模块由于线性插值导致的变化特征间隙模糊问题,设计了对距离特征的上采样模块,使得变化区域间隙更加明显,虚警率更低;②针对STANet的PyramidSpatialTemporalAttentionModule(PAM)模块计算开销大的问题,引用了新的CoordinateAttention(CA)模块,在降低运算开销的基础上,更好地识别了不同空间、通道的特征;③针对STANet对ResidualNetwork(ResNet)提取出的特征图利用不充分的问题,加入了深监督模块,利用中间层的特征计算一个权重衰减的loss,起到正则化的作用。实验表明,改进之后的网络将基线模型的F1得分从81.6提高到86.1。在公共遥感图像数
据集上的实验结果表明,改进的方法优于其他几种先进的方法。关键词:遥感图像;STANet;深监督;
正则化改进算法CA中图分类号:TP391.4文献标志码:A开放科学(资源服务)标识码(OSID):文章编号:1003-3106(2024)05-1226-10
RemoteSensingImageChangeDetectionAlgorithmBasedon
ImprovedSTANet
WANGWentao1
,HEXiaohai1
,ZHANGYukun2
,WANGZhengyong1
,TENGQizhi
(1.
CollegeofElectronicandInformationEngineering,SichuanUniversity,
Chengdu610041,China
2.
ChengduXituTechnologyCo.,Ltd.,Chengdu610065,China)
Abstract
:Remotesensingimagechangedetectionistoidentifythesignificantchangesbetweendualtemporalimages.Giventwo
registrationimagestakenattwodifferenttimes,changesinlightingandmismatcherrorscanmaskthechangesinrealobjects.
Exploringtherelationshipbetweendifferentspatiotemporalpixelscanimprovetheperformanceofremotesensingimagechangedetection
methods.InSpatialTemporalAttentionNeuralNetwork
(STANet),atwinbasedspatiotemporalattentionneuralnetworkisproposed,
basedonwhichsomeimprovementsaremade.①Bydesign
inganup samplingmoduleforthedistancemeasurementmodule,theproblemoffuzzyfeaturegapscausedbylinearinterpolationissolved,makingthegapinthechangingareamoreobviousandthefalsealarmratelower.②ToaddressthehighcomputationalcostofSTANet sPAM(PyramidSpatialTemporaryAttentionModule)module,anewCoordinateAttention(CA)attentionmoduleisintroducedtobetteridentifythefeaturesofdifferentspacesandchannelswhile
reducingthecomputationalcost.③TosolvetheproblemofinsufficientutilizationofthefeaturemapsextractedfromResidualNetwork
(ResNet)bySTANet,adeepsupervisionmoduleisaddedtocalculateaweightattenuationlossusingthefeaturesofthemiddlelayer,
whichplaysaroleofregularization.TheexperimentshowsthattheimprovednetworkimprovestheF1scoreofthebaselinemodelfrom81.6to86.1.Theexperimentalresultsonpublicremotesensingimagedatasetsshowthattheimprovedmethodoutperformsseveralotheradvancedmethods.
Keywords
:remotesensingimage;STANet;deepsupervision;CA
收稿日期:2023-09-19基金项目:国家自然科学基金(62271336,62211530110)FoundationItem:NationalNaturalScienceFoundationofChina(62271336,62211530110)
测控遥感与导航定位
0 引言
遥感变化检测是识别多时相遥感图像之间显著差异的过程,显著差异通常取决于特定的应用,如城市化
监测[1-2]、灾害评估[3]和环境监测[4]。近年来,自动化变化检测技术促进了遥感应用的发展,受到了广泛的关注。
随着深度学习的发展,许多变化检测的网络模型被提出,而针对遥感图像的变化检测模型也层出不穷。深度学习由于其端到端的网络结构,输入的双时相图片经过特征提取后在输出端直接输出相应的特征图,不但简化了对变化检测任务研究的复杂程度,还大大提高了检测的精确度。
通常,最流行的变化检测解决方案是使用来自相同传感器的双时间遥感图像[5],利用孪生神经网络对双时相遥感图像分别进行处理并提取出对应的特征,再根据提取出的特征进行差别检测。孪生结构使用不同的网络分支来实现差异化特征提取,以获得更有针对性的特征。在所有深度神经网络架构中,62%的神经网络架构使用卷积神经网络(CNN)[5]。在检测差异时,大部分检测方法以识别二进制变化为主,区分变化的存在与否[6]。在整个检测过程中,研究者以不同的角度进行深入探索,得出了多种有效的检测方法。
Daudt等[7]引入全卷积孪生网络,为遥感图像变化检测任务带来了一种新的方法。全卷积意味着
网络的所有层都是卷积层,不包含全连接层,这使得网络可以接受不同尺寸的输入图像。而孪生网络是一种特殊的网络结构,其中有2个相同结构的分支,分别接受2幅输入图像,然后通过比较这2个分支
的特征来判断图像是否发生变化。设计了适用于孪生网络的损失函数,用于比较2个分支提取的特征。损失函数的设计使得网络在训练过程中能够学习到有效的特征表示,以便更好地判断图像是否发生变化。实验结果表明,该方法在变化检测任务中具有较好的性能,相比传统方法具有更高的准确性和鲁棒性。
从网络架构的角度,Bandara等[8]提出的Change
Former利用编-解码结构搭建网络,提出的方法统一了分层结构的变换器、编码器与多层感知解码器,
在孪生网络架构中高效地提取精确检测所需的多尺度长程细节,降低了神经网络的复杂度和深度,实验结果表明该方法有良好的检测效果。
从多级特征有效利用的角度,Li等[9]提出一种名为AR CDNet的新型变化检测网络,将在线不确定性估计分支提取的不确定性感知特征与多级时间差异特征聚合起来,并且从可靠性的角度,构建了一个在线不确定性估计分支来模拟像素级的不确定性。实验表明,训练完成后,AR CDNet能够在没有地面真值的情况下提供准确的变化图和评估像素级的不确定性。
从上下文差异信息的角度,Chen等[10]提出的BIT网络是一种基于Transformer的方法,基于
Transformer的网络可以通过利用卷积和变换器的强度来有效地对上下文信息进行建模[5]。该方法使
用Transformer编码器-解码器网络通过语义标记增强ConvNet特征的上下文信息,然后进行特征差分得到变化图。
从网络连接的角度,Fang等[11]提出了一种
SNUNet CD的方法,即密集连接孪生网络变化检测方法。通过堆叠多个密集块(DenseBlock)来提取
特征。每个密集块由多个卷积层组成,通过密集连接将前面的层与后面的层连接起来。由于高分辨率图像通常具有更多的细节和信息,SNUNet CD的密集连接结构可以更好地捕获图像的特征,提高变化检测的准确性,从而提高网络的特征提取能力和重用性。
从对提取出的特征进行处理的角度,Chen等[12]提出了一种新网络———SARAS Net。在特征相减之前使用关系感知模块,在相减之后使用比例感知模块和交叉变压器模块。最后,交叉Transformer模块融合了多层次的特征,更加注重空间信息,容易分离前景和背景,从而减少误报。实验表明,SARAS Net在不同数据集上均取得了良好的效果。
从数据集的角度,尽管深度学习算法可以从原始遥感图像中学习高度抽象的特征表示,但检测和识别是否成功取决于大量的训练样本[6]。然而,由于收集标记的高分辨率图像具有挑战性,因此经常缺乏高质量的训练。在这些条件下,如何用较少的适当训练样本,来保持深度学习算法的学习性能,仍然是一个重要的问题。因此,文献[13-14]提出了一种单时间监督学习(SingleTemporalSupervisedLearning,
STAR)的模型,利用未配对标记的图像来训练高精度变化检测器,并将其推广到现实世界的双时态图
像。STAR使用单个时间点的监督数据来训练模型,避免了获取多个时间点标注数据的难题,提高了数据获取的效率。相对于多时相图像变化检测,单时间点监督学习简化了问题,减少了模型训练和推断的复杂性。综合实验结果表明,ChangeStar在
测控遥感与导航定位
单时间监督下以较大的优势优于基线,在双时间监督下实现了优异的性能。
从双时相特征差异度量标准的角度,Chen等[15
]提出的SpatialTemporalAttentionNeuralNetwork(STA
Net)网络集成了一种新的变化检测自注意模块,在时间和空间尺度上对特征图进行处理,计算不同区域的注意力权重,对2个特征图做距离计算来评估差异性的大小,最终取得了良好的效果。但是,
在最后对特征图的处理上,
STANet是对双时间距离特征图取欧氏距离再做线性插值,会导致图像上的变化区域间隙模糊、虚警率高,虽然识别到了变化像素的位置,但丢失了检测的精度。PyramidSpatialTemporalAttentionModule(PAM)的设计虽然对图像不同区域计算了注意力权重,然而计算开销大。在PAM之前的特征图没有得到更好的利用。针对上述问题,本文设计了一种基于STANet的改进方法,引入了分层上采样模块对特征图进行处理,提高检测精度。使用CoordinateAttention(CA)[16
]模块替换BasicSpatialTemporalAttention
Module(BAM)模块,在不降低检测精度的前提下,
大大降低了计算开销。在特征图进入PAM之前,
加入了深监督,使注意力能够在更加明显的特征上计算注意力权重。
1 
算法框架介绍
1.1 
改进的STANet网络结构STANet主干网络为ResNet,利用ResNet提取出双时相遥感图像的距离特征。为了解决神经网络对双时相遥感图像特征不同时间、空间特征依赖性
的检测缺失,STANet集成了BAM模块,用来捕捉任意2个位置之间的时空依赖关系(注意权重)。之后将它嵌入到金字塔模型中,达到聚合多尺度的注意力特征的效果,获取图像更精细的细节,充分利用了不同位置和时间单个图像之间的时空相关性,有效地在时间和空间上提取了长期的变化特征。从中得到的双时相距离特征输入到度量模块,计算双时相特征的欧氏距离,再经过阈值分割器判断出变化区域的位置,然后,经过线性插值得到变化图。因此,距离特征图的计算将会直接影响到最终的变化图。STANet基于此设计了度量距离与标签差距的批量平衡对比损失函数(Batch balancedContrastive
Loss,BCL),通过批量的距离特征图中的距离值和标签中的变化与未变化区域像素来计算监督损失函数。
本文的网络结构如图1所示,在STANet原有的
基础上进行了改进。
图1 改进的STANet结构
Fig.1 ArchitectureofimprovedSTANet
测控遥感与导航定位
  BAM虽然可以有效提取时空特征,但是计算开销大,并且卷积没有办法获取图像特征中不同维度
之间长期的关联特征,只能提取出局部性特征。CA通过将特征图中的空间信息融合到通道特征中,进
而提取出不同维度的长期依赖关系,同时大大降低了计算开销。因此本文引入CA替换BAM用来在降低计算开销的同时提高检测的精度。
由于变化区域相隔较近,线性插值将会导致检测出的变化图中变化区域之间间隙模糊甚至重叠,并且检测的精度不够,变化区域不能很好地符合真实标签。因此,本文移除了STANet中的距离度量模块,在注意力检测后加入分层上采样模块。
在STANet网络中,注意力机制的引入是为了更好地捕获从ResNet中提取出来的距离特征。从这一点看来,ResNet提取的特征也应该符合网络终端输出的特征图。因此,为了使距离特征更加明显,也为了使注意力模块能够从更明显的特征图中捕获注意力信息,引入了深监督机制。将ResNet的特征图提前输入到上采样模块,再计算相应的损失函数,这样就可以使特征更加明显。
1.2 时空注意力模块
1.2.1 CA机制
Hou等[16]提出了一种新型且高效的注意力机制,通过将特征图中的空间信息融合到通道特征中,
进而提取出不同维度的长期依赖关系,同时大大降低了计算开销。由于2D的全局池化层通常会造成图
像特征中的空间信息丢失,CA机制将图像特征通过2个一维网络进行编码,生成X和Y两部分一维特征,从而有效地通过图像的空间特征生成相应的注意力特征。
具体地说,如图2所示,CA通过2个一维的全局池化层,将图像的特征图按照垂直和水平方向提取2个具有方向特征的特征图。之后,利用这2个具有方向性的图像特征,通过一个卷积层分别进行编码,进而得到2个不同方向的注意力特征,这2个注意力特征分别是对图像特征沿2个方向的长期依赖进行捕获而生成的注意力特征图。
因此,图像特征中的空间信息可以被有效地保留在生成的注意力特征图中。然后,通过和原图相乘,得到注意力分数加权的图像特征。其中,注意力分数也表示了对图像特征中感兴趣部分的强调。CA对图像特征的处理具体对2个方向的坐标注意力进行捕获,
因此也叫作坐标注意力。
图2 CA模块网络结构
Fig.2 NetworkstructureofCAmodule
可以看到,注意力在垂直方向和水平方向都对输入的特征产生了作用,2个方向的注意力特征张量的每个特征元素都可以在2个方向上有效感知输入特征中感兴趣的对象元素,从而使整个模型更有效地进行识别。
总体上看,CA不仅可以在通道维度上跨通道捕获有效特征,还可以在不同的方向上感知并捕获空间坐标特征,有效地提取输入特征中感兴趣的对象。同时CA计算开销小、复杂度低,可以高效地为不同的模型增强特征。因此,本文引入CA来代替BAM用以捕获特征图中的注意力信息。
1.2.2 金字塔坐标注意力模块
与STANet相同,为了聚合多尺度时空注意上下文来增强细节的识别能力,引入CA机制后,在原有的PAM基础上替换了BAM,组成了金字塔坐标注意力(PyramidCoordinateAttention,PCA)模块。
PCA模块结合不同尺度的时空注意语境,生成多尺度注意特征。PCA模块有4个分支,每个分支将特
征图平均划分为一定尺度的几个子区域。在每个分支中,PCA模块将CA应用于每个子区域的像素,以
测控遥感与导航定位
获得该尺度下的局部注意力表示。然后,通过聚合4个分支的输出特征,生成多尺度的注意力表示。因为图像空间中的每个像素都涉及不同尺度子区域
的自注意机制,这些子区域是由小到大排列的,就像金字塔的结构一样,所以称这种架构为金字塔注意力模块。
图1中给出了PCA模块的架构。给定双时间特征图X(1)、X(2)∈ C×H×W,在输入PCA模块前对特征图做差值生成X(3)∈ C×H×W,之后将3个特征图堆叠成一个特征张量X∈ C×H×W×3。然后有4个平行的分支,每个分支将特征张量平均划分为s×s个子区域,其中s∈S,S∈{1,2,4,8},定义了4个金字塔尺度。在尺度s的分支中,每个区域定义为Rs,i,j∈ C×Ws×Ws×3,1≤i,j≤s,对这4个分支分别使用4个
CA。在每个金字塔分支中,分别对所有子区域Rs,i,j应用CA,生成更新的残差特征张量Ys∈ C×H×W×3。然后,将这些特征张量Ys(s∈S)堆叠起来并输入卷积层,生成最终的特征张量Y∈ C×H×W×3。最后,将Y与X相加,得到新的张量Z∈ C×H×W×3。
1.3 分层上采样模块
在STANet中,对时空注意力模块生成的双时间特征图取欧式距离得到最终的距离特征,然后根据选取的阈值将特征图每个像素区分为变化像素和未变化像素,再将得到的检测图线性插值,最终得到与输入图像大小相同的变化检测图。
然而,由于线性插值的影响,变化区域之间的间隙会变得模糊,变化区域的形状不够明显,并且容易放大错误检测的像素值,造成虚警率上升。因此,本文设计了一种上采样模块,用来对PCA模块提取出的距离特征进行判别,经过多层上采样对特征图的处理,可以生成更接近真实标签的特征图。
分层上采样模块网络结构如图3所示。每个卷积块中包含2个卷积层,其中Covi,i∈(1,3,5)是
2个卷积核为3×3、步幅为1、填充为1的卷积层,再经过批量规范化(BatchNorm2d)和ReLU激活函数。
特征图经过Covi,i∈(1,3,5)后会和输入的特征图相加,再输入下一个Covi,i∈(2,4,5),它代表了一个卷积核为1×1、步幅为1、填充为1的卷积层,紧接着经过BatchNorm2d和ReLU激活函数。3个卷积块分别提取不同尺度、通道的距离特征图,再将它们堆叠起来输入到Cov7中,Cov7是一个卷积核为1×1、步幅为1的卷积层。最终,经过上采样模块会
输出一个和输入图像大小相同的距离特征图。
图3 分层上采样模块网络结构
Fig.3 Networkstructureoflayeredupsamplingmodule
1.4 深监督机制
传统的神经网络由于端到端的学习架构,会出现隐藏层的特征透明度不高以及辨别力不高的问题,继而会导致整个训练过程十分困难,过度依赖大量数据的训练以及大量参数的调试。在STANet中,引入PAM的目的是捕获双时间特征图时空上的长期依赖,从而获取到更好的注意力特征。然而,整个网络在训练中,输入PAM之前的特征图如果并不符合变化检测需要的特征,PAM的作用将会被降低,从而导致训练时间久、损失函数波动较大。
为了解决深度神经网络中收敛速度慢和梯度消失等问题,深监督采用了在深度神经网络的隐藏层加入分支的策略来对整个网络进行监督,并起到正则化的作用。具体而言,针对中间隐藏层特征透明度不高、深层网络中浅层以及中间网络难以训练的问题,对隐藏层再进行监督(损失函数),同时用最
测控遥感与导航定位

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。