2021578近年来,目标跟踪逐渐成为计算机视觉领域的热点课题,它被广泛地应用在视频监控、自动驾驶、人机交互和医学诊疗等众多领域。目前,目标跟踪面临诸多挑战,比如跟踪目标的尺度变化、跟踪漂移以及背景杂乱等。因此,设计一个准确率和稳健性较高的算法成为目标跟踪研究的重点。
主流的跟踪算法分为相关滤波类算法和深度学习类算法。在相关滤波算法中,KCF (Kernelized Correla-tion Filter )[1]
使用循环矩阵扩大样本容量,提高分类器
的准确性。成悦等[2]提出使用加权方法融合多种特征,增强算法的鲁棒性。在深度学习算法中,Bertinetto 等[3]提出基于相似度匹配的目标跟踪算法SiamFC (Fully-Convolutional Siamese Networks )。SiamFC 使用离线
训练的网络模型,通过比较输入图像和模板图像的相似度大小来得到跟踪结果。以SiamFC 为基础,Representation
Learning for Correlation Filter (CFNet )[4]
将相关滤波器
作为一个网络层嵌入到孪生网络中,加强对深度特征的学习。在SiamFC 中,模板图像由简单裁剪得到,背景也被当作正样本来和检测图像匹配。这可能会导致:(1)当模板图像中背景与前景外观较为相似的时候,背景可能获得更大的相似度评分从而导致跟踪漂移。(2)在目标运动过程中背景发生多次变化时,算法可能会跟踪到与模板中背景相似的目标上。此外,SiamFC 使用最深层的卷积特征,缺乏对目标底层颜及纹理信息的学习。
最近,注意力思想被融合到目标跟踪中,用来提高算法的准确率。其中,CSR-DCF (Discriminative Corre-
融合注意力机制的孪生网络目标跟踪算法研究
玲,王家沛,王
鹏,孙爽滋
长春理工大学计算机科学技术学院,长春130022
要:在全卷积孪生网络跟踪算法(SiamFC )的基础上,提出一种融合注意力机制的孪生网络目标跟踪算法。在网
络模板分支,通过融合注意力机制,由神经网络学习模板图像的通道相关性和空间相关性,进而增大前景贡献,抑制背景特征,提升网络对正样本特征的辨别力;同时,使用VggNet-19网络提取模板图像的浅层特征和深层特征,两种特征自适应融合。在OTB2015和VOT2018数据集上得到的实验结果表明,与SiamFC 相比,所提算法能够更好地应对运动模糊、目标漂移和背景多变等问题,取得了更高的准确率和成功率。关键词:目标跟踪;孪生网络;特征融合;注意力机制文献标志码:A
中图分类号:TP 391.4
doi :10.3778/j.issn.1002-8331.2001-0330
Siamese Network Tracking Algorithms for Hierarchical Fusion of Attention Mechanism
WANG Ling,WANG Jiapei,WANG Peng,SUN Shuangzi
College of Computer Science and Technology,Changchun University of Science and Technology,Changchun 130022,China Abstract :Based on the full-convolution Siamese network tracking algorithm SiamFC,this paper proposes a Siamese net-work target tracking algorithm fused att
ention mechanism.In the template branch,the neural network can learn the chan-nel correlation and the spatial correlation of the template image through the attention mechanism fusion,thus increasing the foreground contribution,suppressing the background features,and improving the discrimination of network to positive samples features.Meanwhile,the VggNet-19network is used to extract the shallow and deep features of the template image,the two features fuse adaptively.The experimental results on the datasets of OTB2015and VOT2018demonstrate that compared with SiamFC,the proposed algorithm can more effectively deal with the tracking problems,such as motion blur,target drift and background clutter,obtains higher accuracy and success rate.Key words :object tracking;Siamese network;hierarchical fusion;attention mechanism
基金项目:吉林省科技发展计划技术攻关项目(20190302118GX
169
2021578lation Filter with Channel and Spatial Reliability )[5]
使用空间置信图和似然概率判断检测区域中的正样本图像,降低背景系数的权重。LSART (Learning Spatial-Aware Regressions )[6]将空域正则化卷积核加入到神经
网络中,使网络聚焦于特定区域。ACFN (Attentional Correlation Filter Network )[7]
使用长短期神经网络,选
取最优滤波器来适应目标的外观变化。在以上算法中,注意力机制作为单独学习的部分,需要较大的计算量,因而跟踪速度都比较慢。
针对以上问题,本文提出一种融合注意力机制的孪生网络目标跟踪算法。具体贡献如下:(1)在孪生网络的模板分支中融合空间注意力和通道注意力,抑制背景信息,增强卷积网络对正样本的辨别力;(2)使用离线训练并融合注意力机制的VggNet-19(Very Deep Convo-lutionnal Networks )[8]网络提取目标的深层特征和浅层
特征,进行自适应融合,增强算法鲁棒性;(3)注意力机制通过神经网络学习得到,不需要单独训练,并且可以主动适应不同的图像。
1算法概述
算法的整体框架如图1所示。搭建两支共享权值
的卷积神经网络,组成孪生网络。使用VggNet-19网络提取图像的深层特征和浅层特征。深层特征提取Conv5_1,浅层特征提取Conv1_2。在孪生网络的模板分支,融合通道注意力与空间注意力机制(Channel And Spatial Attention ,CASA )。模板分支与搜索分支中的深层与浅层特征分别进行自适应融合,并通过互相关进行相似度匹配。
1.1用于跟踪的全卷积孪生神经网络
本文使用的全卷积孪生网络由两支共享权重的卷
积神经网络组成,使用离线训练的VggNet-19网络提取目标的特征,去掉网络中计算量较大的全连接层,使用相似度函数来计算结果,公式如下:
s =f (Z ,X )=ψ(Z )∗ψ(X )+b 1
(1)其中,Z 代表模板图像,X 代表搜索图像,X 的面积大
于Z ,包括了更多的空间上下文信息。ψ表示卷积函数,∗表示互相关,b 1是偏置项,b 1∈ℝ,ℝ是实数域。首先对Z 和X 进行卷积操作,然后通过密集滑动窗口的移动,使ψ(X )和ψ(Z )做互相关,每一次互相关都会得到一个相似度得分,并映射到标量得分图D 中,互相关值最大的位置即为目标。训练时,使用logistic 损失函数计算真实值与预测值之间的误差:
h (y,s )=ln(1+exp(-ys ))
(2)
其中,s 表示模板图像在搜索图像上进行一次互相关操作时得到的相似度得分,y ∈{}-1,+1代表目标的正负样本值标签。对于Z 和X 在匹配中产生的所有误差,使用下面的损失函数进行计算:
H (Y,S )=1D ∑i =1
n
h (y [i ],s [i ])
(3)
其中,s [i ]表示第i 个滑动窗口映射在D 中的得分,y [i ]表示第i 个滑动窗口的真实值。最后使用随机梯度下降法SGD (Stochasic Gradient Descent )进行多次迭代,得出卷积神经网络的最优参数θ:
arg min θ1N ∑i =1
N
H (y i ,f i (z,x ;θ))
(4)
1.2通道和空间注意力机制
本文算法的注意力机制包括通道注意力和空间注
意力。对于通道注意力,先对图像压缩然后激励,由网络学习各通道的重要程度,进而对各个通道的特征进行重新标定,增强模板图像中的前景特征同时抑制背景特征。对于空间注意力,使用两次不同的池化来加强局部特征。算法首先融合通道注意力,然后融合空间注意力。注意力机制的整体流程如图2所示。
设输入图像为Z ,经过一次卷积变换后的得到图像为M 。Z ∈ℝW ×H ×C ,M ∈ℝW'×H'×C'。变换过程如公式(5)所示:
m c =f c ⊗Z =∑s =1C
f s c ⊗Z s
(5)
其中,f s c 为二维的空间卷积核,
⊗代表卷积操作。m c 即为M
+
×
170
2021578道数为C 的图像M ,为获得它全局信息,使用公式(6)进行平均池化。具体来说,就是通过图像的二维空间维数W ×H 对M 进行压缩从而生成一个像素统计点p ,p ∈ℝC
p c =F sq (M c )=
1
W ×H ∑i =1W
∑j =1
H
m c (i,j )(6)
之后,对p 进行激励来获取各通道间相关性。激励操作如公式(7)所示:
s =σ2(g (p ,w ))=σ2(w 2σ1(w 1p ))
(7)
式中,σ1中代表激活函数Relu ,σ2代表激活函数Sigmoid ,w 1,w 2∈ℝ
c
r
×c 。最后,经过重新标定后输出图像:
Z '=G (m c ,s c )=s c ⋅m c (8)M '=Z c '⊗f c
(9)
其中,Z '=[z 1',z 2',⋯,z c ']是重新标定特征后的多通道图像。G 表示卷积后的图像m c 和标量s c 的乘积函数,M c '表示重新标定通道权重后图像的卷积特征图。
空间注意力通过学习空间信息获得模板图像中的正样本区域。在上文得到的图像Z '中,使用一个7×7
的卷积核,对图像进行全局平均池化(AvgP )和最大池
化(MaxP )以增加局部特征信息。F s (Z ')是最终生成的特征图。如公式(10)所示:
F s (Z ')=σ2(f 7×7([AvgP (Z ');M ax P (Z ')])
(10)
1.3
分层融合
本文使用的深层特征由VggNet-19网络提取,相比
AlexNet [9]网络提取的深层特征,层次更深,对目标的语义和属性具有更好的表征能力。但是完全使用深层特征会导致对浅层纹理特征和位置特征的学习不足,无法分辨属性相同但是表观差异较大的目标。为了兼顾算法的准确率与实时性,本文提取深层特征conv5_1和浅层特征conv1_2。
在孪生网络的模板分支,对提取到的分层特征,采
用双线性插值的方法扩大高层分辨率较小的特征图,最终使深层和浅层的特征图具有相同的尺寸,实现融合。双线性插值的计算公式如下所示:
p i '=∑j
w ij p j
(11)
其中,p j 表示原特征图,p i '表示插值后的特征图,
w i j 为插值系数。
1.4网络结构和参数
表1展示了孪生神经网络的模板分支中加入CASA
机制后的网络结构和各层对应的参数。
2实验结果及分析
2.1实验环境和参数
本文算法使用Python 语言在TensorFlow 框架下进行实验。实验环境如表2所示。
Conv
MaxP ,AvgP
Recover
squeeze
Excitation
3×3
1×1×C
1×1×C
C
W
H H ′W ′
C
C
W ′
H ′
H ′W ′
C
图2注意力机制流程图
Deep Net Conv1_1Conv1_2Pool1Conv2_1Conv2_2Pool2Conv3_1Conv3_2Conv3_3Conv3_4Pool3Conv4_1Shallow Net Con1_1CASA Conv1_2
Kernel size
3×3
Exemplar size 127×127125×125123×12361×6159×5957×5728×2826×2624×2422×2220×2010×108×8Search size 255×255253×253251×251125×125123×123121×12160×6058×5856×5654×5452×5226×2624×24Channel
32326464128128128128256表1
网络结构和各层对应的参数
171
2021578
训练时,深度学习的衰减率为10-2~10-5,训练过程分为50个阶段,每个阶段训练5000对样本,进行8次迭代。为应对目标的尺度变化,匹配时对模板图像进行三个尺度的缩放,缩放的比例为1.025{-1,0,1}。
2.2训练集和测试集
本文使用ILSVRC2015-VID[10]数据集作为训练集,它包含了30多种目标和4000多个视频片段,并且标注的帧数超过100万个。使用OTB2015[11]和VOT2018[12]数据集作为验证集。OTB2015有100个视频序
列,VOT2018数据集则包括了具有多种挑战的60个视频序列。
2.3评价标准
2.3.1OTB评价标准
OTB数据集评测工具使用准确率(Precision plot)和成功率(Success plot)对算法进行评估。其中,准确率的评判标准是中心位置误差ρ小于阈值T1的帧数在所有跟踪帧数中所占的比例,如公式(12)所示:
Precision plot=count(ρ<T
1
)
count(ρall)(12)
实验中,将T1设定为20个像素点。中心位置误差ρ的计算方法如下所示:
ρ=(x2-x1)2+(y2-y1)2(13)其中,x1、y1表示真实的位置坐标,x2、y2表示预测的位置坐标。
成功率为算法预测的跟踪区域和目标真实区域的交并比IoU(Intersection-over-Union)大于阈值T2的帧数占所有跟踪帧数的比例。计算如公式(14)所示:
Success plot=count(IoU>T
2
)
count(IoU all)(14)
实验中,设置T2为0.5。IoU的计算公式如下所示:
IoU=area(A)⋂area(G)
area(A)⋃area(G)(15)
其中,area(A)表示预测的跟踪区域,area(G)表示目标真实区域。
2.3.2VOT评价标准
VOT数据集使用Accuracy和EAO(Expected Average Overlap)对跟踪算法进行评测。其中,精确率(Accuracy)是指跟踪器在单个跟踪序列下,跟踪框和目标真实区域
2.4OTB数据集的实验结果
2.4.1定量分析
为证明注意力机制和分层特征融合的有效性,本
文首先使用OTB2015数据集进行了3组对比实验。
分别是使用最深层特征的onlyDeep、使用分层特征
融合的ML-Deep和使用融合注意力机制后的最终算
法proposed,结果如图3所示。可以看出ML-Deep比
onlyDeep高了0.048,而proposed比ML-Deep高了0.012,
是最优。
此外,本文算法与使用浅层特征的相关滤波算法
KCF、BACF(Background-Aware Correlation Filters)[13]
和ECO-HC[14]、融合深度特征的相关滤波算法Deep-
SRDCF[15]以及使用孪生神经网络的算法SiamFC和
CFNet在OTB2015中进行了对比实验。各算法的特性
如表3所示。
名称
CPU
Memory
Graphics Card
Python/Tensorflow
Cuda/CuDNN
指标
Intel®Xeon®****************GHz
16GB
NVIDIAGeForce RTX TM2080Ti
2.7/1.14
9.0/7.6
表2实验环境
5101520253035404550
Location error threshold
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
P
r
e
c
i
s
i
o
n
proposed[0.850]
ML-Deep[0.838]
onlyDeep[0.790]
0.10.20.30.40.50.60.70.80.9  1.0
Overlap threshold
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
S
u
c
c
e
s
s
r
a
t
e
proposed[0.816]
ML-Deep[0.766]
onlyDeep[0.741]
(a)准确率
(b)成功率
图3多特征对比结果
跟踪算法
KCF
BACF
特征
HOG
HOG+CN
多尺度
注意力思想
表3算法特性
172
在常用的正则化计算方法中 属于
2021578
从图4可以看出,本文算法的准确率达到了0.850,和目前比较好的DeepSRDCF算法的结果基本相同。成功率为0.816,比DeepSRDCF算法提高了0.044。
2.4.2定性分析
OTB2015数据集涵盖了多种具有挑战性的跟踪场景,如光照变化(IV)、尺度变化(SV)、运动模糊(MB)、遮挡(OCC)、快速运动(FM)、平面内旋转(IPR)、平面外旋转(OPR)、背景杂乱(BC)、低分辨率(LR)和变形(DEF)等。在这些复杂场景中,本文算法展现出了良好的跟踪效果。表4是从OTB2015中挑选的4组序列所涉及的挑战属性和对比的帧数。图5是包含本文算法在内的5组算法的实时跟踪结果。
(1)尺度变化
(2)运动模糊与背景杂乱
序列matrix中,目标与背景颜相似,且分辨率较
低。目标的运动轨迹变化较大且在运动过程中逐渐模
糊。KCF算法几乎无法跟踪目标,DeepSRDCF和SiamFC
漂移到了目标的局部,只有融合了注意力机制的本文算
法能够很好地跟踪到原始目标。
(3)平面旋转
序列motorRolling中摩托车在运动中出现多次旋
转。本文算法融合高层属性特征,能够很好应对目标旋
转。在第76帧时,SiamFC、CFNet和本文算法可以跟踪
到目标。而145帧时只有本文算法能够跟踪到目标。
(4)光照影响
以序列singer2为例,视频中灯光颜多变,画面由
浅变深。在12帧时,所有算法都很好地跟踪到了目
标。之后,随着目标的移动,大部分的算法开始漂移到
与目标相似的背景中。在第268帧时,只有本文算法能
够准确地跟踪到物体。
2.5VOT2018数据集的实验结果
本文算法还在VOT2018数据集中与包括融合注意
力思想的算法在内的多种目标跟踪算法进行了对比。
实验结果如表5所示。
和SiamFC相比,本文算法的精确率提高了0.0226,5101520253035404550
Location error threshold
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
P
r
e
c
i
s
i
o
n
DeepSRDCF[0.851]
proposed[0.850]
ECO-HC[0.845]
CFNet[0.777]
SiamFC[0.771]
KCF[0.696]
0.10.20.30.40.50.60.70.80.9  1.0
Overlap threshold
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
S
u
c
c
e
s
s
r
a
t
e
proposed[0.816]
DeepSRDCF[0.772]
ECO-HC[0.772]
CFNet[0.737]
SiamFC[0.730]
KCF[0.551]
(a)准确率
(b)成功率
图4OTB2015数据集中的实验结果
序列
car4
matrix
motorRolling
singer2
挑战属性
IV,SV
IV,SV,OCC,FM,IPR,OPR
IV,SV,MB,FM,IPR,BC
IV,DEF,IPR,OPR,BC
选择的帧数
40,216,344
16,76,145
16,76,145
12,20,268
表4各视频序列的场景属性
(a)car4
(b)matrix
(c)motorRolling
DeepSRDCF
DeepSRDCF
DeepSRDCF
数据集上的定性结果
173

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。