第 38 卷第 8 期2023 年 8 月
Vol.38 No.8
Aug. 2023
液晶与显示
Chinese Journal of Liquid Crystals and Displays
复杂环境下基于改进DeepSORT的
行人实时稳定跟踪方法
张丽娟1,2,张紫薇2,姜雨彤3*,李东明1,4,胡梦达2,刘英雪2
(1.无锡学院物联网工程学院,江苏无锡 214105;
2.长春工业大学计算机科学与工程学院,吉林长春 130012;
3.中国北方车辆研究所,北京 100072;
4.吉林农业大学信息技术学院,吉林长春 130118)
摘要:实时多目标跟踪算法取得了理想的跟踪性能,但大多数现有算法的跟踪速度较慢,且随着背景复杂度的增加,跟踪精度也随之降低。针对此问题,本文提出了基于在线数据关联的行人实时跟踪算法。首先,设计了核相关滤波和卡尔曼滤波双轨道预测机制,配合DeepSORT中的级联匹配形成了预测-跟踪-校准体系,使数据关联更加可靠。此外,在目标检测部分引入了注意力机制,通过强化目标对象的位置信息增强特征表示能力,从而提升跟踪的精度。该模型在MOT16数据集上的MOTA达到了66.5%、IDF1达到了64.2%、IDSW达到了641。与DeepSORT算法对比,MOTA 和IDF1分别提升了13%和13.2%,IDSW下降了410。本文算法有助于解决行人实时跟踪时出现的目标误检、漏检等问题,在跟踪中对严重遮挡情况仍保持了较高的跟踪精度,在复杂环境下可以实现行人实时稳定跟踪。
关键词:多目标跟踪;实时跟踪;YOLOv5;核相关滤波算法;DeepSORT
中图分类号:TP391 文献标识码:A doi:10.37188/CJLCD.2022-0350
Stable and real-time pedestrian tracking method based on improved DeepSORT under complex background
ZHANG Li-juan1,2,ZHANG Zi-wei2,JIANG Yu-tong3*,
LI Dong-ming1,4,HU Meng-da2,LIU Ying-xue2
(1.School of Internet of Things Engineering, Wuxi University, Wuxi 214105, China;
2.College of Computer Science and Engineering, Changchun University of Technology,
Changchun 130012, China;
3.China North Vehicle Research Institute, Beijing 100072, China;
4.School of Information Technology, Jilin Agricultural University, Changchun 130118, China)Abstract: The real-time multiple object tracking algorithms have achieved ideal tracking performance, but 文章编号:1007-2780(2023)08-1128-11
收稿日期:2022-10-22;修订日期:2023-11-13.
基金项目:吉林省生态环境厅科研项目(吉环科字第2021-07号);吉林省科技发展计划重点研发项目(No.
20210204050YY);无锡学院引进人才科研启动专项经费(No.2023r004, 2023r006)
Support by Scientific Research Project of Jilin Provincial Department of Ecological Environment (No.2021-
07); Key R&D Projects of Jilin Provincial Science and Technology Development Plan (No.20210204050YY);
Wuxi University Research Start-up Fund for Introduced Talents(No.2023r004, 2023r006)*通信联系人,E-mail:jiangyutong201@163
第 8 期张丽娟,等:复杂环境下基于改进DeepSORT的行人实时稳定跟踪方法
the tracking speed is slow,and tracking accuracy is also decreased with the increase of background complexity in most of the recent algorithms. In terms of these issues, a real-time multiple pedestrian tracking algorithm is proposed based on online data association.First of all,the dual prediction mechanism of kernelized correlation filter and Kalman filter is designed.This mechanism forms a prediction tracking calibration system with the cascade matching in DeepSORT, which makes the data correlation more reliable. In addition, the attention mechanism is introduced in the object detection part of tracking to enhance feature representation ability by strengthening position information of the object, so as to improve racking accuracy. The experiment is carried out on MOT1
6 dataset,the MOTA is up to 66.5%,IDF1 is up to 64.2,IDSW is 641.Compared with DeepSORT algorithm,MOTA and IDF1 increase 13% and 13.2% respectively, and IDSW decreases 410.Experimental results show that the proposed algorithm is helpful to solve the problem of object false detection,missing detection and other problems in multiple pedestrian real-time tracking.It still maintains high tracking accuracy for severe occlusion in tracking,which can achieve real-time and stable multiple pedestrian tracking in complex background.
Key words: multiple object tracking; online tracking; YOLOv5; kernelized correlation filters; DeepSORT
1 引言
多目标跟踪(Multiple Object Tracking, MOT)是指输入一段视频,在没有任何对目标的先验知识(外形或数量)的前提下,追踪其中一类或多类物体的运动轨迹。多目标跟踪作为计算机视觉中的一项重要任务,在智能监视、自动驾驶、医疗诊断和军事视觉引导等方面具有极其重要的应用价值[1]。Aydogan Ozcan等人[2]提出一种全新的方法,无需计算机和任何数字处理即可立即透过未知、随机生成的相位漫射介质,全光学重建被扭曲的物体图像。本文主要研究行人多目标跟踪任务。
在多目标跟踪问题中,首先需要通过目标检测器如Faster R-CNN[3]、YOLOv3[4]、SSD[5]等
对输入帧完成目标检测;进行ROI区域特征提取;然后进行相似度计算,计算前后两帧目标之间的匹配程度(前后属于同一目标的之间的距离比较小,不同目标的距离比较大);最后进行数据关联,为每个对象分配目标的ID。基于上述步骤的算法可以归为基于检测算法(Tracking by Detection, TBD)的跟踪,此类跟踪算法的准确率依赖于检测器精度。在Bewley A等人[6]的研究中提到,仅换一个更好的检测器就可将目标跟踪表现提升18.9%。
目前有许多相关方法用于实时多目标的检测跟踪,但是仍存在很多问题。首先,多目标跟踪精度还有待提高。当视频中出现遮挡或者目标框的特征不明确时,易造成误检、漏检或匹配错误,这些会大幅削弱模型跟踪的精度,应着眼目标检测的精度以及检测框和轨迹的匹配两部分来提升多目标跟踪的精度。其次,多目标跟踪的速度仍需提升。基于深度学习的方法相比于传统的跟踪方法,虽然精度有明显的优势,但深度学习的运行速度较慢,尤其Re-identification(Re-ID)极大地增加了模型的复杂度和时间成本,跟踪的帧率较低。
为了解决上述问题,本文基于Deep SORT[7]的框架提出了改进的行人多目标跟踪算法。首先给定视频初始帧;然后使用目标检测器进行检测,本文使用YOLOv5来提取检测框;将检测框中对应的目标进行特征提取;进行相似度计算,计算前后两帧目标之间的匹配程度,这里会设定一个阈值,大于这个阈值的认为匹配成功,将更新这个轨迹;最后为每个对象分配ID。
本文算法的贡献如下:
(1)在检测分支的主干网络设计融入注意力机制,帮助模型更加精准地定位和识别感兴趣的目标,进而提升目标跟踪的精度。
(2)数据关联部分设计预测轨迹算法并行,该机制配合Deep SORT中的级联匹配形成了预测-跟踪-校准体系。
(3)在MOT16、MOT17数据集上评估本文算法,并在MOT16(MOTA达到66.5%,IDF1达到64.2%,IDSW达到641)和MOT17(MOTA达到65.7%,IDF1达到62.8%,IDSW达到2072)上获得了竞争性的结果。
1129
第 38 卷液晶与显示
2 相关工作
2.1 相关滤波跟踪算法
在相关滤波和深度学习出现之前,传统的视觉跟踪方法研究进展较慢且跟踪精度差。相关滤波的跟踪方法打破了当时算法研究的局限性,成为该领域最被认可的算法研究方向之一。MOSSE 算法[8]利用快
速傅里叶变换(Fast Fourier Trans⁃form,FFT)处理图像和滤波器,跟踪速度极快并且在实时跟踪下也能保持良好的鲁棒性。核相关滤波算法(Kernelized Correlation Filters, KCF)[9]第一次证明了脊回归与周期性变化的样本和经典相关滤波器之间的联系。KCF使用循环矩阵采集样本,使用FFT加速算法运算。KCF不论在跟踪效果还是在跟踪速度上都有十分亮眼的表现。李等人[10]提出了自适应多滤波器的目标跟踪算法。
2.2 深度学习跟踪算法
近些年,深度学习受到了广泛关注。左超等人[11]认为深度学习在光学计量中受到越来越多的关注,为光学计量技术的概念带来了颠覆性的变革。司徒等人[12]认为深度神经网络(DNN)已经成为解决许多在不同的领域具有挑战性问题的方法。随着目标检测领域深度学习算法的不断发展,更多的跟踪算法采用基于检测跟踪的框架,即先对视频的每一帧进行目标的检测,再对不同帧的检测对象之间建立对应关系以获得轨迹。
基于TBD范式,Bewley A等人[6]提出的在线实时跟踪算法SORT是最早利用卷积神经网络检测行人的多目标跟踪算法之一。该算法将多目标跟踪问题分为目标检测部分、状态预测部分和数据关联部分。该算法经过目标检测部分得到目标的位置和类别,再通过卡尔曼滤波对每个检测目标预测和更新,最后使用匈牙利算法求解预测后的目标和当前帧中检测到的目标IOU匹配的代价矩阵。SORT运行速度极快,
但易出现漏跟踪或误跟踪的情况。Wojke等人[7]对SORT算法进行了改进,提出了DeepSORT算法。DeepSORT算法在SORT算法基础上加入卷积神经网络来提取外观特征,并加入级联匹配策略。DeepSORT算法在精度上有所提升,但运行速度较慢。Bergmann 等人[13]提出了一种基于锚框和检测器回归的方式进行下一帧的跟踪预测的模型Tracktor。同时,提出的跟踪器甚至不需要额外的跟踪数据训练、仅仅依靠训练好的两阶段(Two-stage)检测器就能实现。其次,通过添加ReID模型和CMC相机补偿模型将提出的模型扩展为Tracktor++。但该算法仍有许多局限,跟踪中若存在严重的遮挡时不能较好地处理,对尺寸较小的目标的跟踪没有较好的鲁棒性。贺等人[14]改进外观模型,将原始的宽残差网络更换为ResNeXt网络,在主干网络上引入卷积注意力机制,构造新的行人重识别网络。席等人[15]针对复杂场景下目标之间遮挡造成跟踪精度降低的问题,提出基于Fairmot框架的多目标跟踪改进算法。
目前的跟踪算法的检测分支分为二步检测和一步到位检测两种。其中二步检测需要先生成建议框,然后再进行细致的目标检测和分类;一步检测会直接在网络中提取特征来预测目标位置,仅送入网络一次就可以预测出所有的检测框。显然,目标检测中二步检测算法相较于一步到位算法的速度会较慢,所以本文用YOLOv5来作为我们的检测器。
3 行人多目标稳定跟踪模型
本文采用的多目标跟踪算法是基于检测的跟踪范式,在复杂环境下对行人可以进行在线跟踪且满足实时性的要求。如图1所示,轨迹预测分支采用卡尔曼滤波和核相关滤波并行预测轨迹。目标检测分支采用YOLOv5框架完成行人检测,数据关联分支采用Deep SORT算法的框架实现行人跟踪。
多目标跟踪首先需要通过目标检测器YO⁃LOv5对输入帧完成目标检测;进行ROI区域特征提取;然后进行相似度计算,计算前后两帧目标之间的匹配程度;最后进行数据关联,为每个对象分配目标的ID。本文提出的算法在YOLOv5检测器中引入了注意力机制,并采用多任务并行的数据关联来实现行人多目标跟踪。首先通过得到的跟踪序列(第一帧得到的检测框默认为跟踪序列)通过卡尔曼滤波和核相关滤波两种算法并行预测视频跟踪序列得到预测轨迹,预测轨迹和这一帧的检测框进行级联匹配或者IOU匹配成功后的轨迹和新轨迹纳入跟踪序列,若不确定轨迹连续匹配失败且超出最大时间则删除该轨迹。
1130
第 8 期
张丽娟,等:复杂环境下基于改进DeepSORT 的行人实时稳定跟踪方法
3.1 轨迹预测分支
本文的跟踪场景定义在八维状态空间(u ,v ,γ,h ,x ′,y ′,γ′,h ′)上,其中(u ,v )是检测框中心点坐标,γ是长宽比,h 为检测框高度,(x ′,y ′,γ′,h ′)是在图像坐标中的各自速度。然后使用卡尔曼滤波更新,其观测变量为(u ,v ,γ,h )。预测部分的完整表达式如式(1)所示:x
k ˉ=Fx k -1+B u k -1 ,P k -=FP k -1F T
+Q ,
(1)
其中F =éëê
êùû
ú1
Δt 0
1称为状态变换矩阵,该矩阵提供了下一个状态。u k =a 为控制变量,B =éëêêêê
êùû
úúúúΔt 22Δt 为控制矩阵。均值x =éëêêùû
úúp v ,协方差矩阵P =éëê
êêùû
ú
úúú∑pp ∑pv ∑vp ∑vv ,Q 是具有协方差的噪声。匹配成功的轨迹将更新为检测框的信息,卡尔曼滤波更新公式如式(2)所示:
K k =P k -H T (HP k -H T +R )-1 ,
x k =x -k +K k (z k -H x -k )
,P k =(I -K k H )P k - ,
(2)
其中:P k 是协方差矩阵,K 是卡尔曼增益矩阵,H 是测量矩阵,I 是单位矩阵,R 是噪声,z 是测量值。
目标跟踪中实时性是非常重要的。为了保证一定的帧率,我们考虑将核相关滤波和卡尔曼滤波并行预测轨迹序列。因为目标跟踪中目标和背景是非线性的,在二维图像我们不能做到将目标和背景相分离,所以我们使用核函数k 将图像从低维转换到高维,将目标和背景线性可分,如式(3)所示:
k (x i ,x j )
=ϕT (x i )ϕ(x j ) ,
(3)
其中:(x i ,x j )是训练样本,测试集z 转换成线性的ϕ(z )。假设要预测第二帧图中目标的位置,就在
上一帧框的附近划分一个感兴趣区域z ,对这个感兴趣区域进行移位操作。KCF 中引入了循环矩阵,巧妙地规避了矩阵的逆运算,大幅减少了运算量。并引入高斯核函数,可以将非线性问题转换为高维空间中的线性问题,如式(4)所示,使算法更具有一般性。
f (z )=w T z ,w =
∑i
αi
ϕ(x i
) ,
f (z )=
∑i
αi
ϕ(x i
)
T
ϕ(z )=
∑i
αi
k (x i
,
z )=αT
k xz ,
(4)
其中:
α∈n ×1,ϕ(x )∈n ×n 。选择f (z )值最大的区域作为新目标区域,
由
图1 本文提出的行人多目标算法框架
Fig.1 Pedestrian multi -objective algorithm framework proposed in this paper
1131
第 38 卷
液晶与显示
z 可知目标移动的位置,由此得到α=(K +λI )-1y 。
K 是所有训练样本的和相关矩阵,通过傅里叶变换FFT 得到式(5),其中k 是核相关矩阵第一行。
a =
(1k +λ)
*
⊙y .
(5)
接下来使用HOG 来提取特征。将样本区域划分若干区域,并在每个区域提取32维特征。同样对f (z )进行傅里叶变换得到式(6):
f ()z =a ⊙k xz =(1
k ∧xx +λ
)
sort of things什么意思
*
⊙y ⊙k xz ,
k xz
=exp (
-1
σ2
( x 2
+ z 2
-2F
-1
(x *
⊙z ))
)
,
(6)
其中:λ是权重,y 是维度输入,k xz 是高斯核函数,x 、z 是任意两组循环移位得到的样本集,F 是循环矩阵。
KCF 使用目标周围区域的循环矩阵采集正负样本,利用脊回归训练目标检测器,并利用循环矩阵在傅里叶空间可对角化的性质将矩阵的运算转化为向量的Hadamad 积,降低了运算量,提高了跟踪速度,使算法满足实时性要求[16]。
检测和跟踪是两个相辅相成的问题,良好的
跟踪可以弥补检测的漏检,良好的检测可以防止跟踪的轨迹偏离。所以我们考虑加入预测来解决目标轨迹丢失、目标编号跳转等问题,提升目标跟踪的稳定性。
KCF 中用到的是HOG 特征,主要包括高空间分辨率和高目标定位精度的纹理信息。但是在复杂的跟踪背景下,仅依靠HOG 特征无法实现精确的目标跟踪。考虑到复杂背景和光照变化情况下的深度特征,CNN 特征具有丰富的纹理信息和较强的鲁棒性,但对目标的空间分辨率和定位精度较低,所以融合手工制作和深度特征
相应,利用它们的互补性来提升跟踪的鲁棒性。HOG 表示的是梯度特征,可以表示局部的形状信息。位置和方向空间的量化可以限制平移和旋转的负面影响,所以HOG 特征在跟踪具有明显边沿轮廓的运动目标,比如行人时效果较优。KCF 在目标的一些规则运动中对目标也能稳定跟踪,弥补了DeepSORT 中使用马氏距离处理运动信息的缺陷。KCF 跟踪速度较快,不会对实时跟踪处理过程造成太大压力。3.2 目标检测分支
本文使用YOLOv5模型完成目标检测。YO⁃LOv5的网络结构如图2所示,
主要包括特征提取
图2 YOLOv 5框架Fig.2 YOLOv5 framework
1132
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论