doi:10.3969/j.issn.1003-3114.2023.06.018
引用格式:王瑞,林志坚,陈平平.基于改进DeepSort 的行人跟踪方法研究[J].无线电通信技术,2023,49(6):1117-1124.
[WANG Rui,LIN Zhijian,CHEN Pingping.Research on Pedestrain Tracking Method Based on Improved DeepSort[J].Radio Commu-nications Technology,2023,49(6):1117-1124.]
基于改进DeepSort 的行人跟踪方法研究
王㊀瑞,林志坚∗,陈平平
(福州大学物理与信息工程学院,福建福州350108)
摘㊀要:为了提升复杂场景下摄像头跟踪行人的稳定性,满足对实际行人跟踪的需求,通过YOLOv5检测器检测视频中的行人,结合改进的DeepSort 算法,对行人跟踪的方法进行研究㊂优化行人重识别网络,通过迭代深度融合(Iterative Deep Aggregation,IDA)的方式融合灰度和RGB 特征,降低了模型的误差率;改进级联匹配中余弦矩阵的计算方式,分别计算灰度特征和融合特征的余弦距离矩阵,加权得到新的余弦矩阵,减少了DeepSort 算法在跟踪时目标丢失的现象㊂实验结果表明,改进的重识别网络相对于传统DeepSort 算法中运用的八维残差网络的误差率降低6.391%㊂相对于传统的DeepSort 算法,结合了改进重
识别网络和改进余弦矩阵的DeepSort 算法的多目标跟踪精度(Multiple Ob-ject Tracking Accuracy,MOTA)和平均数比率IDF1指标分别提升了0.9%和8.1%
关键词:行人重识别;多目标跟踪;深度学习
中图分类号:TP391.41㊀㊀㊀文献标志码:A㊀㊀㊀开放科学(资源服务)标识码(OSID):
文章编号:1003-3114(2023)06-1117-08
Research on Pedestrain Tracking Method Based on Improved DeepSort
WANG Rui,LIN Zhijian ∗,CHEN Pingping
(College of Physics and Information Engineering,Fuzhou University,Fuzhou 350108,China)
Abstract :In order to improve the stability of camera tracking of pedestrians in complex scenes and meet the needs of actual pedes-trian tracking,YOLOv5detector is used to detect pedestrians in videos incombination with an improved DeepSort algorithm,and pedes-trian tracking methods are studied.We optimize the pedestrian recognition network and fuse grayscale and RGB features through Itera-tive Deep Aggregation (IDA)to reduce the error rate of the model,improve calculation method of cosine matrix in cascade matching,calculate the cosine distance matrix of grayscale features and fused features separately,and obtain a new cosine matrix after weighting.Our approach reduces the phenomenon of target loss in DeepSort algorithm tracking.Experimental results show that the improved re-identification network reduces the error rate by 6.391%compared with the 8-dimensional residual network used in traditional DeepSort algorithm.Compared with traditional DeepSort algorithm,the DeepSort algorithm,which combines an improved re-identification network and an improv
ed cosine matrix,has improved the Multiple Object Tracking Accuracy (MOTA)and mean ratio IDF1indicators by 0.9%and 8.1%,respectively.
Keywords :pedestrian re-identification;multi target tracking;deep learning
收稿日期:2023-07-22
0 引言
随着物质生活水平的提高,人们开始对个人安全更加关注,行人跟踪可以在不同的摄像头视角或时间段内准确识别和匹配同一个行人,可以准确追踪和识别潜在威胁,有助于提高公共安全和个人安全㊂研究人员在行人跟踪算法方面致力于提升行人跟踪的准确率,减少行人丢失ID 的现象㊂
近来年,研究人员在DeepSort 跟踪算法上进行
了大量的研究,赵元龙等人[1]引入速度方向因素,提出一种新的代价矩阵确定方式,优化级联匹配流程,减少目标ID 切换㊂涂书琴等人[2]引入二次交并比匹配,相比较原算法的一次交并比匹配,提升了跟踪的稳定性㊂何维堃等人[3]引入Haar-like 特征匹配,反映目标的明暗变化,优化了匹配机制,增强了目标跟踪的鲁棒性㊂在DeepSort 行人重识别网络中,Kalayeh 等人[4]提出通过语义分割提取目标特征网络SP-reid,降低了数据集噪声对模型训练的影响㊂Sun 等人[5]提出了一种新的行人重识别网络PCB,对
目标进行局部特征提取,将特征分成多个区
域进行提取㊂黄印等人[6]提出了一种融合局部特征和全局特征的行人重识别网络㊂贺愉婷等人[7]提出一种GAN 网络,对行人重识别网络的训练集进行增强,这些方法有效的提升了行人重识别的准确率㊂以上文献的优化方法为本文的研究提供了新的思路㊂
基于此,由于现有的算法和模型对复杂场景的行人跟踪还存在行人在被遮挡后目标ID 丢失㊁跟踪稳定性差的现象㊂本文采用DeepSort 跟踪算法对行人进行跟踪,采用YOLOv5[8]作为行人检测器,对DeepSort 中的行人重识别网络进行改进,在原行人重识别网络的基础上,将RGB 特征和灰度特征进行迭代深度融合(Iterative Deep Aggregation,IDA)
[9]
,
加深了特征提取网络维度㊂由于改进后的重识别网络可同时输出灰度特征和融合后的特征,在此基础上,计算灰度特征和融合后特征的最小余弦距离矩阵,进行加权处理,提出一种新的余弦距离矩阵计算方式,并通过实验验证方案的可行性㊂
1㊀行人跟踪算法方案
1.1㊀Deepsort 行人跟踪算法架构
DeepSort [10]是一种基于深度学习的目标跟踪算
法,它结合了深度学习和经典的Sort 算法,用于在视频序列中进行多目标跟踪㊂DeepSort 在Sort [11]跟踪算法的基础上,引入级联匹配,优化了跟踪性能㊂DeepSort 跟踪算法架构如图1所示
图1㊀DeepSort 算法流程架构
Fig.1㊀DeepSort algorithm process architecture
㊀㊀主要步骤如下:①采用YOLOv5检测器检测
出图像中的行人,获取到目标检测框;②将目标检测框与通过上一帧卡尔曼预测的预测框进行级联匹配;③将级联匹配中匹配失败的检测框和预测框再进行一次IOU 匹配;④根据匹配的结果判断
检测框和预测框是否符合条件;⑤更新目标的状态㊂1.2㊀级联匹配
级联匹配是DeepSort 算法的核心部分,其流程如图2所示
图2㊀级联匹配流程Fig.2㊀Cascade matching
process
㊀㊀首先根据YOLOv5模型检测出图像中的人物检测框A,通过卡尔曼滤波器[12]对上一帧目标的运动轨迹进行预测,得到预测框B㊂然后将检测框A和预测框B输入到行人重识别网络,分别提取出行人检测框和预测框的特征向量A和特征向量B㊂计算出特征向量A和特征向量B之间的最小余弦距离矩阵,最小余弦距离计算公式为:
d(1)(i,j)=min{1-τT jτ(i)kτ(i)kɪR i},(1)式中:τj为第j个检测框中的特征向量,τk为跟踪器中存储的第i个特征向量㊂之后根据检测框A和检测框B计算出检测框之间的马氏距离(平方)矩阵:
d(2)(i,j)=(d j-y i)T s-1i(d j-y i),(2)式中:d j为一个数据点的特征向量,y i为数据集的均值向量,s i为数据集的协方差矩阵㊂根据最小余弦距离矩阵和马氏距离矩阵构建代价矩阵:
c(i,j)=(1-λ)d(1)(i,j)+λd(2)(i,j),(3)式中:λ为权重系数㊂代价矩阵用于表示每个检测到的人物框与预测的目标位置之间的匹配程度㊂根据代价矩阵通过识匈牙利算法进行最优匹配,从而关联每个检测到的人物框与其对应的预测目标㊂在级联匹配中,利用行人重别网络提取检测框和预测框的特征尤为重要,更为有效的特征提取可以改善级联匹配的结果,减少目标的匹配误差㊂传统的DeepSort算法中,提取特征的行人
重识别网络为六维残差网络,结构如表1所示,输入图像经过两层卷积后,经过6个残差块,再经过批处理和L2正则化输出128维度的特征向量,简称六维残差网络㊂表1㊀六维残差网络每层输出特征尺寸Tab.1㊀Output feature size of each layer of the6-dimensional residual network
㊀㊀但是由于128维度的特征向量无法提取更深层次的特征,因此广泛用于传统DeepSort算法的重识别网络采用的是八维残差网络,其网络结构如表2所示㊂在八维残差网络[11]中,输入图像经过两个卷积层一个最大池化层,后面连接8个残差网络,经过平均池化层和批处理及L2正则化后输出512维度的特征向量㊂
表2㊀八维残差网络每层输出特征尺寸
Tab.2㊀Output feature size of each layer of the
8-dimensional residual network
1.3㊀改进行人重识别网络
为了更好地提取复杂场景下行人的特征,满足实际行人跟踪的需求,本文在八维残差网络的基础上改进了一种融合灰度特征的网络,网络结构如图2所示㊂改进的行人重识别网络分为两个分支,首先是
RGB图像分支,其主干网络为用于DeepSort
算法中的八维残差网络,RGB图像经过八维残差网
络,输出512维特征,这里的八维残差网络相对于原
始的八维特征提取网络去除了全连接层以及最大池
化层,网络的输出为512维特征向量㊂其次是灰度
图像分支,由于灰度图像是单通道图像,所以需要对
灰度图像进行通道扩展,将其扩展为3通道的图像,
扩展的方式是直接将单通道图像复制成3通道,灰
度图像同样经过去除全连接层和最大池化层的八维
残差网络,输出512维特征向量㊂之后将RGB分支
残差网络和灰度分支残差网络进行特征融合,得到1792维度特征,再将1792维度特征再经过一个两层残差块,避免由于网络加深导致梯度消失的现
象,再进行全局自适应均值池化层,之后连接一个1ˑ1卷积层[13]进行降维处理,最后输入到全连接层进行分类处理㊂
为了更好地展示网络结构,表3展示了图像在
网络中经过不同阶段后提取到的特征向量尺寸㊂
图3㊀改进的行人重识别网络结构
Fig.3㊀Improved pedestrian re-identification network structure
表3㊀改进后行人重识别网络每层输出特征尺寸Tab.3㊀Output feature size of each layer of the improved
person re-identification network
㊀㊀由于灰度图像相对于RGB 图像只包含一个通道的信息,因此其数据量较小,并且相较于RGB 图
像对于光照变化的影响更小,也因此更加稳定,同时灰度图像的边缘信息相当于RGB 图像更加明显
,有助于特征信息的提取㊂参照文献[14],文中灰度图像分支的输入图像为灰度图像,由RGB 图像经过灰
度转换得到㊂
本文的网络采用了迭代深度融合,将两个来源不同的特征信息相结合,即灰度图像的特征和RGB 图像的特征进行迭代深度融合,特征融合提高了特征提取的鲁棒性和性能,使得网络提取的特征更加的丰富和全面,其融合的方式如图4所示㊂
图4㊀特征融合过程Fig.4㊀Feature fusion process
㊀㊀在特征融合过程中,RGB 分支的残差块2提取的特征为128ˑ32ˑ16,残差块3提取的特征为256ˑ
16ˑ8,残差块4提取的特征为512ˑ8ˑ4㊂为了使特
征融合时特征的长和宽相匹配,将残差块2提取的
特征经过一个池化窗口为4ˑ4㊁步长为4的平均池化层,输出特征为128ˑ8ˑ4;残差块3提取的特征经过一个池化窗口为2ˑ2㊁步长为2的平均池化层,输出特征为256ˑ8ˑ4㊂同样,在灰度分支中,经过相同的操作,获取到128ˑ8ˑ4㊁256ˑ8ˑ4的特征,最后将
6个特征进行维度上的拼接,得到1792ˑ8ˑ4的特征㊂
本文改进的模型采用了灰度特征损失Loss g㊁RGB特征损失Loss r以及融合后的特征损失Loss f作为组合的损失函数来优化模型㊂为了衡量模型的预测输出与实际标签之间的差异,采用了交叉熵损失函数作为模型的损失度量,交叉熵损失[15]的计算公式如下:
L=-ðn
i=0p(x i)log((qx i)),(4)
式中:n表示一个批次行人图片总数,p(x i)表示真实概率分布,q(x i)表示预测概率分布㊂在改进的模型中,将灰度特征损失㊁RGB特征损失和融合后的特征损失分别计算,并将它们叠加在一起得到总体的损失函数,其公式如下[16]:
L=Loss g+Loss r+Loss f㊂(5)通过最小化总体损失函数,改进的模型将能够优化其参数,使得预测输出更接近于实际标签,从而提高模型的性能㊂
正则化残差1.4㊀改进DeepSort算法
余弦距离矩阵在DeepSort算法中对于人物在长期遮挡后恢复身份起着关键作用,改进的行人重识别网络可以同时输出灰度特征和融合后的特征,在此基础上利用此特性提出了一种新的余弦矩阵计算方法,新的余弦矩阵计算公式为:
d(3)(i,j)=k d fusion(i,j)+(1-k)d gray(i,j),(6)式中:d gray(i,j)为灰度分支所提取的特征向量所确定的余弦矩阵,d fusion(i,j)为融合灰度特征网络提取的特征向量确定的余弦矩阵,k为比值,它是一个动态变化的值,通过每帧图像的饱和度来确定,即k等于饱和度㊂
图片的饱和度是彩模型HSV的属性之一,饱和度的取值范围为0~1,饱和度越高,代表着图片彩更加的鲜艳,较高的彩饱和度说明图片中的彩占据着主要成分,较低的饱和度说明灰和白占主要成分㊂图片的饱和度计算公式如下:
S=ðn
i=0
p(i)/(n∗255),(7)式中:p(i)为单个像素的饱和度,n为图片的像素点个数㊂当该帧图片的饱和度较低时,说明该帧图片以灰度彩为主,k值较低,此时d fusion(i,j)的值在确定余弦矩阵中的占比较低,d gray(i,j)的值在确定余弦矩阵中的占比较高,余弦矩阵主要以灰度特征来确定㊂当该帧图片的饱和度较高时,说明该帧图片以彩为主,k值较高,此时d fusion(i,j)的值在确定余弦矩阵中的占比较高,d gray(i,j)的值在确定余弦矩阵中的占比较低,余弦矩阵主要以融合后的特征来确定㊂
2㊀仿真实验结果与分析
模型训练采用的电脑配置CPU为E5-2686V4, GPU为Tesla P48GB,内存为32GB,系统为Ubun-tu18.04.5LTS,cuda版本为11.0,pytorch版本为1.7, python版本3.8.5㊂
2.1㊀数据集选取与模型训练
改进的行人重识别网络使用了常见的Mar-ket1501数据集进行训练,这个数据集是行人重识别领域中最重要的之一㊂它包含了来自6个摄像头的1501名行人的图像序列,每个行人都有多张图像㊂训练集包括751个不同的ID,共有12936张图片,而测试集包括750个不同的ID,共有19732张图片,总共32668张图片㊂每个行人都有一个唯一的ID,这些ID用于识别不同行人之间的关系㊂这个数据集通常用于算法研究和性能评估㊂
为了保证模型的准确性,行人重识别网络模型训练的参数保持一致模型数据输入图片统一设置为128ˑ64,初始学习率为0.01,经过20epoch后,学习率乘0.1㊂训练批次大小为64,训练周期数为80轮㊂
2.2㊀评价指标
本文指标采用多项指标进行评估:误差率㊁平均数比率(IDF1)[17]㊁多目标跟踪精度(Multiple Object Tracking Accuracy,MOTA)㊁帧率㊂其中,误差率的公式如下:
α=1-
T P+T N
T P+T N+F P+F N,(8)式中:α为误差率,T P为真正例数量,T N
为真负例数

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。