Journal of Computer Applications ISSN1001-90812019-11-10计算机应用,2019,39(11):3216-3220CODEN JYIIDU www.joca
文章编号:1001-9081(2019)11-3216-05DOI:10.11772/j.issn.1001-9081.2019051084基于时空正则化的视频序列中行人的再识别
刘保成,朴燕[唐悦
(长春理工大学电子信息工程学院,长春130012)
(*通信作者piaoyan@oust.edu)
摘要:由于现实复杂情况中各种因素的干扰,行人再识别的过程中可能出现识别错误等问题。为了提高行人再识别的准确性,提出了一种基于时空正则化的行人再识别算法。首先,利用ResNet-50网络对输入的视频序列逐帧进行特征提取,将一系列帧级特征输入到时空正则化网络并产生对应的权重分数;然后,对帧级特征使用加权平均得到视频序列级特征,为避免权重分数聚集在一帧,使用帧级正则化来限制帧间差异;最后,通过最小化损失得到最优结果。在DukeMTMC-RelD和MARS数据集中做了大量的测试,实验结果表明,所提方法与Triplet算法相比能够有效提高行人再识别的平均精度(mAP)和准确率,并且对于人体姿势变化、视角变化和相似外观目标的干扰具有出的性能表现。
关键词:机器视觉;行人再识别;注意力机制;卷积神经网络;时间建模
中图分类号:TP391.41文献标志码:A
Person re-identification in video sequence based on spatial-temporal regularization
LIU Baocheng,PIAO Yan\TANG Yue
(College of Electronic Information Engineering,Changchun University of Science and Technology,Changchun Jilin130012,China)
Abstract:Due to the interference of various factors in the complex situation of reality,the errors may occur in the person re-identification.To improve the accuracy o£person re-identification,a person re-identification algorithm based on spatial-temporal regularization was proposed.Firstly,the ResNet-50network was used to extract the features of the input video sequence frame by frame,and the series of frame-level features were input into the spatial-temporal regularization network to generate corresponding weight scores.Then the weighted average was performed on the frame-level features to obtain the sequence-level features.To avoid weight scores from being aggregated in one frame,frame-level regularization was used to limit the difference between frames.Finally,the optimal results were obt
ained by minimizing the losses.A large number of tests were performed on MARS and DukeMTMC-RelD datasets.The experimental results show that the mean Average Precision (mAP)and the accuracy can be effectively improved by the proposed algorithm compared with Triplet algorithm.And the proposed algorithm has excellent performance for human posture variation,viewing angle changes and interference with similar appearance targets.
Key words:machine vision;person re-identification;attention mechanism;Convolutional Neural Network(CNN);
temporal modeling
0引言
近年来,随着智能视频分析的迅速发展和国家对公共安防监控的重视,行人再识别技术已成为视频监控领域中至关重要的一部分⑴。行人再识®J来源于多摄像机目标跟踪,主要处理非重叠摄像机间重新确定特定行人的问题,即判断在不同时间、不同地点出现在不同摄像机的行人是否为同一个人。
基于视频的行人再识别是当前研究的热点,现阶段的大多数方法都是基于深度神经网络和时间信息建模:McLaughlin等⑵首先提出通过循环神经网络(Recurrent Neural Network,RNN)对帧之间的时间信息
建模;Wu等⑶通过训练卷积网络和循环层,从视频中提取外观特征和时空特征,并构建混合网络融合两种类型的特征;Liu等⑷设计了一个质量感知网络(Quality Aware Network,QAN)用于聚合时序特征;Zhou等⑸提出用RNN和时间注意方法对行人进行再识别;Karpathy等⑷设计了一个卷积神经网络(Convolutional Neural Network,CNN)来提取特征,并使用时间池化方法来聚合特征。由于不同相机拍摄的视频图像会因光照变化、遮挡或人体姿势变化等因素影响,目标会出现较大的外观变化,使得行人再识别仍然是一个具有挑战性的问题。
本文针对行人再识别的准确性,提出了一种基于时空正则化的行人再识别算法。利用ResNet-50网络逐帧进行特征提取,帧级特征经过时空正则化网络产生相应的权重分数,通过加权平均将帧级特征融合为一个序列级特征;同时使用帧级正则化避免权重分数聚集在一帧,最终通过最小化损失函数到最佳的识别结果。
收稿日期:2019-05-24;修回日期:2019-06-24;录用日期:2019-06-26…
基金项目:吉林省科技支撑项目(20180201091GX);吉林省科技创新中心项目(20180623039TC)。
作者简介:刘保成(1995—),男,吉林白山人,硕士研究生,CCF会员,主要研究方向:机器学习、计算机视觉;朴燕(1965-),女,吉林长春人,教授,博士,主要研究方向:计算机视觉、模式识别;唐悦(1994—),女,吉林长春人,硕士研究生,主要研究方向:深度学习、计算机视觉。
第11期刘保成等:基于时空正则化的视频序列中行人的再识别3217
1相关工作
1-1卷积神经网络
最近几年,深度学习在计算机视觉领域取得了出的成
绩。与人工设计特征的方法相比,基于深度学习的方法可以
从大量数据中自主学习得到图像的特征信息,更加符合人工
智能的要求。
在计算机视觉领域中,CNN是应用最广泛的深度学习模
型之一,CNN通过在卷积层中的非线性叠加可以得到具有高
级语义信息的特征,并且其每个卷积层都可以得到输入图像
的不同特征表达。在行人再识别的过程中,利用CNN提取目
标行人更精准和更具有判别性的特征,可以获得更多关于目
标行人的信息,有利于提高识别结果的准确性。
本文使用在ImageNet数据集⑺上预训练的ResNet-50⑻
卷积神经网络对输入的视频序列进行特征提取。ResNet-50
网络深度为50层,其中包含5个卷积层,即Convl和4个具
有残差模块的Conv2、Conv3、Conv4、Conv5。ResNet-50网络结
构如图1所示。
|image列Convl pooll4|Conw2Residual module
|Conv3Residual module
|Conv4Residual module
|Conv5Residual module
t
|pool5|
图1ResNet-50网络的结构
Fig.1Structure of ResNet-50network
1.2时间建模方法
近年来由于数据集规模不断地扩大,基于视频的行人再
识别成为当前研究的主流方向。与基于图像的方法相比,基
于视频的方法可以有效地利用视频序列中的时间信息。因为
摄像机拍摄的大部分都是时间连续的视频,可以为行人再识
别提供更多的信息。
基于视频的行人再识别方法主要注重时间信息的整合,
即通过时间建模的方法将帧级特征聚合为视频序列级特征。
首先,将输入的视频序列通过卷积神经网络提取帧级特征
{/},t e[l,r],其中T表示视频序列的帧数;然后,利用时间
建模方法将帧级特征{/*}聚合成单个特征/,用/■表示视频序
列级特征;最后,通过最小化损失得到最优的识别结果。图2
展示了基于时间建模方法的原理。
特征提取|输入0^57]o 帧级特征
…|=>
-------序列级特征
时间建I
模方法弓
图2基于时间建模方法的原理框图
Fig.2Block diagram of temporal modeling method 常用的时间建模方法有三种:时间池化、时间注意和RNN或其改进模型长短期记忆(Long Short-Term Memory, LSTM)网络。在时间池化模型⑼中,主要使用最大池化或平均池化。对于最大池化,/=max/;对于平均池化,/= +打。但当视频中目标行人经常出现遮挡时,这种方法通
常会失败。
RNN或LSTM模型中〔回,将一系列帧级特征聚合成单个特征主要有两种方法:第一种方法是直接在最后一个步骤采用隐藏状态h T,即/=胪;第二种方法是计算RNN的输出
{。'}的平均值,即/=斗£。'。但RNN或LSTM模型通常提
取浅层特征,缺少对目标的判别性表达,并且难以在大型数据集中训练。
正则化反演
在基于时间注意的模型中,主要使用加权平均法将帧级特征聚合为序列级特征,即/=其中«,为每帧
11^1
的权重。基于时间注意的方法可以很好地抑制噪声的干扰(如遮挡等),并且它是现在最主流的方法之一。
2本文方法
本文首先使用ResNet-50网络对输入的视频序列逐帧进行特征提取,将最后一个卷积层(Conv5)的特征输入到时空正则化网络并产生相应的权重分数,通过对所有帧级特征加权平均得到视频序列级特征。为了避免在注意图转换为权重分数时聚焦于一帧而忽略其他帧,使用帧级正则化来限制帧间差异。最后将帧级正则化与三重损失函数.softmax交叉爛损失函数联合起来,用于训练整个网络。本文方法的整体框图如图3所示。
图3本文方法的整体框图
Fig.3Overall block diagram of the proposed method
2.1特征提取
本文使用ResNet-50网络对输入的视频序列进行特征提取。通常,ResNet-50网络使用一系列层处理图像,其中每个单独的层由卷积、池化和非线性激活函数等步骤组成。为了简化符号,本文将ResNet-50网络定义为函数力=C(x),其将图像乂作为输入并且产生特征作为输出。
设Z=厶,厶,…,厶是由行人图像组成的长度为T的视频序列,其中Z,是目标行人在时间t处的图像。每个图像Z,通过ResNet-50网络之后产生帧级特征,即f=C(Z,)0本文将视频序列输入到ResNet-50网络中并输出一系列帧级特征e[l,r])0
2.2时空正则化
ResNet-50网络中最后一个卷积层(Conv5)的特征图大小为WxH,其维度为Q=2048,7/和W是特征图的高度和宽度,H和W的大小取决于输入图像的尺寸。首先将帧级特征f=(£,迟,…,允)作为时空正则化网络的输入,将特征图中的所有元素,针对每个特征通道d进行空间正则化,生成相应的注意图g,:
g,=f^\\f II2(1)
D丄
其中nr ii2=(y\/d\2)2是的L2范数。在经过空间正则化之后,每帧都具有一个对应的注意图。然后将每帧注意图中的所有元素针对每个特征通道d使用L1范数以获得相应的空间注意分数
3218计算机应用第39卷
II II1(2) (/-1m,n
其中m和"代表每帧注意图中相应的所有元素。因此海帧都具有一个对应的空间注意分数s,o
本文直接比较来自不同帧的空间注意分数s,(t e[1, T]),并采用Sigmoid函数和L1归一化计算时间注意分数:%=b(s,)/^O-(S()(3)
f-1
其中cr表示Sigmoid函数。最后,为每帧分配一个特定的权重分数%,通过加权平均得到视频序列级特征
/=耳丫%/*(4)丄(=1
2.3帧级正则化
对于基于视频的行人再识别而言,来自同一视频序列的行人图像应代表同一人的外观,但是在注意图转换为注意分数时,会出现注意分数集中在一个特定帧上并且在很大程度上忽略其他帧的情况。为了限制帧间差异,避免注意分数聚集在一帧,本文从视频序列的T帧中随机选择两帧i和j,并使用Frobenius范数对帧级注意图进行正则化:
F ij=II Si-Sj II F=
J》Y F⑸
y d—l m,n
其中&和gj是由式(1)产生的注意图。将所有正则化项F“乘以一个常数0后加到式(9)中来最小化损失:
T
min(G"|+丫0•耳」)(6) 2.4损失函数
本文使用三重损失函数和softmax交叉爛损失函数来训练网络。
三重损失函数最初是Hermans等凹提出的,是原始的三重损失(semi-hard triplet loss)的改进版。本文为每个小批量(mini-batch)随机抽取P个身份,并为每个身份随机抽取K个视频序列(每个序列包含T帧),以满足三重损失函数要求。三重损失函数可以表述如下:
all anchors
p p hardestpositive
©triplet=££[d+Fl aX.11/1°II2-
何p=l,2,…,K
—旣“J挣加忖+⑺
hardest negative
其中:化"£和卅分别是从目标样本、正样本和负样本中提取的特征;a是用于控制样本内部距离的超参数。正样本和负样本指的是与目标样本具有相同身份和不同身份的行人。
除了使用三重损失函数以外,本文还采用softmax交叉爛损失进行判别性学习。softmax交叉爛损失函数可以表述如下:
1P K
厶=-莎Y\Pi,a lg q“⑻
厂八i=l a=l
其中卩认和g,是样本{。创的真实身份和预测。
总损失函数£咖1是softmax损失和triplet损失的组合,如式(9)所示:
total-^softmax+^triplet(9) 3实验与结果
3.1实验环境和参数设置
本文使用Python语言进行编程,实验环境为pytorch。所有实验都在Windows10系统,NVIDIA GTX1060GPU的电脑上完成。视频序列的大小调整为256x128。首先从输入的视频序列中随机选择T=4帧,然后随机选择P=4个身份对每个小批*(mini-batch)进行采样,并从训练集中为每个身份随机抽取K=4个视频序列,批量大小(batch size)为32o学习率为0.0003,三重损失函数的margin参数设置为0.3。在训练期间,采用Adam问优化网络。
3.2数据集
运动分析和再识别数据集(Motion Analysis and Re­identification Set,MARS)[14]包含1261个身份和大约20000个视频序列,是迄今为止最大的视频行人再识别数据集之一。这些序列至少由2个摄像机捕获,最多由6个摄像机捕获,每个身份平均有13.2个序列。此外,数据集固定地分为训练集和测试集,用于训练的身份为625个,用于测试的身份为626个,其中还包含3248个干扰序列。
DukeMTMC-RelD数据集问源自DukeMTMC数据集〔切,也是一个大规模的行人再识别数据集。它由8
个摄像机捕获的1812个身份组成,其中1404个身份出现在两个以上的摄像机中,其余的408个是干扰身份。数据集固定地分为训练集和测试集,都有702个身份。
3.3评价指标
为了评估本文的方法,使用累积匹配特征(Cumulative Matching Characteristic,CMC)曲线和平均精度(mean Average Precision,mAP)作为本实验中的评价指标。CMC曲线表示行人识别的准确性,本文使用Rank-l、Rank-5、Rank-10和Rank-20的得分代表CMC曲线。当每次识别仅对应视频序列中的一个目标时,CMC指标是有效的,但是当视频中存在多个目标时,CMC指标是有偏差的。DukeMTMC-RelD和MARS数据集在使用CMC曲线作为评价指标的同时,也采用mAP作为评价指标。相比之下,mAP是一个更具有综合性的指标,非常适合单目标和多目标的再识别。
3.4在MARS和DukeMTMC-RelD数据集中评估
为了验证本文方法的有效性,在MARS数据集中进行了测试与分析。本文选取了4个具有代表性的视频序列,如图4所示,其中:query表示待识别的目标行人;数字1~10表示Rank-1到Rank-10;黑实线框代表正样本(与目标具有相同身份的人),即识别正确;无框代表负样本(与目标具有不
(a)视角变化
(b)人体姿势变化
(c)光照变化
(d)相似外观目标的干扰
图4在MARS数据集上行人再识别的结果
Fig.4Results of person re-identification on MARS dataset
从图4(a)中可以看出,本文方法成功识别不同视角的所
第11期刘保成等:基于时空正则化的视频序列中行人的再识别3219
有候选者;在图4(b)中本文方法也成功到了最高等级的正确候选者;图4(c)受到明显的光照变化的影响;图4(d)包含与待识别目标具有相似外观行人的干扰。实验结果表明本文方法对于人体姿势变化、视角变化、光照变化和相似外观目标的干扰都具有出的性能表现。
表1列出了本文方法中各个组成部分的性能比较结果,其中:Baseline对应于在DukeMTMC-RelD和MARS数据集上使用softmax交叉爛损失函数训练的基础的网络模型;Triplet、STR(Spatial-Temporal Regularization)和FLR(Frame-Level Regularization)分另代表三重损失函数、时空正则化和帧级正则化。
Baseline+Triplet代表用三重损失函数和softmax交叉爛损失函数训练的网络。在MARS数据集中,与Baseline+ Triplet相比,STR在mAP方面提高了2.5个百分点,在Rank-1准确率方面提高了3.3个百分点。与Baseline+Triplet+STR 相比,FLR方法在mAP方面提高了1.7个百分点,在Rank-1准确率方面提高了2.7个百分点。在DukeMTMC-RelD数据集中, STR在mAP方面提高了1.7个百分点,在Rank-1准确率方面提高了4.8个百分点。而FLR在mAP方面提高了1.2个百分点,在Rank-1准确率上提高了1.8个百分点。结果表明空间正则化方法有助于提高行人再识别的准确性,帧级正则化方法可以平衡帧间差异,进一步提高整体的性能。
表2展示了输入不同长度视频序列的性能比较。为了公平比较,本文除了改变视频序列的长度T以外,其他的参数均保持不变。T=1是不使用时间建模方法的单幅图像的模型。从表2中可以看出,随着序列长度T的增加,mAP和Rank准确率得分均有所提高,这表明时间建模方法对于提高行人再识别的准确性是有效的。当T=4时,本文方法的整体性能表现最佳。T=4时,在MARS数据集中本文方法的Rank-1准确率为82.1%,mAP为72.3%;而在DukeMTMC-RelD数据集中本文方法的Rank-1准确率为80.0%,mAP为61.2%。
表1本文方法中各个组成部分的性能比较单位:%Tab.1Performance comparison of various components in the proposed method unit:%
模型
mars数据集DukeMTMC-RelD数据集
mAP Rank-1Rank-5Rank-10Rank-20mAP Rank-1Rank-5Rank-20
Baseline54.064.782.187.491.043.562.370.479.2 Baseline+Triplet68.176.186.390.692.958.373.478.686.7 Baseline+Triplet+STR70.679.48&692.194.260.078.283.590.1 Baseline+Triplet+STR+FLR72.382.190.593.195.061.280.088.893.7
表2不同视频序列长度的性能比较单位:%
Tab.2Performance comparison of different video sequence length s unit:%
mars数据集DukeMTMC-RelD数据集mAP Rank-1Rank-5Rank-10Rank-20mAP Rank-1Rank-5Rank-20 162.974.785.288.692.450.471.577.684.2 268.678.688.490.893.257.778.183.689.3 472.382.190.593.195.061.280.088.893.7 872.281.790.493.595.061.080.088.593.7
为了进行公平的比较,本文使用相同的基础模型与现有的方法进行对比。表3列出了本文方法与MARS中其他方法的比较,其中“一”表示论文作者没有进行对应的实验(下同)。本文方法的mAP为72.3%,与Triplet凹相比提高了4.6个百分丿点,与CSACSE(Competitive Snippet-similarity Aggregation and Co-att
entive Snippet Embedding)方法竺相比提高了2.9个百分点,与MSML(Margin Sample Mining Loss)方法〔⑻相比提高了0.3个百分点。Rank-1准确率为82.1%,相对于Triplet提高T2.3个百分点,相对于CSACSE提高了0.9个百分点。对于Rank-5和Rank-20而言,本文方法也取得了出的成绩。在Rank-10方面,准确率为93.1%。
表3几种方法在MARS数据集中的性能比较单位:%
Tab.3Performance comparison of
several methods in MARS dataset unit:%
mAP Rank-1Rank-5Rank-10Rank-20本文方法72.382.190.593.195.0 Zheng方法49.368.382.6—89.4 QAN方法⑷51.773.784.9—91.6 Triplet方法虫]67.779.891.4——Zhou方法⑸50.770.690.0—97.6
Li方法〔"I56.171.886.6—93.0 MSML方法[⑻72.083.092.6——STAN方法口9]65.882.3———CSACSE方法竺]69.481.292.1——
表4列出了本文方法与DukeMTMC-RelD中其他方法的比
较,该数据集比MARS更具有挑战性,因为它的相机视域更宽,场景更复杂,行人图像在分辨率和背景
方面变化很大。表4中列出了本文方法的mAP和Rank-1准确率分别为61.2%和80.0%,与APR方法相比旳均提高了9.3个百分点,与其他方法相比并没有明显的提高。但是本文方法的模型更加简单、且易于训练。表4还列出了本文方法的Rank-5和Rank-20准确率分别为88.8%和93.7%。
表4几种方法在
DukeMTMC-RelD数据集中的性能比较单位:%Tab.4Performance comparison of several methods
in DukeMTMC-RelD dataset unit:%方法mAP Rank-1Rank-5Rank-20
本文方法61.280.088.893.7
HA-CNN方法[级63.880.5——APR方法创51.970.7——MLFN方法冋62.881.0——DPFL方法⑵]60.679.2——
4结语
本文主要对基于视频的行人再识别进行了分析和研究。实验结果表明,时间建模方法对于提高视频中行人再识别的准
3220计算机应用第39卷
确性是有效的。本文还提出了时空正则化和帧级正则化策略,进一步提高了行人再识别的准确性。在DukeMTMC-RelD和MARS数据集上进行实验,实验结果清楚地证明了本文方法的整体有效性。未来的主要工作是将本文方法与目标检测或跟踪算法相结合应用于实际的多摄像机监控环境,实现对目标行人准确的识别和连续、稳定的跟踪。
参考文献(References)
[1]李幼蛟,卓力,张菁,等•行人再识别技术综述[J]•自动化学报,
2018,44(9):1554-1568.(LIYJ,ZHUO L,ZHANG J,et al.A survey of person re-identification[J].Acta Automatica Sinica,2018, 44(9):1554-1568.)
[2]MCLAUGHLIN N,DEL RINCON J M,MILLER P.Recurrent convo­
lutional network for video-based person re-identification[C]//Pro­ceedings of the2016IEEE Conference on Computer Vision and Pat­tern Recognition.Piscataway:IEEE,2016:1325-1334.
[3]WU Z,WANG X,JIANG Y G,et al.Modeling spatial-temporal
clues in a hybrid deep learning framework for video classification
[C]//Proceedings of the23rd ACM International Conference on Mul­
timedia.New York:ACM,2015:461-470.
[4]LIU Y,YAN J,OUYANG W.Quality aware network for set to set
recognition[C]//Proceedings of the2017IEEE Conference on Com­puter Vision and Pattern Recognition.Piscataway:IEEE,2017:4694 -4703.
[5]ZHOU Z,HUANG Y,WANG W,et al.See the forest for the trees:
Joint spatial and temporal recurrent neural networks for video-based person re-identification[C]//Proceedings of the2017IEEE Confer­ence on Computer Vision and Pattern Recognition.Piscataway: IEEE,2017:4747-4756.
[6]KARPATHY A,TODERICI G,SHETTY S,et al.Large-scale video
classification with convolutional neural networks[C]//Proceedings of the2014IEEE Conference on Computer Vision and Pattern Recogni­tion.Piscataway:IEEE,2014:1725-1732.
[7]DENG J,DONG W,SOCHER R,et al.ImageNet:a large-scale hi­
erarchical image database[C]//Proceedings of the2009IEEE Con­ference on Computer Vision and Pattern Recognition.Piscataway: IEEE,2009:248-255.
[8]HE K,ZHANG X,REN S,et al.Deep residual learning for image
recognition[C]//Proceedings of the2016IEEE Conference on Com­puter Vision and Pattern Recognition.Piscataway:IEEE,2016:770 -778.
[9]YOU J,WU A,LI X,et al.Top-push video-based person re-identifi-
cation[C]//Proceedings of the2016IEEE Conference on Computer Vision and Pattern Recognition.Piscataway:IEEE,2016:1345-1353.
[10]YAN Y,NI B,SONG Z,et al.Person re-identification via recurrent
feature aggregation[C]//Proceedings of the14th European Confer­
ence on Computer Vision.Berlin:Springer,2016:701-716. [11]XU K,BA J,KIROS R,et al.Show,attend and tell:Neural image
caption generation with visual attention[C]//Proceedings of the 32nd International Conference on Machine Learning.[S.  1.]:Inter­
national Machine Learning Society,2015:2048-2057.
[12]HERMANS A,BEYR L,LEIBE B.In defense of the triplet loss for
person re-identification[EB/OL].[2017-11-21].^
pdF1703.07737.
[13]KINGMA D P,BA J.Adam:a method for stochastic optimization
[EB/OL].[2017-01-30].csce.uark.edu/~mgashler/ml/
2018_spring/r3/adam.pdf.
[14]ZHENG L,BIE Z,SUN Y,et al.Mars:a video benchmark for
large-scale person re-identification[C]//Proceedings of the14th
European Conference on Computer Vision.Berlin:Springer,2016:
868-884.
[15]ZHENG Z,ZHENG L,YANG Y.Unlabeled samples generated by
GAN improve the person re-identification baseline in vitro[C]//Pro­
ceedings of the2017IEEE International Conference on Computer Vi­
sion.Washington,DC:IEEE Computer Society,2017:3754-
3762.
[16]RISTANI E,SOLERA F,ZOU R,et al.Performance measures and
a data set for multi-target,multi-camera tracking]C]//Proceedings
of the14th European Conference on Computer Vision.Berlin:
Springer,2016:17-35.
[17]LI D,CHEN X,ZHANG Z,et al.Learning deep context-aware fea­
tures over body and latent parts for person re-identification[C]//
Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition.Piscataway:IEEE,2017:384-393.
[18]XIAO Q,LUO H,ZHANG C.Margin sample mining loss:a deep
learning based method for person re-identification[EB/OL].[2017-
10-07]./pdf/1710.00478.
[19]LI S,BAK S,CARR P,et al.Diversity regularized spatiotemporal
attention for video-based person re-identification[C]//Proceedings
of the2018IEEE Conference on Computer Vision and Pattern Recog­
nition.Piscataway:IEEE,2018:369-378.
[20]LI W,ZHU X,GONG S.Harmonious attention network for person
re-identification]C]//Proceedings of the2018IEEE Conference on
Computer Vision and Pattern Recognition.Piscataway:IEEE,2018:
2285-2294.
[21]LIN Y,ZHENG L,ZHENG Z,et al.Improving person re-identifi-
cation by attribute and identity learning[J].Pattern Recognition,
2019,95:151-161.
[22]CHEN D,LJ H,XIAO T,et al.Video person re-identification with
competitive snippet-similarity aggregation and co-attentive snippet
embedding[C]//Proceedings of the2018IEEE Conference on Com­
puter Vision and Pattern Recognition.Piscataway:IEEE,2018:
1169-1178.
[23]CHANG X,HOSPEDALES T M,XIANG T.Multi-level factorisati­
on net for person re-identification[C]//Proceedings of the2018
IEEE Conference on Computer Vision and Pattern Recognition.Pis­
cataway:IEEE,2018:2109-2118.
[24]CHEN Y,ZHU X,GONG S.Person re-identification by deep learn­
ing multi-scale representations]C]//Proceedings of the2017IEEE
International Conference on Computer Vision.Piscataway:IEEE,
2017:2590-2600.
[25]李姣,张晓晖,朱虹,等.多置信度重排序的行人再识别算法[J].
模式识别与人工智能,2017,30(11):995-1002.(LI J,ZHANG
X H,ZHU H,et al.Person re-identification via multiple confi­
dences re-ranking[J].Pattern Recognition and Artificial Intelli­
gence,2017,30(11):995-1002.)
This work is partially supported by the Science and Technology Support Project of Jilin Province(20180201091GX),the Project of Jilin Provincial Science and Technology Innovation Center(20180623039TC).
LIU Baocheng,bom in1995,M.S.candidate.His research inter­ests include machine learning,computer vision.
PIAO Yau,bom in1965,Ph.  D.,professor.Her research interests include computer vision,pattern recognition.
TANG Yue,bom in1994,M.S.candidate.Her research interests include deep learning,computer vision.

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。