第41卷第1期2021年2月
南京邮电大学学报(自然科学版)
JournalofNanjingUniversityofPostsandTelecommunications(NaturalScienceEdition)
Vol.41No.1Feb 2021
doi:10.14132/j.cnki.1673⁃5439.2021.01.010
面向行人重识别分集特征挖掘的多分支深度神经网络构造进展
吴晓富1,尹梓睿1,宋㊀越2,张㊀磊1,谢㊀奔1,赵师亮1,张索非3
1.南京邮电大学通信与信息工程学院,江苏南京㊀2100032.95958部队,上海㊀2001203.南京邮电大学物联网学院,江苏南京㊀210003
æèçç
ö
ø
÷÷摘要:随着深度学习的兴起,近年来行人重识别性能提高的关键是如何构建具有分集特征挖掘的深度神经网络以获得行人图像的紧凑表达,而多分支深度神经网络是实现分集特征挖掘的主要途径㊂文中分析了近年来用于行人重识别多分支深度神经网络的几种主流构建方法,包括局部分割分集㊁注意力分集㊁特征遮挡分集㊁异构支路分集等,并在3个行人重识别数据集Market1501,Duke,CU⁃HK03上对不同算法性能进行了比较分析㊂基于当前进展,最后还讨论了行人重识别分集特征挖掘的未来研究趋势㊂
关键词:行人重识别;多分支网络;分集特征;特征嵌入
中图分类号:TP391㊀㊀文献标志码:A㊀㊀文章编号:1673⁃5439(2021)01⁃0078⁃08
Recentadvancesonconstructionofmulti⁃branchneuralnetworksforpersonre⁃identification
WUXiaofu1,YINZirui1,SONGYue2,ZHANGLei1,XIEBen1,ZHAOShiliang1,ZHANGSuofei3
1.CollegeofTelecommunications&InformationEngineering,NanjingUniversityofPostsandTelecommunications,Nanjing210003,China2.Unit95958ofPLA,Shanghai200120,China3.SchoolofInternetofThings,NanjingUniversityofPostsandTelecommunications,Nanjing210003,Chinaæèççöø÷÷Abstract:Withthesurgeofdeeplearning,thereisincreasedinterestonthedesignofmulti⁃branchneuralnetworksforextractingrichfeaturesinpersonre⁃identification.Thispaperreviewssomerecentad⁃vancesonthistopic,includingpart⁃basedapproaches,attention⁃basedapproaches,droppingapproaches,andheterogeneousapproaches.Variousstate⁃of⁃the⁃artapproachesonthepopularpedestrianre⁃identificationdatasets,includingMarket1501,DukeandCUHK03,arecomparedandanalyzed,re⁃spectively.Finally,futuredirectionsofthepersonre⁃identificationwithdiversefeaturesarediscussed.Keywords:personre⁃identification;multi⁃branchneuralnetworks;diversefeatures;featureembedding收稿日期:2020⁃08⁃18;修回日期:2020⁃09⁃07㊀㊀本刊网址:http:ʊnyzr.njupt.edu.cn
基金项目:国家自然科学基金(61671253)资助项目
作者简介:吴晓富,男,博士,研究员,博士生导师,xfuwu@njupt.edu.cn
引用本文:吴晓富,尹梓睿,宋越,等.面向行人重识别分集特征挖掘的多分支深度神经网络构造进展[J].南京邮电大学学报(自然科学版),
2021,41(1):78-85.
㊀㊀行人重识别(PersonRe⁃Identification,ReID)是计算视觉应用的主要领域之一,其核心任务是寻出现在不同摄像头视图中的特定行人[1-2]㊂作为一
个跨摄像机的特定行人检索问题,由于人工智能理论和应用的相互推动,该问题近年来得到了广泛的
关注和长足的发展㊂对于给定的待查询行人,需要匹配出在不同地点㊁时间段甚至不同摄像头捕捉到的同一行人图像[3]㊂作为一个复杂检索问题,ReID面临着:不同摄像机捕捉的行人图像具有包括视角㊁图像分辨率㊁光照㊁遮挡等一系列差异,这些差异对
于检索精度的提高构成了巨大的挑战[2]㊂
为了提高行人重识别的性能,如何构建具有分集特征挖掘能力的深度神经网络近年来成为行人重识别的热点问题之一㊂鉴于多分支深度神经网络的不同分支具有表达不同特征的便利性,因而成为实现分集特征挖掘的流行网络模型㊂近年来,通过多分支深度神经网络来获得分集特征的方法得到了广泛的关注,主要包括4大类:(1)局部分割分集网络,典型如PCB[4]㊁PLR⁃OSNet[5];(2)注意力分集网络,典型如ABD⁃Net[6]㊁MHN[7];(3)遮蔽分集网络,典型如BDB[8]㊁SDB[9];(4)异构分集网络,如BC⁃OSNet[10]㊁ASNet[11]㊂
本文主要针对行人重识别多分支分集技术的进展进行回顾与梳理,通过实验给出在典型行人ReID数据集的性能评估,并对未来的相关研究方向进行展望㊂
1㊀多分支深度神经网络与分集特征挖掘
㊀㊀一般地,假设具有L个分支的多分支深度神经网络由公共网络fc(㊃)以及L个子分支网络f
l(㊃),l=1,2, ,L构成㊂这样,给定输入的图像x,多分支深度神经网络输出L个支路特征矢量:F
l=fl(fc(x)),l=1,2, ,L㊂对L个支路特征矢量进行拼接(Concatenation),得到x的最终特征矢量
F=[FT1,FT2, ,FTL]T(1)鉴于不同支路特征矢量的相同位置分量(如第i个分量)可以代表完全不
同的特征,如何衡量不同分支特征矢量之间的分集性是个非常困难的问题㊂例如2个分支特征矢量F1与F2之间的平方欧式距离 F1-F2 22越大并不能说明第一分支与第二分支的分集性能越好㊂事实上,如果F2是F1的置换形式,虽然实质上两矢量表达的特征完全是一样的,但其欧式距离非但不为0,而是可以相当大(取决于具体置换)㊂为此,一个可能的方式是引入一个对抗网络(AdversaryNetwork)[12]g,使得[7]
div(F)=mingð{iʂj} g(Fi)-g(Fj) 22(2)虽然以上方法在文献[7]中取得了一定的效果,但在其他实验中的结果并不理想,对抗网络的收敛性及其性能在理论和实践上都无法得到严格的保证㊂
为此,近几年来计算视觉方向的会议如CVPR㊁ICCV对行人重识别的特征分集问题进行了广泛的探讨,下面分4大类进行介绍㊂
2㊀局部分割分集网络
局部分割的思路在于将图像全局的特征图进行局部分割,每一个分支对应到图像的一个局部,通过各分支有效学习局部细粒度特征,最终提高特征的分集表达能力㊂
2.1㊀PCB
相较于单分支的全局特征,PCB(Part⁃basedConv⁃olutionalBaseline)网络将特征水平均匀分块,实现对局部特征的挖掘;同时提出了RPP(Refined⁃PartPooling)[4]方法来
对齐局部特征,修正由于PCB均分策略而产生的对齐缺陷,进一步提升PCB的性能㊂PCB网络选用ResNet50[13]为主干网络,将最后一个Stride变为1,使得主干网络获得的特征图尺寸从12ˑ4扩大到24ˑ8,并将特征图垂直分割为L个部分,经过平均池化和特征压缩后获得L个列向量F,然后将其分别送入到全连接层,最后计算L组交叉熵(CrossEntropy)的和作为损失函数㊂测试时,PCB可以将L个列向量Fl,l=1,2, ,L进行拼接得到特征F(见式(1))用于最后的判别㊂
相比基本的IDE[4]网络,PCB的mAP在Mar⁃ket1501[14],Duke[15],CUHK03[16]上分别提高了8 9%㊁13.5%㊁15.3%,在行人重识别的分集特征挖掘领域是具有里程碑意义的算法(见图1)㊂
6组
I DL o s s
1?1
C o n v
P a r t P o o l i n g
G A P
C o n v L a y e r f r o m
b a
c k b o n e n e t w o r k
图1㊀PCB网络结构
2.2㊀PLR⁃OSNet
结合PCB结构局部分割的思想,PLR⁃OSNet[5]是一种二分支深度神经网络模型,该分集网络由全局分支(GlobalBranch)和局部分支(LocalBranch)组成㊂其中的局部分支采用统一分割策略进行局部特征分解㊂与PCB所不同的是,PLR⁃OSNet并没有将L个局部特征单独分解为L个支路,而是提出将L个部分级特征向量拼接成单个列向量用于单独的一个LocalBranch,最终在该LocalBranch上仅使用一个损失函数训练,这与现有基于部分分割的方法形成了鲜明的对比,如图2所示㊂测试时可以将全局分支特征和局部分支特征拼接后作为最后判别的特征㊂
97
第1期吴晓富,等:面向行人重识别分集特征挖掘的多分支深度神经网络构造进展
P a r t P o o l i n g
T r i p l e t L o s s
I DL o s s C e n t e r L o s s
O S N e t
C o n v 1,2,3O S N e t C o n v 4O S N e t
C o n v 5
O S N e t C o n v 4O S N e t
C o n v 5
G M P
T r i p l e t L o s s
I DL o s s C e n t e r L o s s
图2㊀PLR⁃OSNet网络架构
㊀㊀PLR⁃OSNet全局特征结合局部特征,很好地实
现了分集特征挖掘,对比PCB+RPP算法,其mAP在Market1501上继续提高了7.3%㊂
3㊀注意力分集网络
类似于人类的注意力机制,利用注意力机制能有效提高神经网络的表达能力,在行人重识别领域得到了广泛的应用㊂为获取分集增益,加入注意力机制的多分支网络也被证明是行之有效的手段之一㊂
给定输入图像的某中间特征张量XɪRCˑHˑW,
注意力机制可理解为对输入特征张量的所有元素进行加权,也即
Y=A(X)☉X
(3)
其中,A(X)ɪRCˑHˑW表示注意力模块的输出权重㊂☉表示Hadmard乘法(逐元素相乘)㊂
3.1㊀ABD⁃Net
ABD⁃Net是一种融入注意力机制以及正交正则
化技术的双分支网络㊂通过注意力机制,能够使网络注意力集中于前景的行人,从而淡化环境的影响,同时加入了正交正则化来保证不同支路特征具有分集多样性㊂
具体而言,ABD⁃Net分别针对通道融合和位置感知,加入了一对互补的注意力模块:通道注意力模块(ChannelAttentionModule)A(X)=rep[V]|H,W,以及位置感知模块(PositionAttentionModule)A(X)=rep[M]|C,其中rep[V]|H,W表示信道掩模矢量在空间维度H㊁W上的重复扩展,同理rep[M]|C表示空间掩模在信道维度C上的重复扩展㊂ABD⁃Net最终获得注意力加强的特征,如图3所示㊂为了增强输出特征的多样性,该网络提出了特征值差异正交约束(SpectralValueDifferenceOrthogonality,SVDO),并将其用于网络各个层的输入和输出端;通过同时正则化卷积㊁全连接层的权重和输出的特征张量,能够有效降低不同分支网络特征之间的相关度㊂
(a )通道注意力模块
C h a n n e l A t t e n t i o n M o d u l e (C A M )
(b )位置感知模块模块C H ?W
C ?H ?W
B C D
C ?H ?W R e s h a p e
R e s h a p e R e s h a p e &T r a n s p o s e C ?N C ?N
C ?N
S o f t m a x
N ?N
S
C ?H ?W
R e s h a p e
M a t r i x M u l t i p l i c a t i o n
E l e m e n t -w i s e S u mO p e r a t i o n
E
A
R e s h a p e &T r a n s p o s e
N ?C
M a t r i x M u l t i p l i c a t i o n E l e m e n t -w i s e S u mO p e r a t i o n
C ??W
C ?N R e s h a p e
C ?N
R e s h a p e S o f t m a x
C ?C
R e s h a p e
C ?H ?W
C ?H ?W
E
X
A
图3㊀通道注意力模块和位置感知模块
08南京邮电大学学报(自然科学版)㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀2021年
3.2㊀MHN
ABD⁃Net的注意力机制相对于输入张量X而
言是一阶的㊂为挖掘注意力机制的分集机理,MHN
首次提出高阶注意力机制(High⁃OrderAttention,HOA)㊂高阶注意力机制的核心是定义给定输入张量X的R阶多项式表达
a(X)=
ðR
r=1
(Wr, rX)(4)
其中, rX表示X分量的r阶多项式表达式,以体现X各分量之间的高阶关系㊂最终,高阶注意力权重可以表示为
A(X)=sigmoid(a(X))
(5)
实验中,MHN以ResNet50为骨架网络,使用基于PCB的多分支网络,每一个分支利用不同阶数的HOA模块获得的差异化分集特征,如图4所示
R e s 50-P a r t 1
全连接层R e s 50-P a r t 2图4㊀混合高阶注意力网络(MHN)
其中R=1㊁2㊁3分别代表一阶㊁二阶㊁三阶注意力模型,通过不同的HOA模块实现具有分集能力的多分支网络,然后连接到全连接层㊂为了使不同阶注意力模型输出特征更好地实现分集性能,如式(2)所示,MHN还通过训练对抗网络来分辨不同分支的特征,使得不同分支的特征实现更高的分集度㊂
4㊀遮蔽分集网络
遮蔽分集网络主要是通过在分支网络中添加遮挡部分,以此强化未遮蔽部分特征表达能力的学习,提取更富表达力的特
征,从而提高ReID模型的泛化能力㊂4.1㊀BDB
针对深度卷积神经网络训练时易出现过拟合的问题,各种数据增强技术获得了广泛的运用㊂例如,RandomErasing[17]直接对数据库中的图像进行随机的擦除,获得增强的数据集,一定程度上改善了过拟合现象㊂BDB网络首次提出在网络中间层的特征层面进行随机的遮蔽,以迫使神经网络学习更富有表达力的特征㊂如图5所示,BDB网络包含两个分支,也即全局分支与特征丢弃分支㊂其中,全局分支
提取全局特征;而特征丢弃分支则通过随机去除一个区域(该区域图案在一个批次内保持不变),区域内的所有像素均被清零,再经过最大值池化和全连接层,最后计算各种损失函数㊂
G A P
1024?1
2048?1
G l o b a l B r a n c h
H a r d T r i p l e t L o s s
I DL o s s R e s N e t -50S t a g e 4
B o t t l e n e c k
G M P
1024?1F e a t u r e D r o p B r a n c h
H a r d T r i p l e t L o s s
I DL o s s M a s k
图5㊀BDB(BatchDropBlock)结构
通过加入遮蔽分支的方式,BDB可以实现全局分支和特征丢弃分支之间的多样性,有效实现了分集特征的挖掘㊂
4.2㊀SDBBDB作为一种典型的特征擦除方法,已经被
证明对ReID是有效的㊂然而,BDB的丢弃模式在不同批次的擦除区域都不相同,其网络可能难以学习到稳定的结构㊂基于该缺陷,SDB(SlowDropBlock)提出了随机擦除图案在Q个批次(Batch)中保持不变,并将擦除操作直接移至图
像输入端㊂如图6所示,SDB表示生成的擦除块
至少在Q>1个批次中保持不变,当Q=1时,SDB等同于BDB,擦除的区域同样可以置零或者设为擦除区域值的平均㊂
由于删除了大量的输入图像,SDB采用通常的训练方式难以收敛㊂为了解决这一问题,论文提出了一种新的具有保证收敛性的双批次输入联合训练方法㊂该方法在训练过程中采用超级批次样本进行训练,一个超级批次由两个批次组成(一个常规批次和一个遮蔽批次),因此其输入图像批次大小可表示为2BˑHˑWˑ3的图像张量(Tensor)㊂每个批次的样本数量均为B㊂超级批次首先输入到共享网络,生成的特征图被分成两个子批次,一个用于全局分支,一个用于局部分支㊂
SDB通过对不同局部分支输入批次的擦除区
域高度设置,获得了不同特征的多样性,并将不同比
8第1期吴晓富,等:面向行人重识别分集特征挖掘的多分支深度神经网络构造进展
值下的SDB分支与全局分支拼接,进一步提升了网络性能㊂实现结果显示,四分支网络SDB⁃4对比BDB网络,mAP在Market1501,Duke,CUHK03上分别提高了2.0%㊁3.5%㊁4.0%㊂
(a )D r o p o u t
(b )D r o p B l o c k
(c )B a t c h D r o p B l o c k
(d )S l o w -D r o p B l o c k (Q =2)
图6㊀不同的Dropout方法的比较(BatchSize=2)
5㊀异构支路分集网路
除了以上3大类分集网络外,还有一些工作无法归入以上3类,如ASNet[11]和BC⁃OSNet,本文将其归入异构支路分集网络,其关键特征在于各支路通过各种异构技术获得分集㊂下面以BC⁃OSNet为例㊂
如图7所示,BC⁃OSNet以OSNet为骨架网络,结合了PLR⁃OSNet的部分分级方式,以及Re⁃lationNetwork[18]的GCP和One⁃vs⁃Rest模块,再加上全局分支,组成四分支网络㊂其中,One⁃vs⁃
Rest[18]关系模块考虑了身体各个部位与身体其他部位之间的关系,使得每个部分级别特征都包含了相应部位本身以及身体其他部位的信息,使其更具识别性㊂全局对比池化(GCP)[18]则通过对比全局特征和局部特征,以获得更加突出的全局特征表达㊂
最终BC⁃OSNet在Market1501㊁Duke㊁CUHK03三大数据集上都获得了性能的明显提升㊂
O S N e t
c o n v 5V 1
V 2512?1
2048?1
O S N e t c o n v 4O S N e t
c o n v 5
O S N e t c o n v 4A P
A P A P
A P
G M P
T r i p l e t L o s s I DL o s s C e n t e r L o s s
T r i p l e t L o s s
I DL o s s C e n t e r L o s s
256?128
O S N e t
c o n v 1
O S N e t
c o n v 2
O S N e t
c o n v 3
V 3
V 4
1536?1
256?1
O S N e t
c o n v 5O S N e t c o n v 4O S N e t
c o n v 5
O S N e t c o n v 4G M P
O n e -v s ,r e s t r e l a t l o n m o d u l e
T r i p l e t L o s s
I DL o s s C e n t e r L o s s
T r i p l e t L o s s I DL o s s C e n t e r L o s s 图7㊀BC⁃OSNet框图
正则匹配关键词
6㊀实验结果分析与讨论
6.1㊀数据集
实验部分主要围绕ReID领域3个比较流行的数
据集上展开,分别是Market1501㊁Duke和CUHK03㊂
6.2㊀实验环境及参数配置本文实验采用的硬件和软件仿真环境如表1
所示㊂
28南京邮电大学学报(自然科学版)㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀2021年

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。