DOI :10.15913/jki.kjycx.2024.08.004
基于跨模态蒸馏的无监督行人重识别算法
陈济远
(华中科技大学人工智能与自动化学院,湖北 武汉 430074)
摘  要:无监督行人重识别任务要求在训练数据没有标注的情况下训练出能够进行跨摄像头检索的行人重识别模型,如何在缺失行人真实身份标签的情况下训练模型提取出具有鲁棒性和判别性的特征是无监督行人重识别研究的难点。针对基于文本的跨模态行人重识别中模态间分布差异问题,提出基于跨模态蒸馏的无监督行人重识别算法,通过构建跨模态分类对比损失、跨模态蒸馏损失和模态内规范化损失,在无行人标注的情况下,训练出能够提取具有跨模态不变性和行人身份判别性特征的模型。
关键词:计算机视觉;无监督学习;行人重识别;深度学习
中图分类号:TP391.41              文献标志码:A            文章编号:2095-6835(2024)08-0014-05
在行人重识别任务的各种变体中,基于文本的跨
模态行人重识别任务旨在使用文字描述信息检索具有同一身份的行人图片,主要应用于没有目标行人照片只有相关语言表述的实际场景。这一设定在无目标行人图像只有语言描述的实际场景中有巨大作用。
近年来,基于监督学习的文本跨模态行人重识别方法已经获得了巨大的提升。这些方法遵从一个相似的学习框架,即通过行人身份构建文本-图像正负样本对监督跨模态匹配。这些方法都强烈依赖于行人身份标注,然而行人重识别数据集的标注需要耗费大量人力物力,因此一些研究者提出无需行人身份标注,保留文字和图像间配对关系的基于文本的跨模态无监督行人重识别任务。
尽管在基于文本的跨模态无监督行人重识别任务中,文本和图像的匹配关系被保留,但是由于缺失行人身份信息,存在如下问题:各个模态内行人身份存在特征差异,在缺少行人身份信息监督的情况下很难被消除;在进行跨模态的文本图像匹配时无法精确匹配对应行人。因此,基于跨模态蒸馏的无监督行人重识别方法是通过使用深度神经网络分别对文本和图像提取的特征进行聚类获取伪标签,使用行人身份伪标签监督模型训练,对数据集进行一整轮训练后重新进行识别[1]
在有监督的基于文本的跨模态行人重识别的研究
中,ZHANG &LU (2018)[2]
提出了跨模态投影匹配损失
(Cross-Modal Projection Matching ,CMPM )完成跨模态匹配的监督,并取得了较好的效果,基于文本的无监督跨模态行人重识别的工作也使用了该损失。给定一个包括n 个图像和文字的训练批次[]
(x i ,z j ),y i ,j
n j =1
,其
中x i 为图像特征,z j 为文字特征,若(x i ,z j )匹配,则y i ,j =1,反之y i ,j =0。x i 与z j 的匹配概率可表示为:
p i ,j =exp (x T i z
ˉj )∑k =1
n exp (x T
i z ˉk )s.t.z ˉj =z j  z j                  (1)式中:-z j  为经过归一化的文字特征;x T i z ˉj 为将特征向量x i 投影到z j 上。
从图像到文字跨模态投影匹配损失的计算公式为:
L i 2t =-1n ∑i =1n ∑j =1n
p i ,j log p i ,j q i ,j
(2)
式中:q i ,j =
y i ,j
∑k =1n
y i ,k
为一个批次内出现多个正对时
y i ,j 的归一化形式。
跨模态映射匹配损失虽然完成对文本-图像间跨模态匹配的监督,但是存在以下问题:①跨模态投影匹配损失忽略了模态内对行人身份的监督,由于行人重识别任务中会出现不同行人相似衣着导致的较小的类间差异及不同摄像头捕获同一行人图片导致的较大的类内差异,使得即使同一模态下的特征,也需要有效监督保证其特征具有良好的可分性和鲁棒性;
②跨模态投影匹配损失只关注了一个训练批次内的文字-图像匹配,只对跨模态的局部分布进行了匹配,难以得到全局最优匹配。
为了解决跨模态投影匹配损失所存在的问题,在基于蒸馏的跨模态无监督行人重识别中,提出以下3种损失函数。
跨模态类别对比损失:利用伪标签在图像模态和文本模态分别建立类别记忆字典,类别记忆字典中每个实例可以看作一个类别的代理类中心,训练批次的图像样本与文字类别记忆字典中实例计算匹配概率可近似表示该样本与文本模态样本的总体的匹配概率,
伪标签可作为该匹配概率目标概率分布对其进行监督训练,组成跨模态类别对比损失。该损失可以对全局的跨模态匹配概率进行优化。
跨模态蒸馏损失:基于度量应具有对称性约束的先验知识,文字到图像的匹配概率分布和图像到文字的匹配概率分布应保持一致,跨模态蒸馏损失通过将两者相互蒸馏约束二者保持一致。跨模态蒸馏损失提供了一项正则约束,保证模型的泛化性。
模态内规范化损失:利用类别记忆字典构建模态内的类别对比损失,对模态内特征分布进行监督,消除模态内的类间差异。在进行模态内规范化损失监督后,同一模态下具有同一行人身份的特征将被聚集,一旦检索文本匹配到对应身份的图像特征,库中所有具有同一身份的行人特征由于聚集在一起都将被匹配到,可有效提高模型的跨模态检索性能。
为了解决基于文本的跨模态行人重识别问题,主要做了以下几个方面的工作:①分别在文本模态和图像模态构建类别记忆字典,提出跨模态类别对比损失、跨模态蒸馏损失和模态内规范化损失;②在CUHK-PEDES 文字-图像跨模态行人重识别数据集上验证了算法的有效性。
1  总体训练框架
给定一个跨模态行人重识别数据集X ={}I i ,T i N
i =1,其中I i 为第i 个图片,T i 为第i 个与I i 配对的文本描述,N 为数据集共有N 对文本-图像对。该数据集并不包含任何行人身份标注。基于跨模态蒸馏的无监督行人重识别方法可以在仅包含文本-图像对的行人重识别数据集上训练出具有良好跨模态检索性能的模型。
对于基于文本的跨模态无监督行人重识别任务,需要在图像模态和文本模态分别构建特征提取器E vision 和E text ,提取图像特征和文本特征。对于图像特征提取器,可采用ResNet-50作为骨干网络。输入图像经 4个残差模块输出的特征图经最大值池化后生成一个2 048维的特征向量f v ∈ R c ,是该图像的全局特征。对于文字特
征提取器,可采用BERT 或其他语言模型作为骨干网络,在BERT 模型后接入一个残差卷积模块作为特征提取层。
BERT 是一个经过大量语料预训练的双向Transformer 模型,可以提取极具可分性的语句和单词特征向量。每个文本输入都被分解为一系列的单词,然后在每个文本的句首插入[CLS],句尾插入[SEP]。为了保证文本长度的一致性,每个句子
选择前L 个单词作为输入,对于超出L 个单词的句子进行截取,少于L 个单词的句
子使用空字符进行填充。在这之后,每个句子都被输入BERT 模型后映射成为一系列词向量t ∈R L ×D ,其中D 为词向量的维度。
训练时,作为骨干网络的BERT 的参数将被冻结,而其后的残差卷积层的参数是可优化的,这样有3点好处:①经大量语料预训练过的BERT 模型本身就具有极强的语义表达能力,这里仅作为词向量映射层使用;②之后的残差卷积模块将进一步提取映射出的词向量的特征;③仅训练残差卷积层的参数将大量减少训练参数,加速模型收敛。
在输入残差卷积层前,词向量t ∈R L ×D 将扩充一个维
度t *∈R 1×L ×D 以适应卷积层输入,其中1、L 、D 分别为卷积输入的高、宽和通道数。t *经残差卷积层后将被映射到与图像特征f v ∈R C 相同的维度,得到t ′∈R 1×L ×C ,
t ′经最大值池化得到文本特征f t 。
图像特征提取器E vision 和文本特征提取器E text 可以分别提取图像特征f v i 和文本特征f t i 。为了使这些特征能够包含行人身份信息,使用密度聚类算法DBSCAN 对特征进行聚类,得到行人身份伪标签。由于文本特征提取器E text 的残差卷积模块没有经过任何预训练,因此仅使用图像特征f v 进行聚类。使用该伪标签对模型进行监督训练。在对数据集进行一轮训练后,模型将重新进行一轮聚类以更新伪标签。
2  跨模态类别对比损失
模型训练的总体框架如图1所示,上半部分为图像模态,下半部分为文本模态。
图1  模型训练的总体框架
跨模态投影匹配损失只关注一个批次内的跨模态匹配,缺乏全局视角。跨模态类级对比损失在图像模态和文本模态分别构建了各自的类级记忆字典以支持全局的跨模态匹配。类级记忆字典根据行人身份伪标签为每个行人身份保存一个代理类中心。图像类别记忆字典和文本类别记忆字典分别表示为v c =
{}v c
1
,…,v c n 和t c
={}t c 1
,…,t c n ,
其中n c
为聚类产生的类别数,v c k 、
t c 1初始化为类别为k 的所有图像特征和文本特征的平均值,即类别k 的图像类中心和文本类中心。
v c
q v
q t
t c
L v
intra
L t →v
cross
L t →v distill  L v →t
cross
L v →t distill  L t
intra
E text
E vision
每个训练批次抽取N b 个图像-样本对进行训练,对于训练批次内一个文本特征q t ,其跨模态类别对比损失为:
L
t →v
cross
=-log
exp (v c +⋅q t /τ)
∑i =1
n exp (v c i ⋅q t
/τ)              (3)
式中:v c
+为与q t 为同一类别的文字类中心实例;τ为控制
对比损失温度的超参数。
同理,可以得到图像特征q v 的跨模态类对比损失:
L v →t
cross =-log exp (t c
+⋅q v /τ)∑i =1n exp (t c i ⋅q v
/τ)
(4)对于一个文本-图像对,其总体的跨模态类别对比损失为:
L cross =L t →v cross +L v →t
cross
(5)在训练过程中,训练批次内通过式(4)—式(7)对类别记忆字典进行更新:
v c i ←m ⋅v c
i +(1-m )⋅q v    (q v ∈Q v i )
(6)t c i ←m ⋅t c i +(1-m )⋅q t    (q t ∈Q t i )        (7)
在线的图像文本特征将分别更新各自模态的类别
记忆字典。m ∈(0,1)是决定更新速度的超参数,Q v i 、Q t i 分别为在一个训练批次内与q v 、q t 同一类别的特征集合。
3  跨模态蒸馏损失
借助类别记忆字典,可以得到一个图像特征q v 与各个文本类别的匹配度,q v 与文本类别k 的匹配概率为:
p
v →t
k
=
exp (t c k ⋅q v /τ)
∑i =1n exp (t c i ⋅q v
/τ)
(8)式中:
t c k 为类别k 在文本模态类别记忆字典的实例。同理,可得该对应文本特征q t 与图像类别k 的匹配概率为:
p
t →v
k
=
exp (v c k ⋅q t /τ)
∑i =1
n exp (v c i ⋅q t
/τ)            (9)
2种跨模态类别匹配概率都包含了丰富的“暗知识”,即从文本到图像或从图像到文本的总体的距离分
布。显然,在模型具有较好的跨模态能力时,2种距离
分布应是对称的,对任意的k ∈(1,…,n c ),p v →t
k
和p t →v k 应保持对等。
利用这一先验知识,使用跨模态蒸馏损失将二者对齐,文字到图像的跨模态蒸馏损失为:
L
t →v
distill
=﹣∑i n p
t →v
i log p v →t i                  (10)
同理,从图像到文字的跨模态蒸馏损失为:
L
v →t
distill
=-∑i
n p v →t
i
log p t →v i                      (11)总的跨模态蒸馏损失为:
L distill =L t →v distill +L v →t
distill
(12)跨模态蒸馏损失不仅可以对齐跨模态的距离分布,而且由于其目标为软标签,可以一定程度缓解因不可靠聚类造成的噪声干扰,提高模型的鲁棒性。
4  模态内规范化损失
在以往的基于文本的跨模态行人重识别研究中,研究者往往集中于跨模态的匹配度,而忽略模态内的数据分布的可分性。在有监督情况下,由于跨模态匹配同样受行人身份的监督,所以模型提取的特征仍具备行人身份的判别性。但是对于基于文本的跨模态无监督行人重识别来说,由于缺少准确的行人身份标注,直接进行跨模态匹配可能会带来噪声,因
此需要对模态的特征也进行监督。通过利用各模态下的类级记忆字典,可以在模态内部使用对比损失规范化模态内特征分布。在图像模态内,对于一个图像特征q v ,其模态内规范化损失为:
L
v
intra
=﹣log
exp (v d +⋅q v /τ)
∑i =1
n exp (v c i ⋅q v
/τ)            (13)
式中:q v 为一图像特征;v d
+
为与q v 为同一类别的图像模态类中心。
相应的,其对应文本特征的模态内规范化损失为:
L t
intra =﹣log exp (t c
+⋅q v /τ)∑i =1
n exp (t c i ⋅q v
/τ)            (14)通过这种模态内分类任务,同一模态下的特征的行人身份判别性也提高了。特征空间的类间距离将增大,类内距离将减小。使用文字进行跨模态检索时,由于图像模态的同一身份行人的特征分布变得紧凑,召回率将大幅提高。
总体的模态内规范化损失为:
L intra =L v intra +L t
intra
(15)综合跨模态类级对比损失、跨模态蒸馏损失,模型训练的总体损失为:
L =L cross +L distill +L intra                                        (16)
5  实验结果与分析
5.1  数据集与评价指标
在基于文本的跨模态行人重识别领域,CUHK-PEDES 数据集是唯一可以用来训练并验证模型性能的数据集。CUHK-PEDES 数据集由LI 等制作,收集了来自5个现存的行人重识别数据集Market1501、CUHK03、CUHK01、SSM 和VIPER 的130 003个行人的40 206张图像,每张图像都为其标注了2条文字描述。实验中,
抽取11 003个行人的34 054张图像作为训练集,将1 000个行人的3 078张图像作为测试集。基于蒸馏的
跨模态行人重识别算法将在此数据集上验证其性能和有效性。
基于文本的跨模态行人重识别重视文字到图像的跨模态检索能力,使用文字到图像的累计匹配特征指标评估模型的跨模态检索性能。
5.2 实验参数设置
本次实验采用在ImageNet上预训练过的ResNet-50作为图像特征提取器,将在Toronto Book Corpus和Wikipedia上预训练的BERT模型作为文本特征提取器的骨干模型。所有图片的大小都被归一化到高384像素、宽128像素,所有文本的长度也被归一化到64个单词。模型使用Adam优化器进行训练,参数设定为β
1
=
0.9,β
2
=0.999。学习率设为1e-4,在训练中每10个训练批次学习率衰减为之前的0.1倍,共训练30个轮次。训练批次大小设为64。使用DBSCAN进行聚类时,设定其距离阈值为0.6,一定距离内邻居节点个数为4。在聚类时,噪声样本并没有被抛弃,而是每个孤立点被划分为一个单独的聚类,通过这种方式可以保留数据集内的全部样本,充分发掘难样本。
5.3 在数据集上的实验结果
由于基于文本的无监督行人重识别方法较少,本文主要选取了基于文本的有监督行人重识别方法GNA-RNN[3]、CMCE[4]、PWM-ATH[5]、Dual Path[6]、CMPM+CMPC、MIA[7]、PMA[8]、ViTAA[9]、NAFS[10]、MGEL[11]和无监督
方法CMMT进行性能比较,其中NAFS方法与本文算法同样采用了ResNet50作为图像特征提取器和BERT作为文字特征提取器,实验结果的比较如表1所示。虽然本文算法没有使用真实的行人标签进行训练,但依然取得了比现有无监督方法更好的效果。与无监督方法CMMT相比,本文算法的Top-1指标提高了4.12%,Top-5指标提高了1.85%,Top-10指标提高了7.44%;与有监督方法MGEL相比,本文算法的Top-1指标提高了0.95%。
为了验证基于跨模态蒸馏的无监督行人重识别方法的性能上限,使用真实的行人标签对模型进行训练,结果如表2所示。使用真实标签的模型性能超过了目前大部分主流的基于文本的跨模态行人重识别方法。相比MGEL方法,本文算法Top-1指标提高了2.19%,Top-5指标提高了1.02%,Top-10指标提高了0.18%。与模型无监督性能相比,有监督性能Top-1指标仅下降了1.29%,说明本文算法充分挖掘了数据分布信息,并取得了较好的效果。
表1 本文算法在CUHK-PEDES数据集上的性能表现
单位:%方法
GNA-RNN
CMCE
PWM-ATH
Dual Path正则匹配多行
CMPM+CMPC
MIA
PMA
ViTAA
NAFS
MGEL
CMMT
本文算法
类别
有监督
有监督
有监督
有监督
有监督
有监督
有监督
有监督
有监督
有监督
无监督
无监督
Top-1
19.05
25.94
27.14
44.40
53.10
53.10
53.81
55.97
59.94
60.27
57.10
61.22
Top-5
49.45
66.26
75.00
75.00
73.54
75.84
79.86
80.01
78.14
79.99
Top-10
53.64
60.48
61.02
75.07
82.90
82.90
81.23
83.52
86.70
86.74
78.98
86.42
表2 基于跨模态蒸馏的无监督行人
重识别使用真实标签的性能
单位:%方法
MGEL
本文算法
mAP
54.85
Top-1
60.27
62.51
Top-5
80.01
81.03
Top-10
86.74
87.52
5.4 消融实验
在CUHK-PEDES数据集上对本文算法进行消融
实验,以验证本算法的各个模块的有效性。本文所提
出的重要模块有跨模态类别对比损失L
cross
、跨模态蒸馏
损失L
distill
和模态内规范化损失L
intra
。由于基于文本的跨模态行人重识别任务是文字到图像的检索任务,所
以跨模态类别对比损失L
cross
将始终存在,保证跨模态匹配得到有效监督。为了证明跨模态类别对比损失相对于跨模态投影匹配损失的优越性,本实验还对单独使用CMPM损失的无监督行人重识别性能进行测试。消融实验的结果如表3所示。
表3 在CUHK-PEDES数据集的消融实验结果
单位:%方法
CMPM
设置1
设置2
设置3
设置4
L
cross
L
distill
L
intra
mAP
29.18
49.56
51.02
51.13
51.68
Top-1
35.13
59.08
60.83
61.11
61.22
Top-5
58.51
79.07
80.21
80.11
79.99
Top-10
68.10
85.74
86.65
87.07
86.42
使用跨模态类别对比损失的实验设置1相对于使用跨模态投影匹配损失性能大幅领先,mAP指标大幅领先20.48%。实验设置2增加了跨模态蒸馏损失后
L
distill
,模型性能相比仅使用跨模态类别对比损失的实验
设置1其Top-1指标提高了1.75%,L
distil
提供的距离分布
对称的正则约束有效提高了模型的性能。实验设置3相比实验设置1增加了模态内规范化损失,mAP指标提高1.57%、Top-1指标提高2.03%。跨模态蒸馏损失和跨模态蒸馏损失共同作用后,相对实验设置1将mAP指标提高了2.12%、Top-1指标提高了2.14%。
6 结束语
针对基于文本跨模态的无监督行人重识别和跨模态映射匹配损失的缺陷,本算法提出以下结论:①跨模态类别对比损失以实现文字-图像的跨模态全局匹配;
②将文字到图像的分类概率与图像到文字的跨模态分类概率相互蒸馏的跨模态蒸馏损失,对跨模态距离分布的对称性进行约束;③模态内规范化损失,进一步优化模态内特征分布。本文算法在CUHK-PEDES数据集上取得Top-1指标61.22%、Top-5指标79.99%、Top-10指标86.42%的性能表现,消融实验验证了各个损失的有效性。
参考文献:
[1] ZHAO S Z,GAO    C X,SHAO Y J,et al.Weakly
supervised text-based person re-identification[C]//In 2021 IEEE/CVF international conference on computer vision,2021.
[2] ZHANG Y ,LU H    C. Deep cross-modal projection
learning for image-text matching[C]//Computer Vision–
ECCV 2018,2018.
[3] LI S,XIAO T,LI H S,et al.Person search with natural
language description[C]//In 2017 IEEE conference on computer vision and pattern recognition,2017.
[4] LI S,TONG X,LI H S,et al.Identity-aware textual-visual
matching with latent co-attention[C]//In 2017 IEEE international conference on computer vision,2017.[5] CHEN T L,XU C L,LUO J B.Improving text-based
person search by spatial matching and adaptive threshold[C]//In 2018 IEEE winter conference on applications of computer vision,2018.
[6] ZHENG Z D,ZHENG L,GARRETT M,et al.Dual-path
convolutional image-text embeddings with instance loss[J].
ACM transactions on multimedia computing,2020,16(2):51-74.
[7] N K,HUANG Y,OUYANG W L,et al.Improving
description-based person re-identification by multi-granularity image-text alignments[J].IEEE transactions on image processing,2020,29:5542-5556.
[8]  JING Y,SI    C Y,WANG J B,et al.Pose-guided
multi-granularity attention network for text-based person search[C]//In AAAI conference on artificial intelligence,2018.
[9]  WANG Z,FANG Z Y ,WANG J,et al. Vitaa: visual-textual        attributes alignment in person search by natural language[C]// Computer Vision-ECCV 2020,2020.
[10]  GAO C Y,CAI G Y,JIANG X Y,et al.Contextual non-local
alignment over full-scale representation for text-based person search[J].CoRR,2021,21:36-38.
[11]  WANG C J,LUO Z M,LIN Y J,et al.Text-based person
search via multi-granularity embedding learning[C]// International joint conferences on artificial intelligence organization,2021.
———————
作者简介:陈济远(1998—),男,硕士,研究方向为计算机视觉。
(编辑:严丽琴)

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。