2021年第40卷第2期传感器与微系统(Transducer  and  Microsystem  Technologies)23
DOI : 10.13873/J. 1000-9787(2021)02-0023-03
基于深度学习的3D 时空特征融合步态识别
赵黎明,张荣,张超越
(宁波大学信息科学与工程学院,浙江宁波315211)
摘 要:现有基于轮廓图的步态识别方法易受服装等外部条件干扰,而基于3D 模型的识别方法虽然一 定程度上抵抗了外部干扰,但对摄像设备有额外的要求,且模型计算复杂。针对上述问题,利用3D 姿态 估讣技术,建立了行人运动的"轻"模型,利用神经网络框架,提取行人3D 空间运动的时空信息,并且与伦 廓图的信息相融合,进一步丰富了步态特征。在CASIA-B 的数据集上的实验结果表明:融合了 3D 时空运 动信息增强了步态特征的鲁棒性,进一步提升了识别率。
关键词:深度学习;步态识别;3D 姿态;吋空特征融合
中图分类号:TP391 文献标识码:A  文章编号:1000-9787(2021)02-0023-03Fusion  of  3D  spatiotemporal  features  for  gait  recognition
based  on  deep  learning  *
*收稿日期:2020-11-20
*基金项目:浙江省公益性技术研究项目(LGF18F020007,LGF21 F020008);宁波市自然科学基金资助项目(2018A610057,2018A610163)
ZHAO  Liming, ZHANG  Rung, ZHANG  Chaoyue
(College  of  Information  Science  and  Engineering ,Ningbo  University ,Ningbo  315211,China)Abstract : The  existing  gait  recognition  methods  based  on  silhouettes  are  easy  to  be  interfered  by  clothing  and  other  external  conditions ・ Although  the  3D  model-based  recognition  method  resists  external  interference  to  a  certain  extent , it  has  additional  requirements  of  camera  equipment  and  complicated  model  calculations. In  order  to  solve  the  above  problems," light" model  for  pedestrian  motion  is  established  by  using  3D  pose  estimation  technology ・ The  spatiotemporal  information  of  pedestrian  3D  spatial  motion  is  extracted  by  using  neural  network  framework ,and  the  information  is  fused  with  the  information  of  skeleton  map  to  further  enrich  the  gait  features. The  results  on  CASIA-B  dataset  show  that  the  fusion  of  3D  spatiotemporal  motion  information  enhances  the  robustness  of  gait  features  and  further  i
mproves  recog n ition  rate.
Keywords : deep  learning ; gait  recognition ; 3D  pose ; spatiotemporal  feature  fusion 0引言步态识别是利用步态信息对人的身份进行识别⑴。 与指纹识别、虹膜识别、人脸识别等技术相比,步态识别具 有获取容易、距离远、非接触、不易伪装、无创等优点。它是 生物特征识别、计算机视觉和信息安全等领域的研究热点。步态识别的研究方法主要分为两类,一类是基于非模 型的方法,另一类是基于模型的方法。基于非模型的方法 主要有两种,第一种是将步态轮廓序列合成或压缩成图 像%"。如步态能量图像(GEI)⑵是基于步态周期中步态 轮廓的平均图像信息建立的步态特征,这种方法相对来说 简单,但很容易丢失时间和细粒度的空间信息。第二种直 接从原始步态轮廓序列中提取特征⑷,但容易受到视角、 行人服装变化等外部因素的影响。基于模型的方法通常将 人体模型与输入图像相匹配,然后提取运动信息作为特征。 目前大部分的基于模型的方法利用三维模型来模拟行人的
运动[5'6]o 基于三维模型的方法能在一定程度上抵抗视 角、携带、服装变化等外部因素的影响。但由于三维建模计 算复杂,一般只适用于完全可控的多摄像机协作环境,而在 现实环境当中大多只有普通RGB 摄像机的场景,限制了这
些方法在实际中的应用。为了解决上述问题,本文利用三维姿态估计技术,建 立了行人3D 姿态“轻”模型。即不需要额外的深度相机 设备配合,通过普通RGB 摄像机就能获取所需的三维模 型,且三维模型
相对简单,计算复杂度降低,这增加了实 际应用的可能性。本文将基于3D 模型与非模型的方法 融合,在CASIA-B 数据集上的结果表明,融合了 3D 空间 的行人运动特征提高了步态特征的鲁棒性,进一步提高了 步态识别率。
24传感器与微系统第40卷
13D时空特征的步态识别网络结构
1.1网络整体架构
提取行人3D运动信息的网络主要由卷积神经网络
(convolutional neural network,CNN)和长短期记忆网络(long
shorl-term memory,ISTM)网络组成,用三元组损失Triplet
loss训练网络。提取3D运动信息网络结构如图1所示。
/卷积层;*;LSTM层”「3D忘列
乙寸空特征
J L--------」
图1提取3D时空运动信息网络结构
1.2三维姿态预处理
本文采用了文献[7]提出的3D姿态估计网络,该网络使用卷积姿态机(convolutional pose machines,CPM)f8'获得二维热图,并基于此估计人的三维姿态。它以368X368图像为输入,输出尺寸为n x3X17的三维人体姿态估计,其中n为图像中的人数,3为每个关节点的三维坐标x,y,z,17为关节点的个数。
由于行人在行走时空间位置一直在变化,甚至会在方向上发生变化。因此,同一行人或不同行人在同一视频序列中不同时间的整体位置会发生较大变化。为了忽略方向及位置变化带来的影响,只关心行人运动的步态信息,本文选取姿态的盆骨位置为中心点,将每个样本序列中的所有骨架归一化到同一位置。假设参考点坐标为Samp:=(%, y,z),每个样本的关节坐标为Samp:,其中i为样本序列号,k为关节点序列号,预处理后的新坐标为NSamp:
NSamp:=Samp l'i—Samp}
通过减去平均值并除以标准差对NSamp:进行标准化。
然后基于树结构的遍历方法⑼对每个时间帧的三维姿态进行建模,以保持关节的空间相邻关系。需要注意的是,3D姿态估计生成17个关节点。根据树的遍历规则,本文删除了下颌点并将头部连接到颈部,遍历规则如如图2所示,其中8是脊椎,是遍历的起点。对关节点的遍历规则,依次为8-9-10-9-11-12-13-12-11-9-14-15-16-15-14-9-8-1-2-3-4-3-2-1-5-6-7-6-5-1-8。
图2生成的关节点
因为人体的运动往往需要相邻关节点的协同运动,因此相邻关节点之间有着密切的运动联系,根据这个遍历规则,关节点的坐标依次形成一个循环,相邻关节点在序列中处于相近的位置,可以方便提取相邻关节点的空间运动信息。
1.3CNN-LSTM网络结构
这里使用CNN和LSTM来提取行人运动的时空特征。为了提取这些相邻关节点之间的关系,利用神经网络对处理后的3D骨架序列进行一维卷积。其中卷积核的大小可以灵活设置。本文借鉴了文献[10]的网络结构,只使用文献[11]中的编码部分。同时,对网络做了一些改变。网络结构如图3所示。在经过遍历规则后,3D骨架序列的输入大小为Tx31x3,其中T为序列的帧数,31为遍历依次经过的关节点个数,3代表关节点的三维坐标
3D骨架序列空间+时问特征提取
图3CNN-LSTM网络结构
首先通过两层一维卷积模块提取运动序列的空间结构特征,然后使用LSTM提取特征的时间关系,通过卷积网络和LSTM来共同提取更深层次的时空序列特征。
具体来说,空间特征提取包括两个卷积模块,每个卷积模块包括卷积、池化和通道正则化操作。此外,受文献[12]的启发,考虑了注意力机制对网络性能的改善,从而在卷积层后添加压缩激励(squeeze-and-excitalion networks,SE)模块[⑵有选择地增强卷积特征。在图3中,给出了模块的详细结构。
为了得到步态的时间特征,使用LSTM网络对步态的空间特征进行进一步的处理。最后一帧LSTM网络输出作为最终的时空序列特征。
1.4融合训练与测试
考虑到大多数步态识别数据集缺乏真实的三维标签,如果将3D时空特征直接用于步态识别并给出识别结果,结果缺乏可信度。因此,本文没有直接使用3D时空特征进行识别,而是利用神经网络融合训练3D时空特征网络(CNN-LSTM)结构与基于轮廓图的网络结构,最终只使用2D轮廓图进行识别。这里需要注意的是,此时的2D轮廓特征是通过两个特征互补训练获得的新的2D轮廓特征。如果使用这种融合了新的2D轮廓特征的最终识别率有所提高,则证明了所提出的3D时空特征的有效性。
因此,本文没有对现有提取的二维轮廓网络结构进行更改,而是比较融合3D时空特征训练的网络提取得到的新2D轮廓特征识别率有所提高,从而证明3D时空特征确实起到了积极的作用,能够进一步增强步态特征的鲁棒性。
训练时采用CNN-LSTM网络结构和现有的网络结构提取步态轮廓进行联合训练,融合2D轮廓特征和3D时空序列特征人d得到融合特征人公式为
f=concal(f3D,f2D
)
第2期赵黎明,等:基于深度学习的3D时空特征融合步态识别25
其中,comm是在高度维度上拼接两个特征。最后采用三元组损失Triplet loss训练网络。如图4所示。表1CASIA-B在三种不同实验设置下的Rank-1识别率
(不包括相同视角)
A1\OINd^TMi F3D~¥^j1
\、k腕-「也磔罠二3__
隔ES拓
l^W.J:_輕丄匚•测试
图4整体网络结构
在测试时,如图4中黑实线框所示,不需要额外的3D骨架信息,只使用从网络中提取的2D轮廓特征,这也大大减少了实际应用时的复杂性和计算量。
2实验
2.1数据集
CASIA-B数据集〔⑶是目前常用的步态数据集。它包含124名受试者(编号001-124),3种步行条件和11个视角(0。,18。,…,180。)。行走条件包括正常(NM)(每个受试者6个序列)、背包行走(BG)(每个受试者2个序列)和穿着外套或夹克(CL)(每个受试者2个序列)。本文使用目前文献中常用的3种实验设置,即小样本训练(ST)、中等样本训练(MT)、大样本训练(LT)。在ST中,前24个行人被用于训练,其余用于测试。在MT中,前62个行人用于训练。在LT中,前74个行人用于训练。在所
有三个设置的测试集中,前4个NM条件序列(NM#1~4)被放置在图库(gaUery)中,最后两个NM条件序列(NM«~6)以及BG#1~ 2条件和CL#1~2条件序列被用作查询(probe)o
2.2训练细节
神经网络在训练过程中有两个输入,即2D轮廓序列和3D骨架序列。对于2D轮廓序列特征的提取,本文选择了文献[6]中的网络结构。对于3D吋空特征的提取,输入是从原始视频图像中提取的与2D轮廓相对应的骨架顺序序列。本文所有的实验基于Pytorch框架。实验环境是Ubun-tul&04,NVIDIA GeForce2080Ti o采用随机优化方法Adam 对网络进行训练。训练的初始学习率设定为0.0001o3D 骨架序列的7'为30。对于ST,MT和LT,分别训练了50k 次迭代JOO k次迭代和110k次迭代。
2.3主要结果
表1给出了不同训练设置下的Rank-1识别率。对于不同条件的probe,给定probe的角度,表中给出了所有允许的gallery视角(不包括相同视角)的Rank-1平均识别率,最后一列给出了probe所有角度的平均识别率。可以看到,融合3D骨架序列训练网络得到的2D轮廓特征进一步提高了步态识别率。特别地,在MT的训练设置下,在probe为BG«~2和CL#1~2条件,融合了3D时空特征下平均识别率较之前分别提高了2.7%和3.7%,在其他训练设置下的识别率也均有提高,这也证明了3D时空特征的有效性。
GaHcryNM#l~40°-180°
平均值
0°18°36°54°72°90°108°126°144°162°180°Probe
NM#GaitSet[6]64.683.390.486.580.275.580.386.087.181.459.679.5
5-6ours71.386.192.590.183.080.482.789.291.684.968.283.6 ST BG#GailSel[6]55.870.276.975.569.763.468.075.876.270.752.568.6 (24)1-2ours62.474.579.878.573.167.372.079.779.474.358.672.7
CL#GaitSel[6]29.443.149.548.742.340.344.947.443.035.725.640.9
1-2ours33.546.251.147.443.340.643.647.143.838.431.242.4
NM#GaitSet[6]86.895.298.094.591.589.191.195.097.493.780.292.0
5-6ours86.996.498.196.791.289.793.696.998.594.581.993.1 MT BG#GaitSet[6]79.989.891.286.781.676.781.08&290.388.573.084.3 (62)1-2ours78.590.493.391.986.180.086.991.793.190.774.887.0
CL#GaitSet6]52.066.072.869.363.161.263.566.567.560.045.962.5
1-2ours56.269.476.970.663.862.367.470.871.664.254.466.2
NM#GaitSetf6]90.897.999.496.993.691.795.097.898.996.885.895.0
5-6ours91.698.799.398.094.793.896.698.898.397.686.695.8 LT BG#GaitSet]6]83.891.291.88&883.381.084.190.092.294.479.087.2 (74)1-2ours86.192.995.493.690.184.889.193.795.592.183.090.6
CL#GailSel[6]61.475.480.777.372.170.171.573.573.568.450.070.4
1-2ours60.777.679.375.970.369.373.775.977.169.853.571.2
本文认为原因如下,3D骨架序列中包含了三维空间上的运动信息,这与2D轮廓图的特征不同,是从三维空间上描述的步态运动,其次,空间上的步态变化与轮廓图体现的步态变化本质上都是在描述行人的运动规律,因此3D时空运动信息与二维轮廓信息融合进一步丰富了步态特征,在一定程度上增加了原有步态特征的鲁棒性,从而提高了步态识别率。此外在融合训练时,融入3D时空特征提高了网络的学习能力,在测试时不需要去获取行人的3D模型,这也大大减低了实际应用的复杂度和计算量。
3结束语
为了挖掘步态的空间运动信息,本文引入了3D姿态模型提取时空信息,降低了3D模型获取的复杂度,提高了3D 模型在实际坏境中应用的可能性。本文利用卷积神经网络融合行人3D时空特征与轮廓图特征一起训练,进一步增强了步态特征的鉴别力。在CASIA-B的数据集上的结果表明,融合了3D时空运动信息增强了步态特征的鲁棒性,进一步提升了步态识别的识别率。
参考文献:
[1]FAN C,PENG Y,CAO C,et al.GaitPart:Temporal part-based
model for gait recognition[C]〃proceedings of the IEEE/CVF
Conference on Computer Vision and Pattern Recognition,2020:
14225-14233.
[2]HAN J,BHANU    B.Individual recognition using gait energy
image[J].IEEE Transactions on Pattern Analysis and Machine
Intelligence,2005,28(2):316—322.
[3]HE Y,ZHANG J,SHAN H,et al.Multi-task GANs for view­
specific feature learning in gait recognition[J]・IEEE Transac­
tions on Information Forensics and Security,2019,14(1):102—113.
[4]ZHANG Y,HUANG Y,WANG L,et al.A comprehensive study
on gait biometrics using a joint CNN-based method[J」.Pattern
Recognition,2019,93:228—236.
(下转第29页
第2期谢思雅,等:基于BiLSTM-ATT的微博用户情感分类研究29
量维度达到150时,AVP,AVR,AVFj值最大,总休性能指标较好。
4结束语
本文针对微博用户提岀了一种新的文本情感分类方法,经过预处理后,使用Word2Vec词向量结合深度学习的方法,对微博用户的情感倾向进行分类,词向量维度达到150时,效果最好。本文还在NI.PCC2013语料集的基础上,构建了一个新的带有微博用户情感信息的数据集。实验结果表明,本文提出的模型在NLPCC2013语料集上实现效果更好。
参考文献:
[1]李永帅,王黎明,柴玉梅,等.基于双向LSTM的动态情感词典
构建方法研究[J].小型微型计算机系统,2019,40⑶:503-509.
[2]阳庆玲,郑志伟,邱佳玲,等•基于表情符号的文本情感分析
研究[J].现代预防医学,2019,46(9):1537-1540.
[3]张英•基于深度神经网络的微博短文本情感分析研究[D].郑
州:中原工学院,2017.
[4]李鸣,吴波,宋阳,等•细粒度情感分析的酒店评论研究[J]•
传感器与微系统,2016,35(12):41-43,47.
[5]袁磊•基于改进CH1特征选择的情感文本分类研究[J].传感
器与微系统,2017,36(5):47-51.
[6]SUNDERMEYER M,SCHLUTER R,NEY H.LSTM neural net-
works for language modeling[C]//Interspeech,2012:194—197.
[7]ZOU H,TANG X ,XIE B ,et al.Sentiment classification using
machine learning techniques with syntax features[C]〃Interna­tional Conference on Computational Science and Computational
Intelligence,IEEE Computer Society,2015:175—179.
(上接第25页)
[5]ARIYANTO G,NIXON M S.Model-based3D gait biometrics[C]〃
2011International Joint Conference on Biometrics(IJCB),
IEEE,2011:1-7.
[6]BODOR R,DRENNER A,FEIIR D,et al.View-independent human
motion classification using image-based reconstniction[J].Image
and Vision Computing,2009,27(8):1194-1206.
[7]TOME D,RUSSELL C,AGAPITO L.Lifting from the deep:
Convolutional3d pose estimation from a single image[C~\//
Proceedings of the IEEE Conference on Computer Vision and
Pattern Recognition,2017:2500—2509.
[8]WEI S E,RAMAKRISHNA V,KANADE T,et al.Convolutional
特征正则化的作用pose machines[C]〃Proceedings of lhe IEEE Conference on
Computer Vision and Pattern Recognition,2016:4724—4732. [9]LIU J,SHAHROUDY A,XU D,et al.Spatio-temporal1STM with
trust gates for3D human action recognition[C]European
Conference on Computer Vision‘Springer,Cham,2016:816—833. [10]WENG J,LIU M,JIANG X,et al.Deformable pose traversal [8]TANG D,QIN B,LIU T.Document modeling with gated recurrent
neural network for sentiment classification[C~]//EMNLP,2015:
1422-1432.
[9]金宸,李维华,姬晨,等•基于双向LSTM神经网络模型的中文
分词[J]・中文信息学报,2018,32(2):29-37.
[10]BAHDANAU D,CHO K H,BENGIO Y B.Neural machine trans­
lation by jointly learning to align and translate[C]〃Pn)c of Inter­
national Conference on Learning Representations,2015:940—
1000.
[11]LIANG B,LIU Q,XU J,et al.Aspect-based sentiment analysis
based on multi-attention CNN[J].Journal of Computer Research
&Development,2017,54(8):1724-1735.
[12]黄贤英,刘广峰,刘小洋,等.基于Word2Vec和双向LSTM的
情感分类深度模型[J]•计算机应用研究,2019,36(12):3583一
3587,3596.
[13]胡西祥.基于深度学习的微博评论情感倾向性分析[D].哈尔
滨:哈尔滨工业大学,2017.
[14]周瑛,刘越,蔡俊•基于注意力机制的微博情感分析[J]•情报
理论与实践,2018,41(3):89-94.
[15]宋呈祥,陈秀宏,牛强•文本分类中基于CHI改进的特征选择
方法[J]•传感器与微系统,2019,38(2):37-40.
[16]谭咏梅,刘姝雯,吕学强.基于CNN与双向LSTM的中文文本
蕴含识别方法[J]・中文信息学报,2018,32(7):11-19.
作者简介:
谢思雅(1995-),女,硕士研究生,研究方向为深度学习和图像处理,E-mail:1275463664@qq0
施一萍(1964-),女,通讯作者,副教授,硕士研究生导师,主要研究领域为深度学习和智能控制等,E-mail:syp@sues.edu o
convolution for3D action and gesture recognition Procee・
dings of the European Conference on Computer Vision(ECCV),
2018:136-152.
[11]LEA C,FLYNN M D,VIDAL R,et al.Temporal convolutional
networks for action segmentation and detection[C]//Proceedings
of the IEEE Conference on Computer Vision and Pattern Recogni­
tion,2017:156-165.
[12]HU J,SHEN L,SUN G.Squeeze-and-excitation networks[C]〃
Proceedings of the IEEE Conference on Computer Vision and
Pattern Recognition,2018:7132—7141.
[13]YU S,TAN D,TAN T.A framework for evaluating the effect of
view angle,clothing and carrying condition on gait recogni・
tion[C]//18th International Conference on Pattern Recognition,
ICPR'06,IEEE,2006:441一444.
作者简介:
赵黎明(1995-),男,硕士研究生,研究方向为计算机视觉与模式识别,E-mail:1447939055@qq。
张荣(1974-),女,通讯作者,博士,副教授,主要研究领域为计算机视觉擞字取证与信息安全,E-mail:zhangrong@nbu.edu o

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。