第39卷 第6期              陕西科技大学学报          V o l.39N o.6 2021年12月          J o u r n a l o f S h a a n x iU n i v e r s i t y o f S c i e n c e&T e c h n o l o g y      D e c.2021
* 文章编号:2096-398X(2021)06-0167-07
基于S M P L-X模型的人体姿态与形状重构算法
李 健1,马蓉蓉1,韩超远1,齐 勇1,何 斌2
(1.陕西科技大学电子信息与人工智能学院,陕西西安 710021;2.同济大学电子与信息工程学院,上海
201804)
摘 要:人体姿态估计是计算机视觉领域的重要分支,是人机交互领域的关键问题.现有的三
维人体姿态估计算法识别结果大多以三维关节点㊁线的形式来体现,缺乏人体细节信息且表达
正则化可以产生稀疏权值
形式抽象.引入参数化人体模型(S M P L-X),研究基于形变模型的人体姿态估计与形状重构算
法,通过二维图像预测模型参数,实现标准人体模板与真实数据的非刚体配准.首先使用
HM R生成对抗网络从彩图像中提取模型姿态参数,再将模型重投影回二维,利用人体关键
点和轮廓的约束构造能量函数并对姿态和体型参数进行优化求解,从而重构出与图像中人物
具有相似姿态和形状的三维人体模型.在3D P W和E H F公开数据集及真实数据的实验结果
表明,相较基于S M P L模型的方法,重建出包含面部和手部细节的人体表示,姿态与体型估计
更贴合人体,提高了重建精确度.
关键词:姿态估计;S M P L-X模型;生成对抗网络;图像分割
中图分类号:T P391    文献标志码:A
H u m a n p o s e a n d s h a p e r e c o n s t r u c t i o n a l g o r i t h mb a s e d o n S M P L-X M o d e l
L I J i a n1,MA R o n g-r o n g1,H A N C h a o-y u a n1,Q IY o n g1,H EB i n2
(1.S c h o o l o fE l e c t r o n i c I n f o r m a t i o na n dA r t i f i c i a l I n t e l l i g e n c e,S h a a n x iU n i v e r s i t y o f S c i e n c e&T e c h n o l o g y,
X i'a n710021,C h i n a;2.C o l l e g eo fE l e c t r o n i c sa n dI n f o r m a t i o n E n g i n e e r i n g,T o n g j iU n i v e r s i t y,S h a n g h a i 201804,C h i n a)
A b s t r a c t:H u m a n p o s e e s t i m a t i o n i s a n i m p o r t a n t b r a n c h i n t h e f i e l d o f c o m p u t e r v i s i o n a n d a
k e y i s s u e i n t h e f i e l do fh u m a n-c o m p u t e r i n t e r a c t i o n.T h e r e c o g n i t i o nr e s u l t so f e x i s t i n g3D
h u m a nb o d yp o s e e s t i m a t i o na l g o r i t h m s a r em o s t l y e m b o d i e d i n t h e f o r mo f3D j o i n t p o i n t s
a n d l i n e s,l a c k i n g h u m a n
b o d y d e t a i l i n f o r m a t i o na n dt h ee x p r e s s i o nf o r mi sa b s t r a
c t.T h i s
p a p e r i n t r o d u c e st h e p a r a m e t r i ch u m a nb o d y m o d e l(S M P L-X)t os t u d y t h eh u m a nb o d y
p o s ee s t i m a t i o n a n d s h a p e r e c o n s t r u c t i o n a l g o r i t h m b a s e d o n t h e d e f o r m a t i o n m o d e l.
T h r o u g h t h e t w o-d i m e n s i o n a l i m a g e p r e d i c t i o n m o d e l p a r a m e t e r s,t h en o n-r i g i db o d y r e g i s-t r a t i o no f t h es t a n d a r dh u m a nb o d y t e m p l a t ea n dt h er e a l d a t a i sr e a l i z e d.F i r s t l y,t h e p o s e p a r a m e t e r s o f t h em o d e l a r e e x t r a c t e d f r o mt h e c o l o r i m a g e b y u s i n g HM R g e n e r a t e d a d v e r-s a t i o nn e t w o r k,a n d t h e n t h em o d e l i s p r o j e c t e db a c k t o t w o-d i m e n s i o n a l,t h e e n e r g y f u n c t i o n
*收稿日期:2021-06-11
基金项目:国家重点研发计划项目(2018Y F B1305300);国家自然科学基金项目(61825303,U1713215);陕西省科技厅工业科技攻关计划项目(2015G Y044);国家土建结构预制装配化工程技术研究中心开放基金项目(2019C P C C E-K02)作者简介:李 健(1975-),男,陕西渭南人,教授,博士,研究方向:图形图像处理㊁数据挖掘
陕西科技大学学报第39卷i s c o n s t r u c t e db y u s i n g t h e c o n s t r a i n t s o f t h e k e yp o i n t s a n d c o n t o u r o f t h e h u m a nb o d y,a n d
t h e p o s e a n d s h a p e p a r a m e t e r s a r e o p t i m i z e d a n d s o l v e d,s o a s t o r e c o n s t r u c t t h e t h r e e-d i m e n-s i o n a l h u m a nb o d y m o d e lw i t h s i m i l a r p o s e a n d s h a p e t o t h e f i g u r e i n t h e i m a g e.T h e e x p e r i-m e n t a l r e s u l t s o n3D P Wa n dE H F p u
b l i c d a t a s e t s a n d r e a l d a t a s h o wt h a t c o m p a r e dw i t h t h e m e t h o db a s e do n t h eS M P L m o d e l,t h eh u m a nb o d y r e p r e s e n t a t i o nc o n t a i n i n g t h ed e t a i l so f t h e f a c e a n d h a n d s i s r e c o n s t r u c t e d.T h e p o s e a n d b o d y s h a p e e s t i m a t i o n a r em o r e s u i t a b l e f o r t h eh u m a nb o d y,a n d t h e r e c o n s t r u c t i o na c c u r a c y i s i m p r o v e d.
K e y w o r d s:p o s e e s t i m a t i o n;S M P L-X m o d e l;g e n e r a t i v e a d v e r s a r i a l n e t w o r k;i m a g e s e g m e n-t a t i o n
0 引言
人体姿态估计从静态图像或视频序列中识别
不同人体部位的位置和方向,是人体动作分析与识
别的基础,目前广泛应用在人机交互㊁医学影像㊁数
字娱乐和视频监控等众多领域.参数化人体模型的姿态估计包含表示关节点旋转角度和人体外观体
态表现的参数信息,使得人体的三维姿态更加丰
富㊁准确.
目前,大部分研究基于S M P L(S k i n n e d M u l t i P e r s o nL i n e a rm o d e l)模型[1]展开,主要依赖于根据检测到人体二维关节点坐标调整3D人体模型到2D图像的映射关系.文献[2]从图像中提取局部特征,再通过优化求解模型参数来拟合这些图像特征.文献[3]提出了包含面部和手部细节的S M P L-X(S M P Le X p r e s s i v e)模型,并将上述算法扩展至此模型.此类基于优化的算法效果好,但速度慢,易于局部最优,且依赖于初始值.基于学习的方法从图像全局特征进行匹配分析,能有效避免基于优化方法在复杂姿态和遮挡关系情况下出现的特征误匹配问题.但由于S M P L-X是比S M P L维度高的模型且输入不变情况下手㊁脸部分图像分辨率低,将S M P L模型神经网络回归器扩展到S M P L-X,直接从R G B图像中回归参数来重建完整的3D人体,在细节上难以实现.
为了解决上述问题,本文融合现有基于回归和
优化的方法,设计了一种基于S M P L-X的人体姿态和形状估计的方法.首先利用HM R(H u m a n M e s hR e c o v e r y)网络[4],从像素直接回归模型参数,获取姿态更为精确的身体部分的表示作为初始值.然后利用二维人体关键点和人体轮廓的约束,构造能量函数对参数进行优化求解,拟合至S M P L-X模型,重建出包含面部㊁手部细节更精细的模型表示.避免了二维关节映射到三维姿态时的信息缺失问题,加快迭代优化的速度,提高了人体重建模型的准确度.
1 相关研究
1.1 参数化人体模型
对整个人体进行捕获建模是一个具有挑战性的问题,为了使其易于处理,研究人员分而治之的进行了身体㊁面部和手部重建研究.对于人脸, B l a n z和V e t t e r引入了第一个3D可变形模型[5].对于人手,K h a m i s等[6]从R G B-D图像中学习手形变化的模型,R o m e r o等[7]通过3D手部扫描数据学习具有丰富形状和姿势空间的参数化手模型MA N O(h a n d M o d e lw i t h A r t i c u l a t e da n d N o n-r i g i dd e f o r m a t i o n s).对于人体而言,引入C A E-S A R数据集后创建出了S C A P E[8]㊁S M P L等可求解形状和姿势的模型,然而这些模型具有中性的面容且不包含手部的细节.A d a m[9]和S M P L-X是最早代表身体㊁面部和手部的模型.A d a m缺少S M P L依赖于姿势的混合形状,且发行版本不含面部表达.S M P L-X模型将S M P L人体模型㊁F L AM E(F a c e s L e a r n e d w i t h a n A r t i c u l a t e d M o d e l a n dE x p r e s s i o n s)人头模型[10]和MA N O人手模型相结合,模块完全铰接,提供了一个包含脸部表情和手部动作的更加全面生动的人体模型,更能反应人体真实的3D结构.
1.2 人体姿态估计
人体姿势估计通常是对2D或3D关节点的估计[11-13],与解剖学关节相对应,仅仅使用关节点的相对位置关系表示人体姿态是不够的,容易忽略人体的外观体态表现.最新的研究使用参数化模型或非参数化模
型解决此问题.三维人体姿态估计方法可以划分为两大类别:(1)先通过二维图像来估计二维人体姿态,再由二维人体姿态预测三维人体姿态;(2)通过二维图像,以端到端的方式直接预测三维人体姿态.
㊃861㊃
第6期李 健等:基于S M P L-X模型的人体姿态与形状重构算法
第一类方法:将问题分解为多个阶段.第一阶段由二维人体关节检测器估计关节位置得到二维人体姿态估计,作为中间表示.第二阶段通过模型匹配[2,3]或者训练回归器[4,14,15]的方式估计二维人体姿态和三维人体姿态之间的映射关系.从低维空间向高维空间求解时会产生深度模糊等不适定问题,上述方法通过已知的肢体长度㊁统计人体模型㊁关节角度限制等各种先验规则进行正则化来解决.这类方法利用的是2D信息,因此很容易获得注释,但缺点是最终的回归器无法利用原始图像像素,造成信息缺失,并且中间任务造成的错误无法克服.
第二类方法:直接根据R G B像素预测3D姿势,避免了信息瓶颈和其他错误源,但学习姿势的映射关系更加困难.大多数方法推断3D人体关节,非参数模型的方法估计体素[16]㊁距离场[17]或3D网格深度图[18],参数化模型的方法估计模型参数[19-21].成对的室内图像和M o C a p数据集允许进行有监督的训练,但无法推广到野外数据.为了解决这个问题,R o g e z和S c h m i d[22]通过合成的3D 人类来扩充这些数据集,而K a n a z a w a等[4]在野外数据集上应用了重投影损失在其2D关节标注上,实现了弱监督.
2 算法设计
基于S M P L-X模型的人体姿态估计重建中最主要的问题是如何将标准人体模板与真实数据进行非刚体配准,本质就是为标准模板寻合适的体型㊁姿态以及面部参数,从而使这些参数所描述的人体模型与输入的真实数据实现最优匹配.本文设计了一种基于此模型的人体姿态与形状估计的方法,算法框架如图1所示,使用HM R生成对抗网络框架从彩图像中提取模型参数,再利用人体关键点和轮廓的约束构造能量函数并对参数进行优化求解.
图1 算法总框架图2.1 3D人体表示
本文使用S M P L-X生成模型表示人体,这是一种蒙皮的参数化线性人体形变模型,可捕获整个人体的形状变化㊁肢体关节和面部表情.基于顶点进行变换,可以通过参数的改变进行任意姿势的人体建模和动画驱动.体型参数β∈R10,面部参数φ∈R10来自相应P C A空间的10个参数,肢体的关节㊁手和脸由姿态矢量θ∈R J×D表示,其中D是旋转表示维度,使用D=3的轴角来描述J=53个主要关节(22个身体主要关节,1个颌骨关节及30个手关节)的相对旋转.S M P L-X既可表示为可微分函数M(β,θ,φ),又可表示为人体3D网格M=(V, F),V∈R(N×3)是模型网格的N=10475个顶点的位置,F为由顶点构成的三角形面.将模型体型参数β㊁姿态参数θ和面部参数φ作用于基础模板⎺T 进行动作变形.模型的网格顶点位置T p表示为公式(1),重构出的模型M表示为公式(2).
T p(β,θ,φ)=⎺T+B S(β,S)+B E(φ;ε)+
B P(θ;P)(1) M(β,θ,φ)=W(T p(β,θ,φ),J(β),θ,ω)(2)  W是一个混合蒙皮线性方程,ω是各个关节的混合权重,其包含:将β体型参数对应到骨骼关节的函数J(β),将θ姿态参数以及动作参数修正P 映射到模型对应点的变形函数B P(θ;P),将β体型参数及其修正数据S映射到模型对应点的变形函数B S(β,S),将φ面部参数及其修正参数ε映射到模型对应点的变形函数B E(φ;ε).
2.2 HM R算法
由于深度信息缺失,从二维图像直接推断人体三维姿态时容易出现误差.HM R算法是目前人体姿态估计领域应用较为成功的深度学习网络结构,可在一定程度上缓解由于人体自遮挡和二维图像深度信息的丢失导致姿态不确定的问题.因此对于身体部分的姿态估计,参考如图2所示HM R网络框架
.
图2 HMR网络框架
㊃961㊃
陕西科技大学学报第39卷
网络输入单张图片,首先经过R e s n e t-50编码层输出卷积特征,再送入3层全连接回归层,输出相机参数㊁S M P L模型体型参数β㊁动作参数θ.网络预测获取到模型M(β,θ)及模型的三维关节位置X(θ,β).
^x=s∏(R X(θ,β))+t(3)      L r e p r o j=‖(x-^x)‖22(4)  相机缩放参数s㊁旋转参数R㊁平移参数t与模型的三维关节位置X(θ,β)经公式(3)正交投影∏到图像上,预测二维关节位置为^x,再通过公式(4)计算误差并反向传播以调节网络的权值,使其能与数据集原图的二维关节位置x契合,L r e p r o j代表预测关节与原始关节的误差.同时,将迭代后预测的模型参数输入到鉴别层,利用训练学习各人体关节旋转角度限制,以此来判断模型姿态是否合理,预测结果如图3所示.
(a)原始R G B      (b)预测模型
图3 神经网络预测模型
2.3 二维特征获取
从二维图像到三维的人体模型直接求解具有挑战,将问题分解为两个阶段,首先从图像中获取二维关节信息和人体边缘轮廓,用于后续拟合模型的姿态和体型参数.
2.3.1 二维关节获取
本文采用3D参数模型以二维观测求解三维人体姿态及其映射关系,因此人体二维关节检测在三维人体姿态估计中起着重要作用.O P E N P O S E 算法[12]利用卷积神经网络实现的人体二维关节点检测.R G B图像作为输入,经过10层V G G-19进行特征提取,再将所得特征分为2个分支送入深层卷积网络.通过贪心推理预测身体各关节位置部分置信度图S和部分亲和字段得到一组二维矢量场L(p a r t a f f i n i t y f i e l d s),表示了身体各部分间的关联程度.使用C MU P a n o p t i c数据集训练的网络模型,输出如图4所示,包含(身体25㊁手部32㊁面部70个)关节点二维坐标及置信度
.
(a)原始R G B      (b)关节预测结果
图4 二维关节预测结果
2.3.2 轮廓边缘检测
边缘轮廓可以更加精确的定位人体位置.本文使用像素覆盖分割算法[23]对图像进行人体分割以获取轮廓,用于后续模型体型参数的求解.在R G B 颜空间,分别用一个K=5的高斯分量的全协方差混合高斯模型(GMM)来对目标和背景进行建模.
E(α,k,θ,z)如公式(5)所示,用于整个图像的G i b b s能量,由区域能量项U与边界能量项V构成.其中,区域能量项表示像素被归类为目标或者背景的惩罚.D为混合高斯密度模型,θ模型参数(高斯分量的权重π㊁均值向量u和协方差矩阵∑).根据像素R G B值,代入目标和背景GMM,得到该像素所属目标或背景的概率.边界能量项体现邻域像素m和n之间不连续的惩罚.根据两邻域像素差别来确定是否属于同一类别,衡量两像素的相似性采用颜之间的欧式距离‖z m-z n‖2,图像的对比度用β体现,放大缩小差别.分割结果如图5所示.
E(α,k,θ,z)=U(α,k,θ,z)+V(α,z)
U(α,k,θ,z)=∑n D(αn,k n,θ,z n)
V(α,z)=γ∑(m,n)∈C[αn≠αm]e x p-β‖z m-z n‖ì
î
í
ï
ïï
ï
ï2
(5
)
(a)原始R G B      (b)轮廓分割结果
图5 人体边缘轮廓分割结果
2.4 能量函数构造
利用上述2.2节获取的S M P L模型及其参数表示,将姿态参数进行S M P L到S M P L-X的转换
㊃071㊃
第6期李 健等:基于S M P L-X模型的人体姿态与形状重构算法
作为模型初始值,将模型的关节点和三维轮廓顶点重投影到二维平面上,再利用2.3节获取二维关节信息以及人体边缘轮廓作为约束,最小化匹配能量函数.调整模型的姿态参数使之与二维关节点对齐,从而得到与图像中人物姿态相似的三维姿态.调整模型的体型参数,使投影点尽可能靠近二维轮廓线,达到调整模型形状的目的.使用的能量函数如式(6)所示.
E(β,θ,φ)=E J+λθb Eθb+λθf Eθf+λm h E m h+λαEα+λβEβ+λεEε+λc E c+λs h E s h(θ)(6)  其中,β㊁θ㊁φ
为了约束2D到3D的固有歧义,用了不同的先验进行正则化,λθb㊁λθf㊁λm h㊁λα㊁λβ㊁λε㊁λc㊁λs h分别为对应能量项的权重参数,Eε㊁Eθf㊁E m h 表示面部表情㊁脸部动作㊁手部动作的L2正则项. Eβ表示体型先验,通过与训练数据集中的形状分布之间的马氏距离计算.Eθb参考文献[3]通过变分自编码器(V A E)训练一个全身姿态先验,来惩罚不合理的动作.
E c(θ)=∑(f s(θ),f t(θ))∈C{∑v s∈f s‖-Ψf t(v s)n s‖2+∑v t∈f t‖-Ψf s(v t)n t‖2}(7)  E c表示互穿惩罚项,惩罚身体部位相互穿透的先验.使用B V H(B o u n d i n g v o l u m eh i e r a r c h y)检测碰撞三角形C列表,并计算由三角形C及其法线n定义的局部圆锥3D距离场,根据距离场中位置计算入侵深度并对渗透率进行惩罚.f s和f t 是相互入侵的三角形,f t的顶点v t是f s的距离场Ψf
s
中的入侵项,表示受到Ψf s(v t)的入侵惩罚,反之亦然.
Eα(θb)=∑i∈(e l b o w s,k n e e s)e x p(θi)(8)  Eα表示膝盖和肘部弯曲的先验,θ表示弯曲方向,为负方向时表示合理,为正时表示不合理,能量值变大,给予惩罚.
E J(β,θ,K,J e s t)=∑j o i n t,iγiωiρ(∏K(Rθ(J(β))i)-J e x t,i)(9)  E J表示基于关节点的距离约束项,使用重投影损失来最小化估计的2D关节点J e x t,i和S M P L-X每个3D关键点Rθ(J(β))的2D投影的加权鲁棒距离,
J(β)从模型表面顶点获取每个关键点坐标, Rθ(J(β))根据动作参数θ给每个关节点做旋转,从而得到符合当前动作的每个关键点的坐标,其中Rθ是沿着运动学变换关节的函数,表示与姿态参数有关的全局刚性变换函数,使用的是罗德里格斯公式(R o d r i g u e z f o r m u l a)将每两个关节轴角转换为局部旋转矩阵.J e x t,i和ωi为O p e n P o s e方法得到的第i个关节点的坐标及其置信度,并使用杰曼麦克卢尔函数(G e m a n-M c C l u r e)ρ处理噪声.其中∏表示具有固有摄像机参数K的3D到2D的正交投影,求解其与二维关节点坐标之间的加权欧氏距离,使其最小化.计算关节重投影损失采用A d a m 优化器,处理局部最优解使用退火方案,表现在γ上.
E s h(θ)=G(λ0R r(θ)C)+λ1(1-R r(θ)⎺C)(10)  E s h表示人体图像轮廓约束项,其中,λ0㊁λ1为权重,C和⎺C为人体轮廓割图的距离变换及其逆变换.通过使用4个不同尺度的高斯金字塔G对模型投影到人体轮廓分割图中的图像R r(θ)逐次进行四分之一下采样后,进行多分辨率处理,使得算法在求解过程中在4个不同级别分辨率下进行优化以求得局部最优解,可以同时考虑到高分辨率下人体的姿势细节以及低分辨率下的人体姿态结构.本文在二维轮廓线与三维模型边缘顶点匹配的过程中,为三维模型边缘顶点投影到二维上的位置建立K D树,在二维空间上只有离模型边缘顶点最近的轮廓点才会与之匹配,而其余的轮廓点将会被舍弃,因此也能得到合理准确的形状.
3 实验结果与分析
3.1 数据集和评价指标
在数据集E H F和3D P W上测试所提出的基于S M P L-X模型的姿态与体型重构算法性能.
E H F由100帧R G B图像㊁3D扫描及对齐的S M P L-X网格组成,受试者执行各种身体姿势㊁手势和面部表情,用于来评估全身预测.3D P W包括在室外R G B视频序列带有S M P L三维姿态注释,包含在室内和室外环境中执行各种运动的几个受试者,通过单一的R G B相机和I MU安装在受试者上捕获的,用于评估仅身体部分的重构.
为了进一步定量评估算法的精度,与真实的3D骨架进行比较,使用平均每关节位置误差(M e a nP e r J o i n tP o s i t i o nE r r o r,M P J P E)和进行刚性变换(旋转㊁平移和缩放)对齐后的关节点误差平均值(P r o c r u s t e sA n a l y s i s-M e a nP e r J o i n tP o s i-t i o nE r r o r,P A-M P J P E)作为评价指标,即在预测网格和地面真值上应用线性关节回归器计算14个L S P公共关节间平均欧氏距离.为了与地面真相网格进行比较,使用了网格顶点到顶点(V2V)误差,即地面真值与预测的网格顶点之间的平均距离.预测网格和地面真值网格具有相同的拓扑时,为了与文献[2,4,19]等预测S M P L而不是S M P L-X的方法进行公平的比较,只在身体部分计算V2V.
3.2 定向评估
为验证文中提出的基于形变模型的人体姿态
㊃171㊃

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。