深度图像中的3D手势姿态估计方法综述--688IT编程网

小型微型计算机系统Journal of Chinese C o m p u t e r Systems 2021年6月第6期 V o l.42 N o.6 2021

深度图像中的3D手势姿态估计方法综述

王丽萍、汪成\邱飞岳u，章国道1

U浙江工业大学计算机科学与技术学院，杭州310023)

2(浙江工业大学教育科学与技术学院，杭州310023)

E-mail ：690589058@ qq. c o m

摘要：3D手势姿态估计是计算机视觉领域一个重要的研究方向，在虚拟现实、增强现实、人机交互、手语理解等领域中具有重要的研究意义和广泛的应用前景_深度学习技术已经广泛应用于3D手势姿态估计任务并取得了重要研究成果，其中深度图像具有的深度信息可以很好地表示手势纹理特征，深度图像已成为手势姿态估计任务重要数据源.本文首先全面阐述了手势姿态估计发展历程、常用数据集、数据集标记方式和评价指标；接着根据深度图像的不同展现形式，将基于深度图像的数据驱动手势姿态估计方法分为基于简单2D深度图像、基于3D体素数据和基于3D点云数据，并对每类方法的代表性算法进行了概括与总结；最后对手势姿态估计未来发展进行了展望.

关键词：3D手势姿态估计；深度学习；深度图像；虚拟现实；人机交互

中图分类号：T P391 文献标识码:A文章编号：1000-1220(2021)06-1227■(»

Survey of 3D Hand Pose Estimation Methods Using Depth Map

W A N G Li-ping' ,W A N G C h e n g1 ,Q I U Fei-yue1'2,Z H A N G G u o-d a o1

1 (College of Computer Science and Technology .Zhejiang University of Technology .Hangzhou 310023 ’China)

2(College of Education Science and Technology.Zhejiang University of Technology,Hangzhou 310023,China)

Abstract：3D han d pose estimation is an important research direction in the field of computer vision .which has essencial research significance and wide application prospects in the fields of virtual reality,a u g m ented reality,h u m a n-c o m p u t e r interaction and sign language understanding. D e e p learning has been widely used in 3D h and pose estimation tasks and has achieved considerable results. A-m o n g t h e m,the depth information contained in the depth image can well represent the texture characteristics of the h and poses,and the depth image has b e c o m e an important data source for han d pose estimation tasks. Firstly,development history,b e n c h m a r k data sets, marking

methods and evaluation metrics of hand pose estimation were introduced. After that,according to the different presentation forms of depth maps,the data-driven hand pose estimation methods based on depth images are divided into simple 2D depth m a p based m e t h o d s,3D voxel data based methods and 3D point cloud data based m e t h ods,and w e further analyzed and su m m a r i z e d the representative algorithms of them. A t the en d of this paper,we discussed the development trend of hand pose estimation in the future.

K e y w o r d s：3D hand pose estimation；deep learning；depth m a p；virtual reality；human-c o m p u t e r interaction

i引言

手势姿态估计是指从输人的图像或者视频中精确定位手部关节点位置，并根据关节点之间的位置关系去推断出相应的手势姿态.近年来，随着深度学习技术的发展，卷积神经网络（Convolution Neural N e t w o r k s,C N N)'1-推动了计算机视觉领域的快速发展，作为计算机视觉领域的一个重要分支，手势姿态估计技术引起了研究者广泛关注.

随着深度学习技术的快速发展和图像采集硬件设备的提升，基于传统机器学习的手势姿态估计模型逐渐被基于深度学习的估计模型所取代，国内外众多研究机构相继开展了针对该领域的学习研究，有效推

动了手势姿态估计技术的发展. 手势姿态估计大赛“H a n d s 2017”[2]和“Ha n ds2019”[3]吸引了国内外众多研究者们参与，综合分析该项赛事参与者提出的解决方案，虽然不同的方法在计算性能和手势姿态估计精度上各有差异，但所有参赛者都是使用深度学习技术来解决手势姿态估计问题，基于深度学习的手势姿态估计已经成为该领域主流发展趋势.

除此之外，潜在的市场需求也是促进手势姿态技术快速发展的原因之一.手势姿态估计可广泛应用于虚拟现实和增强现实中，手势作为虚拟现实技术中最重要的交互方式之一, 可以为用户带来更好的沉浸式体验；手势姿态估计还可以应用于手势识别、机器人抓取、智能手机手势交互、智能穿戴等场景.由此可见，手势姿态估计技术将给人类的生活方式带来极大的改变，手势姿态估计技术已成为计算机视觉领域中重点研究课题，对手势姿态估计的进一步研究具有非常重要的

收稿日期:2020-丨1-27收修改稿日期:2021~01-14基金项目：浙江省重点研发计划基金项目（2018C01080)资助.作者简介：王丽萍，女，1964年生，博士，教授，博士生导师,C C F会员，研究方向为计算智能、决策优化，计算机视觉等；汪成，男，1996年生，硕士研究生，研究方向为计算机视觉、人机交互、虚拟现实；邱飞岳，男，1%5年生，博士，教授，博士生导师，C C F会员，研究方向为智能教育、智能计算、虚拟现实；章国道，男.1988年生，博士研究生，C C F会员，研究方向为计算机视觉、人机交互、过程挖掘.

1228小型微型计算机系统2021 年

意义.

手势姿态估计技术发展至今已取得大量研究成果，有关手势姿态估计的研究文献也相继由国内外研究者提出.Erol 等人[41第一次对手势姿态估计做了详细的综述，对2007年之前的手势姿态估计方法进行了分析比较，涉及到手势的建模、面临的问题挑战、各方法的优缺点，并且对未来的研究方向进行了展望，但该文献所比较的33种方法都是使用传统机器学习方法实现手势姿态估计，其中只有4种方法使用了深度图像来作为数据源，且没有讲述数据集、评价标准、深度图像、深度学习等现如今手势姿态估计主流研究话题；S u p a n c i c等人[5]以相同的评价指标对13种手势姿态估计方法进行了详细的对比，强调了数据集的重要性并创建了一个新的数据集；

E m a d161对2016年前基于深度图像的手势姿态估计方法做了综述，该文献也指出具有标记的数据集对基于深度学习的手势姿态估计的重要性；从2016年-2020年，手势姿态估计技术日新月异，基于深度学习的手势姿态估计方法相继被提出，Li 等人[7]对手势姿态估计图像采集设备、方法模型、数据集的创建与标记以及评价指标进行综述，重点指出了不同的图像采集设备之间的差异对手势姿态估计结果的影响.除了以上 4篇文献，文献[8-12]也对手势姿态估计的某一方面进行了总结概要，如文献[8]重点讲述了手势姿态估计数据集创建及标记方法，作者提出半自动标记方法，并创建出了新的手势姿态估计数据集；文献[9]提出了 3项手势姿态估计挑战任务；文献[10]对2017年之前的数据集进行了评估对比，指出了以往数据集的不足之处，创建了数据量大、标记精度髙、手势更为丰富的数据集“Bighand 2. 2M”；文

献[11 ]对2017手势姿态估计大赛排名前11的方法进行的综述比较，指出了 2017年前髙水准的手势姿态估计技术研究现状，并对未来手势姿态估计的发展做出了展望.

以上所提到的文献是迄今为止手势姿态估计领域较为全面的研究综述，但这些文献存在一些共同的不足：1)没有讲述手势姿态估计发展历程;2)对手势姿态估计方法分类不详细;3)对手势姿态估计种类说明不够明确;4)没有涉及最新提出的新方法，如基于点云数据和体素数据方法.针对以上存在的问题，本文在查阅了大量手势姿态估计相关文献基础上，对手势姿态估计方法与研究现状进行了分类、梳理和总结后得出此文，旨在提供一份更为全面、详细的手势姿态估计研究综述.

本文结构如下：

本文第2节介绍相关工作，包括手势姿态估计发展历程、手势姿态估计任务、手势建模、手势姿态估计分类和方法类型；第3节介绍手势姿态估计常用数据集、数据集标记方式和手势姿态估计方法评价指标；第4节对基于深度图像的手势姿态估计方法进行详细分类与总结；第5节总结本文内容并展望了手势姿态估计未来的发展趋势.

2相关工作

2.1手势姿态估计发展历程

手势姿态估计技术的发展经历了 3个时期：基于辅助设备的手势姿态估计、基于传统机器学习的手势姿态估计和基于深度学习的手势姿态估计，如图1所示.

图1手势姿态估计发展历程图

Fig.1D ev el op m e nt history of hand pose estimation

1) 基于辅助设备的手势姿态估计.该阶段也称为非视觉手势姿态估计时期，利用硬件传感器设备直接获取手部关节

点位置信息.其中较为经典解决方案为Dexvaele等人[13i提出

的数据手套方法，使用者穿戴上装有传感器设备的数据手套，

通过手套中的传感器直接获取手部关节点的坐标位置，然后

根据关节点的空间位置，做出相应的手势姿态估计;W a n g等

人[M]使用颜手套来进行手势姿态估计，使用者穿戴上特制

颜手套来捕获手部关节的运动信息，利用最近颜相邻法

出颜手套中每种颜所在的位置，从而定位手部关节肢

体坐标位置.基于辅助设备的手势姿态估计具有一定优点，如

3d预测专家推荐具有良好的鲁棒性和稳定性，且不会受到光照、背景、遮挡物

等环境因素影响，但昂贵的设备价格、繁琐的操作步骤、频繁

的维护校准过程、不自然的处理方式导致基于辅助设备的手

势姿态估计技术在实际应用中并没有得到很好地发展[15].

2) 基于传统机器学习的手势姿态估计该阶段也称

为基于计算机视觉的手势姿态估计时期，利用手部图像解决

手势姿态估计问题.在深度学习技术出现之前，研究者主要使

用传统机器学习进行手势姿态估计相关的工作，在这一阶段

传统机器学习主要关注对图像的特征提取，包括颜、纹理、

方向、轮廓等.经典的特征提取算子有主成分分析（Principal

C o m p o n e n t A n a l y s i s,P C A)、局部二值模式（Local Binary Pat

terns ，L B P)、线性判别分析（ Linear Discriminant Analysis ，

L D A)、基于尺度不变的特征（Scale Invariant Feature Transform, S I FT) 和方向梯度直方图（Histogram of Oriented Gradi-

e n t,H O G)等.获得了稳定的手部特征后，再使用传统的机器

学习算法进行分类和回归，常用的方法有决策树、随机森林和

支持向量机等.

3) 基于深度学习的手势姿态估计.随着深度学习技术的发展，卷积神经网络大大颠覆了传统的计算机视觉领域，基于

深度学习的手势姿态估计方法应运而生.文献[21 ]以深度图

像作为输人数据源，通过卷积神经网络预测输出手部关节点

的三维坐标；文献[22]利用深度图的二维和三维特性，提出

了一种简单有效的3D手势姿态估计，将姿态参数分解为关

节点二维热图、三维热图和三维方向矢量场，通过卷积神经网

络进行多任务的端到端训练，以像素局部投票机制进行3

图2 21关节点手部模型图

F ig . 2 21 joints hand model

2.3手势姿态估计分类

本小节我们将对目前基于深度学习的手势姿态估计种类进行说明.从不同的角度以不同的分类策略，可将手势姿态估计分为以下几种类型：

2.3.1 2D /3D 手势姿态估计

根据输出关节点所处空间的维度，可将手势姿态估计分为2D 手势姿态估计和3D 手势姿态估计.

2D 手势姿态估计指的是在2D 图像平面上显示关节点位置，关节点的坐标空间为平面U ,y )，如图3所示;3D 手势姿态估计指的是在3D 空间里显示关节点位置，关节点的坐标空间为(x ，y ,z )，如图4所示.

图3 2D 手势姿态估计图图4 3D 手势姿态估计图

Fig . 3 2D hand pose

F ig . 4 3D hand pose

estim ation

在手势姿态估计的领域中，相较于2D 手势姿态估计，针对3D 手势姿态估计的研究数量更多，造成这一现象的主要

手势姿态估计；文献[23]将体素化后的3D 数据作为3D C N N 网络的输人，预测输出生成的体素模型中每个体素网格是关节点的可能性；文献[24]首次提出使用点云数据来解决手势姿态估计问题，该方法首先利用深度相机参数将深度图像转化为点云数据，再将标准化的点云数据输人到点云特征提取神经网络提取手部点云数据特征，进而回归出手部关节点位置坐标.将深度学习技术引人到手势姿态估计任务中，无论是在预测精度上，还是在处理速度上，基于深度学习手势姿态估计方法都比传统手势姿态估计方法具有明显的优势，基于深度神经网络的手势姿态估计已然成为了主流研究趋势. 2.2手势建模

手势姿态估计的任务是从给定的手部图像中提取出一组预定义的手部关节点位置，目标关节点的选择一般是通过参考真实手部关节点而设定的.根据建模方式的不同，关节点的个数往往也不同，常见的手部模型关节点个数为14、16、21 等.在手势姿态估计领域，手部模型关节点的个数并没有一个统一的标准，

在大多数手势姿态估计相关的论文和手势姿态估计常用数据集中，往往采用21关节点的手部模型, 如图2所示.

原因为2D 手势姿态估计的应用范围小，基于2D 手势姿态估计的实际应用价值不大[7]，而3D 手势姿态估计可以广泛应用于虚拟现实、增强现实、人机交互、机器人等领域，吸引了众多大型公司、研究机构和研究人员致力于3D 手势姿态估计的研究[29%.

由此可见，基于深度图像的3D 手势姿态估计已经成为手势姿态估计领域主流研究趋势，本文也是围绕深度图像、深度学习、3D 手势姿态估计这3个方面进行总结叙述.2.3.2

R G B

/Depth /R G B -D

根据输入数据类型的不同，可将手势姿态估计分为：基于

R G

B 图像的手势姿态估计、基于深度图像的手势姿态估计、

基于R G B -D (R G B

图像+ D e p t h m a p )图像的手势姿态估计;

其中，根据深度图像不同展现形式，将基于深度图像的手势姿态估计进一步划分为：基于简单2D 深度图像、基于3D 体素数据、基于3D 点云数据，如图5所示.

基于不同

数据形式的手势姿雜计方

m m

基于Dqptii Map 深®图像的手势姿态估计

:@iSDq)th Map

深度图多视角深度图 Multi View 体素Volume Voxel

点云

Point Cloud

2D Data

3DCNNs

基于RGB-D r Dqith Map |图像的手势姿态估计

RGB 图人手分割

图5

手势姿态估计方法分类图

F ig . 5 Classification o f hand pose estim ation m ethods

2.4方法类型

文献[4]根据不同的建模途径和策略，将手势姿态估计方法划分为模型驱动方法（生成式方法）[31~ ，和数据驱动方法（判别式方法）.研究者结合了模型驱动和数据驱动两种方

法的特点，提出混合式方法[3541]；在本小节我们将对这3种手势姿态估计方法类型进行简要概述.

2.4.1

模型驱动

模型驱动方法需要大量的手势模型作为手势姿态估计的基础.该方法实现的过程为：首先，创建大量符合运动学原理即合理的手势模型，根据输人的深度图像，选择一个最匹配当前深度图像的手势模型，提出一个度量模板模型与输入模型的差异的代价函数，通过最小化代价函数，到最接近的手势模型.

2.4.2数据驱动

数据驱动方法需要大量的手势图像数据作为手势姿态估计的基础.数据驱动方法所使用的图像数据可以是R G B 图

像、深度图像或者是R G B -D 图像中的任意一种或者多种类型图像相结合.以深度图像为例，基于数据驱动的手势姿态估计方法可以通过投喂特定标记的手势数据来训练，建立从观察值到有标记手势离散集之间的直接映射.在这个过程中，根据手势关节点结果值计算方式的不同，可以将基于数据驱动的

Hand PointNet SHPR-Net SO-HandNet Cascade PointNet

3D Data

基于RGB 图像的手棘纖十王丽萍等：深度图像中的3D 手势姿态估计方法综述

1229

1230小型微型计算机系统2021 年

手势姿态估计方法进一步分为基于检测和基于回归的方法.

2.4.3 混合驱动

模型驱动和数据驱动各有优势，模型驱动是基于固定手

势模型，手势姿态识别率高；数据驱动基于神经网络，不需要

固定手势模型，且对不确定手势和遮挡手势的鲁棒性髙.研究

者们结合了两种方法的特点，提出混合式方法解决手势姿态

估计问题.常见的混合式手势姿态估计方式有两种：1)先使

用模型驱动预估一个手势结果，若预估失败或者预估的结果

与手势模型相差较大，则使用数据驱动进行手势姿态估计，在

这种方法中，数据驱动只是作为一种备选方案当且仅在模型

驱动失败的情况下使用;2)先使用数据驱动预测出一个初始

的手势姿势结果，再使用模型驱动对预测的初始手势结果进

行优化.

3数据集和评价指标

数据集对有监督深度学习任务十分重要，对手势姿态估

计而言，规模大、标记精度髙、适用性强的手势姿态数据集不

仅能提供准确的性能测试和方法评估，还能推进手势姿态估

计研究领域的发展.目前常见3D手势姿态估计数据集有：

B ig Ha nd2. 2M[I0),N Y U[42).Dexter l[43i,M S R A14[441,I

C V L[451,

M S R A15 w，H a n d N e t[47】，M S R C[48]，等，其中 I C V L、N Y U 和

M S R A15是使用最为广泛的手势姿态估计数据集，常用手势

姿态估计数据集相关信息如表1所示.

表1手势姿态估计数据集

Table 1H a n d pose estimation datasets

数据集发布

时间

图像

数量

类别数关节数

标记

方式

视角

图像

尺寸

I A S T A R20138703020自动3320 x240 Dexter 12013213715手动2320 x240

M S R A1420142400621手动3320x240

I C V L2014176041016半自动3320 x240

N Y U201481009236半自动3640 x480

M S R A15201576375921半自动3640 x480

M S R C2015102000122合成3512 x424 HandNet2015212928106自动3320x240 BigHand2.2M 2017 2.2M1021自动3640 x 480

F H A D2018105459621半自动1640 x480

3.1数据集标记方法

Y u a n等人指出创建大规模精准数据集的关键因素是快速、准确的标记方式.常用手势姿态数据集标记方式有四种：手动标记、半自动标记、自动标记和合成数据标记.手动标记方法因其耗时耗力且存在标记

错误情况，导致使用人工手动标记的手势数据集规模小，不适合用于基于大规模数据驱动的手势姿态估计方法；半自动标记方法有两种形式，一种是先使用人工手动标记2D关节信息，再使用算法自动推断3D 关节信息；另一种是先使用算法自动推断出3D关节信息，再使用人工手动对标记的3D关节信息进行修正，与全手动标记方法相比，半自动标记方法具有高效性，适用于创建数据规模大的数据集.

合成数据标记方法指的是使用图形图像应用程序，先基于先验手势模型生成仿真手势图像数据，同时自动标记3D

关节信息；与手动标记和半自动标记方法相比，合成数据标记

方法无需手工介人，有效提高了数据标记效率，适合于大规模

数据集的创建；但不足的是，合成的仿真数据无法全面有效地

反映真实手势姿态，合成手势数据集中存在手势扭曲、反关

节、关节丢失等不符合运动学规律的手势情形，导致丢失真实

手势特征.自动标记方法指的在采集手部图像时，使用外部传

感器设备对手势关节进行标记.文献[49]的A S T A R数据集

使用带有传感器数据手套对手部关节进行标记;B i g H a n d2.

2M数据集采用具有6D磁传感器的图像采集标记系统进行

自动标记.

3.2评价指标

3D手势姿态估计方法的评价指标主要包括：

1) 平均误差：在测试集图像中，所有预测关节点的平均误差距离；以21个手势关节点模型为例，会生成21个单关节

点平均误差评测值，对21个单关节点平均误差求均值，得到

整个测试集的平均误差.

2)良好帧占比率：在一个测试图像帧中，若最差关节点的误差值在设定的阈值范围内，则认为该测试帧为良好帧，测

试集中所有的良好帧之和占测试集总帧数的比例，称为良好

帧占比率.

其中，第1个评价指标反映的是单个关节点预测精准度，

平均误差越小，则说明关节定位精准度越高；第2个评价指标

反映的是整个测试集测试结果的好坏，在一定的阈值范围内，

单个关节的错误定位将造成其他关节点定位无效，该评价指

标可以更加严格反映手势姿态估计方法的好坏.

4基于深度图像手势姿态估计方法

深度图像具有良好的空间纹理信息，其深度值仅与手部

表面到相机的实际距离相关，对手部阴影、光照、遮挡等影响

因素具有较高的鲁棒性.基于深度学习和深度图像的手势姿

态估计方法属于数据驱动，通过训练大量的数据来学习一个

能表示从输人的深度图像到手部关节点坐标位置的映射关

系，并依据映射关系预测出每个关节点的概率热图或者直接

回归出手部关节点的二维或者三维坐标.

在本节中，将深度图像在不同数据形式下的3D手势姿

态估计方法分为：

1) 直接将深度图像作为简单2D图像，使用2D C N N s进行3D手势姿态估计.

2)将深度图像转换成3D体素数据，使用3D C N N s进行 3D手势姿态估计.

3)将深度图像转换成3D点云数据，使用点云特征提取网络提取手部点云数据特征，从而实现手部关节点定位.

4.1基于简单2D深度图像

早期C. X u等人[50]提出使用随机森林传统机器学习方

法直接从手部深度图像中回归出手势关节角度，随着深度学

习技术的提出，卷积神经网络在计算机视觉任务中取得了巨

大成就，与传统机器学习方法相比具有较大的优势.

表2详细列举了基于简单2D深度图像手势姿态估计代

表性算法相关信息.其中，受文献[51]启发，T o m p s o n%首次

6期王丽萍等：深度图像中的3D 手势姿态估计方法综述1231

提出将卷积神经网络应用于手势姿态估计任务中，他们使用卷积神经网络生成能代表深度图像中手部关节二维概率分布的热图，先从每幅热图中分别定位出每个关节点的2D 平面位置，再使用基于模型的逆运动学原理从预估的2D 平面关节和其对应的深度值估计出关节点三维空间位置.由于手势复杂多样和手指之间具有高相似性，导致了从热图中预估出的2D 关节点与真实关节点位置之间可能存在偏差，且当手部存在遮挡时，深度值并不能很好地表示关节点在三维空间中的深度信息.针对文献[42]中所存在的问题,G e 等人[52]提出将手部深度图像投影到多个视图上，并从多个视图的热图中恢复出手部关节点的三维空间位置，他们使用多视图 C N N s 同时为手部深度图像前视图、侧视图和俯视图生成热图，从而更精准地定位手关节的三维空间位置.表2

基于简单2D 深度图手势姿态估计代表性算法对比 Table

2 Com parison of representative algorithms

for

hand

pose estimation based on

2D depth m a p

分类

算法名称

提出时间

算法

特点

平均误差（nun)

m j I C V L M S R A 15首次应用C N N ，关

ConvNet[42]

2014节点二维热图，逆

r e n

[55]

于

简 DeepPrior 单

2D Multi-

深 V i e w -C N N [52] 度图像

[54]

D e n s e R e g 22]

P o s e -R E N [56]J G R -P 20[59]

运动学模型.

区域集成网络，检

2017测关节点三维13.39 7.63 •

位置.

2017

8.10 9.50

网络.

关节点二维热图，2018 多视图 C N N 定位 12.50 - 9.70

关节点三维位置.

逐像素估计，关节

2018 点二维、三维热图，10.20 7.30 7.20

单位矢量场.

謂迭倾测关节点三u 81 6 79 8 65

维位置.漏

8 讀 755

积网络.

O b e r w e g e r 等人使用卷积神经网络直接输出手部关节

点三维空间位置，他们认为网络结构对3D 手势姿态估结果很重要，使用了 4种不同C N N 架构同时预测所有的关节点位置，通过实验对比得出多尺寸方法对手部关节点位置回归效

果更好，同时他们在网络中加入3D 手势姿态先验信息预测手部关节点位置，并使用了基于C N N 架构的关节点优化网络对每一个预测的关键点进行更加精准的位置输出；除此之外，为了进一步提升3D 手势姿态估计的准确性，他们在文献 [21]基础上提出使用迭代优化的方法多次修正手部关节点位置，对DeepPrior[53]进行改进，提出DeepPrior + + [54]方法，通过平移、旋转、缩放等方法增强手势姿态估计训练集数据，以获得更多的可利用信息，并在手势特征提取网络中加人了残差模块以进一步提升了 3D 手势姿态估计精度.

G u o

等人[55]提出基于区域集成的卷积神经网络架构 R E N .R E N

将卷积层的特征图分成多个局部空间块，并在全

连接层将局部特征整合在一起，与之前基于2D 热图、逆运动

学约束和反馈回路的手势姿态估计方法相比,R E N 基于单一网络的方法直接检测出手部关节的三维位置，极大提高了手

势姿态估计的性能.然而,R E N 使用统一的网格来提取局部特征区域，对所有特征都进行同等的处理，这并不能充分获得特征图的空间信息和具有高度代表性的手势特性.针对该问题，C h e n 等人[56]提出P o s e -R E N 网络进一步提高手势姿态估计性能，他们基于R E N 网络预测的手势姿态，将预测的初始手部姿态和卷积神经网络特征图结合，以提取更优、更具代表性的手部姿态估计特征，然后根据手部关节拓扑结构，利用树状的全连接对提取的特征区域进行层次集成,P o s e -R E N 网络直接回归手势姿态的精准估计，并使用迭代级联方法得到最终的手势姿态.

W a n 等人[22]提出一种密集的逐像素估计的方法，该方法使用了沙漏网络Hourglass Network-571生成关节点2D 热图和

热图以及三维单位矢量场，并由此推断出三维手部关节的位置；他们在文献[58]提出自监督方法，从深度图像中估计

手势姿态，与以往基于数据驱动的手势姿态估计方法不同

的是，他们使用41个球体近似表示手部表面，使用自动标记的合成手势数据训练神经网络模型，用无标记的真实手势数据对模型进行了微调，并在网络中采用多视图监督方法以减轻手部自遮挡对手势姿态估计精度的影响.4.2基于3D 体素数据

2D C N N

提取的深度图像特征由于缺乏3D 空间信息，不

适合直接进行3D 手势姿态估计.将深度图像的3D 体素表示

作为3D C N N 的输人，从输入的3D 体素数据中提取关节点特征，可以更好地捕获手的3D 空间结构并准确地回归手部关节点3D 手势姿态[60].基于3D 体素数据手势姿态估计流程如图6所示.

基于检测

图6基于体素数据手势姿态估计流程图 Fig

. 6

W o r k f l o w of

hand

pose

estimation

based o n

voxel

data

表3详细列举了基于3D 体素数据手势姿态估计代表性算法相关信息，其中,G e 等人在文献[61 ]中首次提出使用3D

C N N s

解决3D 手势姿态估计问题，他们先使用D -T S D F [62]将

局部手部图像转换成3D 体素数据表现形式，设计了一个具有3个三维卷积层、3个三维全连接层的3D 卷积神经网络架构，用于提取手部体素数据三维特征，并基于提取的三维特征回归出最终手部关节点三维空间位置；在文献[52]基础上，

G e

等人[63]提出利用完整手部表面作为从深度图像中计算手

势姿态的中间监督，进一步提升了 3D 手势姿态估计精度.

M o o n

等人[23]指出直接使用深度图像作为2D C

N N

的输

入进行3D 手势姿态估计存在两个严重缺点：缺点1是2D 深度图像存在透视失真的情况，缺点2是深度图和3D 坐标之间的高度非线性映射，这种高度非线性映射会直接影响到手部关节点位置的精准回归.为解决这些问题，他们提出将从深度图像中进行3D 手势姿态估计的问题，转化为体素到体

素

688IT编程网

深度图像中的3D手势姿态估计方法综述

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

深度图像中的3D手势姿态估计方法综述

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式