(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号 CN 108197580 A
(43)申请公布日 2018.06.22
(21)申请号 CN201810020731.0
(22)申请日 2018.01.09
(71)申请人 吉林大学
    地址 130000 吉林省长春市前进大街2699号
(72)发明人 许骞艺 秦贵和 姜慧明 张钟翰 晏婕 刘毅 袁帅 秦俊
(74)专利代理机构 吉林长春新纪元专利代理有限责任公司
    代理人 魏征骥
(51)Int.CI
     
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      一种基于3d卷积神经网络的手势识别方法
(57)摘要
      本发明涉及一种基于3d卷积神经网络的手势识别方法,属于手势识别方法。针对深度相机拍摄获取的普通视频和深度视频,进行一系列预处理,在应用预处理的普通处理方法的基础上,针对视频图像存在噪点的问题,采用卷积神经子网与反卷积神经子网相结合的去噪方法,针对视频中存在的时间空间关系,采用3d卷积神经网络进行处理。本发明大幅度提高了手势分类的速率,增强了识别依据的可靠性和结果的合理性。
法律状态
法律状态公告日
法律状态信息
法律状态
正则化 归一化
权 利 要 求 说 明 书
1.一种基于3d卷积神经网络的手势识别方法,其特征在于,包括下列步骤:
(一)在不同光照下采集四类手势视频数据
用相机拍摄像素为171×224的灰度与深度视频图像,数据在不同光照下采集,都采集驾驶员右手的手势,其中:第一类手势是左右滑动手势,第二类手势是上下翻动手势,第三类手势是左右点滑手势,第四类手势是旋转手势;
(二)手势视频数据预处理
1)原始手势视频时间长度各不相同,为了统一每个手势视频的时间长度,对视频正则化,使用最
近邻插值通过丢弃或重复帧完成重采样的过程,结果为每个手势序列时间长度都是32帧;
2)在空间上,原始视频图像大小为171×224,只取有手势的那一部分、图像的大小为100×100,同时,为了使网络训练时速度更快,使用以2为因子下采样原始彩的强度图像和深度图像到50×50像素;
3)使用大小为3×3像素Sobel算子在强度通道和深度通道中计算梯度,提高数据集中不同光照条件下的表现的鲁棒性;
4)归一化每一个手势视频的每个通道,使每个通道的值成为零均值和单位方差的;
5)经过以上处理后的图像存在很多噪点,为了最大程度的去除噪点,采用卷积子网与反卷积子网相结合的去噪方法,该方法保证输入图像的大小与输出图像的大小相同,去噪效果良好;
6)最终输入到3d卷积神经网络的特征分类器的是大小为50×50×32的包含交错的图像强度和深度帧的手势视频数据;
(三)手势识别的网络架构
经过手势视频数据预处理后,将视频段作为输入放进3d卷积神经网络架构中,通过一系列的卷积和池化操作完成对视频中的手势特征的分类,通过分类结果判断输入的某一视频属于哪种手势,从而达到手势识别的要求;具体的操作步骤如下:
第1层为卷积层,记作C1层,使用4个大小为5×5×3的卷积核,以步长为1做卷积层;C1层的输入数据为大小50×50×32的视频,输出数据为4个大小为46×46×30的特征图;
第2层为池化层,记作S2层,对C1层的输出做最大池化操作,池化窗口大小为2×2×2,步长为1;S2层的输入数据为大小46×46×30的特征图,输出数据为4个大小为23×23×15的特征图;
第3层为卷积层,记作C3层,使用8个大小为3×3×5的卷积核,以步长为1做卷积层;C3输入的数据为大小23×23×15的特征图,输出数据为8个大小为21×21×11的特征图;
第4层为池化层,记作S4层,对C3层的输出做最大池化操作,池化窗口大小为2×2×2,步长为1;S4层的输入数据为大小21×21×11的特征图,输出数据为8个大小为10×10×5的特征图;
第5层为池化层,记作S5层,对S4层的输出做最大池化操作,池化窗口大小为2×2×1,步长为1;S5层的输入数据为大小10×10×5的特征图,输出数据为8个大小为5×5×5的特征图;
第6层为全连接层,记作FC6层,一个尺寸为800个神经元的特征,每个特征与第5层的所有特征进行全连接;
第7层为softmax层,softmax层的输入为第6层的神经元,通过softmax函数计算,得出的结果为一系列的概率值,这些概率求和为1,每个概率代表给定视频属于特定输出类的概率,如果某一视频得出的概率值中,第一类概率值最高,则这一手势视频对应为左右滑动;如果第二类概率值最高,则这一手势视频对应为上下翻动;如果第三类概率值最高,则这一手势视频对应为左右点滑;如果第四类概率值最高,则这一手势视频对应为旋转。
说  明  书
技术领域
本发明属于手势识别方法。
背景技术
在发展迅速的社会中,人与人的交流不单纯依靠语言交流,当我们遇到语言无法沟通的问题时
会本能的选择肢体语言,其中手势作为我们日常生活中人与人交流的重 要方式之一,一直可以比较准确地表达我们的医院。手势识别技术作为计算机应用和 人工智能领域的研究热点,日益完善,成熟的手势识别技术可以应用于机器人控制、 哑语识别、无人驾驶和运动检测等领域。然而,由于手势具有时间和空间上的多样性 和不确定性,使手势变成一种复杂的可变形体,因此目前这种人机交互方式理论还不 够成熟,技术不够先进,这也就引出一个问题,如何将其应用到实际中仍然是一个富 有挑战性的研究课题。另一方面,先进感知与控制技术的不断发展,使得无人驾驶技 术日益进步,无人驾驶的应用指日可待。
汽车的发明改变了人类的出行方式,汽车的发展同样也推动着社会的发展。但是,随着汽车保有量的逐年增加,交通问题也越来越严重。交通拥堵与交通事故难以解决, 传统的汽车工业面临挑战。近几年随着计算机技术和互联网技术的迅速发展,无人驾 驶技术应运而生。从20世纪70年代开始,美国、英国、德国等发达国家开始进行无 人驾驶汽车的研究,在可行性和实用化方面都取得了突破性的进展。中国从20世纪80 年代开始进行无人驾驶汽车的研究,国防科技大学在1992年成功研制出中国第一辆真 正意义上的无人驾驶汽车。传统汽车的交通事故频发,让人不禁担心拥有新的技术的 无人驾驶汽车的安全性。据报道,在全球范围内,因为司机注意力分散而导致受伤和 死亡的事件层出不穷,2008年在美国,因司机的注意力分散而出现的
230万机动车事 故中,有22%的人受伤,16%导致死亡。在传统的汽车上,驾驶员通过视觉观察继而 手动操作界面,如触觉控制和在汽车屏幕上触摸,会引起严重的分心。在汽车中,基 于手势的非触摸式用户界面可以降低视觉效果认知干扰,并能提高安全性和舒适性。 最近的主观研究表明基于手势的非触摸式界面在消费者中是受欢迎的。非触摸式用户 界面可以为用户的手势特点定制,并且对于未来的司机功能性监测易于扩展,因此在 无人驾驶汽车上应用非触摸界面已经是大势所趋,手势识别对于车内设计非接触式界 面至关重要。这种界面允许驾驶员在驾驶过程中专注于驾驶本身而不是控制其他控制 器,如控制空调,音响等,使用手势识别的非触摸式界面可以极大程度的提高驾驶员 的安全度和舒适度,正因如此,手势识别在无人驾驶中起着至关重要的作用。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。