DeepFacialExpressionRecognition:ASurvey笔记
Deep Facial Expression Recognition: A Survey 论⽂笔记
⾸先是我读这篇论⽂的⽬的,我的研究⽅向是“基于⾯部表情的情感识别”,是偏向于计算机视觉的⼀个⽅向,这篇论⽂对深度⾯部表情识别(DFER)做了⼀个全⾯的介绍,包括数据集、DFER的基本流程、各个流程中使⽤的⽅法等,阅读这篇⽂章可以对DFER的⼀些基本情况做⼀个初步的了解。这是⼀个笔记,后⾯会有精简的总结。
摘要
摘要部分主要介绍了三个问题:
1. 深度神经⽹络被越来越多的⽤于FER系统的原因:
1. ⾯部表情识别系统的使⽤环境从实验室控制环境向⾃然环境转变
2. 深度学习技术在各个领域的成功应⽤
2. 当前的FER系统专注的两个重要的问题:
1. 由于缺乏⾜够的训练数据⽽导致的过拟合现象
2. 表情⽆关变量(光照、⾝份偏差、头部姿势等)对系统造成的影响
3. 这篇论⽂主要结构(介绍了相关的数据集以及在特定问题下的相关算法):
1. 可⽤的数据集及各个数据集的特点
2. 介绍了FER系统的基本流程
3. 介绍了当前DFER的研究进展(The State of Art):介绍了⼏种新颖的深度神经⽹络以及在静态图⽚、动态视频中神经⽹络的训练策
略,并对每个训练策略的具体表现进⾏了测试
4. 总结了依然存在的挑战和未来的发展机遇
4. 关键字:Facial Expressions Recognition, Facial expression datasets, Affect, Deep Learning, Survey
⼀、引⾔
1. ⾯部表情是⼈类表达⾃⼰情感状态、意图打算的最有效、最⾃然、最普遍的信号之⼀。
2. ⾯部表情识别的应⽤场景:社交机器⼈(Sociable robotics)、医学(Medical treatment)、驾驶员疲劳监测(Driver fatigue
surveillance)以及其他⼈机交互场景
3. 基本⾯部表情模型(6+1种表情):
1. 早在20世纪初,Ekman and Friesen定义了六种的基本表情,并表⽰这六种基本表情在⼈类的各个种族中间具有普遍性。这六种基本
表情分别是:⽣⽓(anger)、厌恶(disgust)、恐惧(fear)、幸福(happiness)、悲伤(sadness)、惊喜(surprise)。随后,鄙视(contempt)被加⼊基本表情之中。
2. 但在最近的神经学和⼼理学研究中称,六种基本表情模型并不是普遍的,⽽是和具体的⽂化相关的。
3. 虽然基于基本表情限制了我们对于表情复杂性和细微性的表⽰能⼒,也出现了其他的表情模型(the Facial Action Coding System
(FACS)、使⽤影响维度的连续模型等考虑表⽰更⼴泛的情绪特征),但由于表情分类模型开拓性的调查以及对⾯部表情的直接和直观的定义,这种模型在FER中仍然⽐较受欢迎。
4. FER系统根据特征表⽰⽅⾯的不同主要分为两种类型:
1. 静态图像的FER(static image FER)
2. 动态序列的FER(dynamic sequence FER)
5. FER系统数据集和训练⽅法的描述:
1. 2013年以前:传统的⽅法主要是⼿⼯特征或者浅层学习(如LBP(local binary patterns 局部⼆值模式)、LBP-Top(在三个正交
平⾯上的LBP)、NMF(non-negative matrix factorization ⾮负矩阵分解))
2. 2013年以后:随着各种表情识别⽐赛(如FER2013、Emotion Recognition in the Wild (EmotiW))的举办,⾯部表情数据收集
的越来越多、各种芯⽚的计算能⼒⼤幅增强,FER从实验室应⽤转向⾃然图像中的⾯部表情识别,深度学习系统也开始慢慢被应⽤到FER中。
6. 深度学习应⽤在FER系统中时仍然存在问题:
1. 深度神经⽹络的训练需要⼤量的数据,但现存的数据量不能满⾜深度神经⽹络的训练;
2. 主体间的差异(如年龄、性别、种族、表情丰富程度等)的影响;
3. 姿势变化、光照强度的变化等也会对训练造成影响;
7. FER系统数据集以及⽅法变化
⼆、⾯部表情数据库(Facial Expression Databases)
使⽤⾜够多的数据进⾏深度神经⽹络的训练是⾮常重要的。
在这⼀部分,问斩给介绍了⼀些当前主流的⾯部表情数据库,现总结如下:
数据库数据量实
验
对
象
采
集
环
境
采
集
⽅
式
表情分配⽹址链接备注
CK+593个视频
序列
123
个
实
验
室
采
集
摆
拍
&
⾃
然
6种基本表情和
鄙视以及中性表
情
u.edu/ckagree/
MMI 326个视频
序列(740
images
and
2,900
videos)
32
个
实
验
室
采
集
摆
拍
6种基本表情+中
性表情
mmifacedb.eu/
JAFFE213张图⽚10
个
实
验
室
采
集
摆
拍
6种基本表情+中
性表情
/jaffe.html(可下载)
TFD 112234张
图⽚
N/A
实
验
室
采
集
摆
拍
6种基本表情+中
性表情
josh@mplab.ucsd.edu
FER2013(⽐
赛)35,887张
图⽚
N/A
互
联
⽹
采
局部直方图均衡化集
摆
拍
&
⾃
然
6种基本表情+中
性表情
www.kaggle/c/challenges-in-representation-learning-facial-
expression-recognition-challenge
AFEW 7.0(⽐赛)1809个视
频序列
N/A
电
影
采
集
摆
拍
&
⾃
然
6种基本表情+中
性表情
le/site/emotiwchallenge/
SFEW 2.01766张图
⽚
N/A
电
影
采
集
摆
拍
&
⾃
然
6种基本表情+中
性表情
cs.anu.edu.au/few/emotiw2015.html
采集⾃
AFEW
数据集
Multi-PIE 755370张
图⽚
337
个
实
验
室
采
集
摆
拍
厌恶、中性、尖
叫、微笑、斜
视、惊喜
(disgust,
neutral,scream,
smile, squint
and surprise)
www.flintbox/public/project/4742/
BU-3DFE 2500张图
⽚
100
个
实
验
室
采
集
摆
拍
6种基本表情+中
性表情
www.cs.binghamton.edu/~lijun/Research/3DFE/3DFE_Analysis.html
适⽤于
3D⾯
部表情
分析
Oulu-CASIA 2880个图
像序列
80
个
实
验
室
采
集
摆
拍
6种基本表情www.cse.oulu.fi/CMV/Downloads/Oulu-CASIA
实
验6种基本表情和
RaFD
1608张图
⽚67
个
室
采
集
摆
拍
鄙视以及中性表
情
www.socsci.ru.nl:8180/RaFD2/RaFD
KDEF 4900张图
⽚
70
个
实
验
室
采
集
摆
拍
6种基本表情+中
性表情
ionlab.se/kdef/
EmotioNet 1,000,000
张图⽚
N/A
互
联
⽹
采
集
摆
拍
&
⾃
然
23 种基本表情
或复合表情
hio-state.edu/dbform_emotionet.html
规模较
⼤
RAF-DB 29672张
图⽚
N/A
互
联
⽹
采
集
摆
拍
&
⾃
然
6种基本表情+中
性表情+12种复
合表情
www.whdeng/RAF/model1.html
AffectNet 450000张
有标记的
图⽚
N/A
互
联
⽹
采
集
摆
拍
&
⾃
然
6种基本表情+中
性表情
mohammadmahoor/databases-codes/
⽬前为
⽌最⼤
的提供
两种表
情模型
标签的
数据库
ExpW 91793张
图⽚
N/A
互
联
⽹
采
集
摆
拍
&
⾃
然
6种基本表情+中
性表情
mmlab.ie.cuhk.edu.hk/projects/socialrelation/index.html
数据库数据量实
验
对
象
采
集
环
境
采
集
⽅
式
表情分配⽹址链接备注
每⼀个数据库都有其本⾝的特点,在选取训练数据的数据库时,需要注意所需数据的特性
三、⾯部表情识别的基本流程
这⼀部分,⽂章介绍了FER系统的基本流程:预处理->深度特征学习->深度特征分类
1. 预处理(Pre-processing)
由于与表情⽆关的因素(背景、光照、头部姿势等)会对DFER⽹络的训练产⽣影响,因此,在进⾏⽹络训练之前,需要对数据进⾏预处理,以尽可能消除⽆关因素的影响。包括⾯部对齐(Face aligned)、数据扩充(Data augmentation)和标准化(Normalize)。
(1)⾯部对齐
⾯部对齐是⾯部识别相关任务的触痛处理步骤,给出⼀系列的训练数据,第⼀步就需要去除⽆关的背景以及没有⾯部数据的区域。
1. ⾯部对齐⽅法介绍:
1. Viola-Jones(V&J)face detector:是⼀种⽐较经典的、在⼈脸检测⽅⾯⼴泛使⽤的⼈脸检测器,具有鲁棒性(指控制系统在⼀定
(结构,⼤⼩)的参数下,维持其它某些性能的特性)和计算简单的特点。
2. 利⽤局部地标坐标对⼈脸进⾏对齐(可以减少⾯部⽐例和平⾯内旋转的变化):
1. Holistic(整体的)
1. AAM(The Active Appearance Model)
2. Parted-based(基于局部的)
1. MoT(The mixtures of trees structured models)
2. DRMF(Discriminative response map fitting)
3. Cascaded regression(级联回归)
1. SDM(The supervised decend method)
2. The face alignment 3000 fps
3. Incremental(the incremental face alignment)
4. Deep Learning(深度学习)
1. Cascaded CNN(级联卷积神经⽹络)
2. MTCNN(多任务卷积神经⽹络)
3. 使⽤多个⼈脸探测器惊醒更精确的地标估计
4. [外链图⽚转存失败,源站可能有防盗链机制,建议将图⽚保存下来直接上传(img-l8594N7W-1595148548193)(E:\学习\论⽂\论⽂
笔记\Note_DFER_Survey.assets\image-20200712175631014.png)]
(2)数据扩充
深度神经⽹络的训练需要使⽤⼤量的数据来确保训练模型的性能,⽽现存的数据库中数据相对有限,所以需要使⽤⼀些技术对数据库进⾏数据扩充。
数据扩充⽅式:
1. 即时数据扩充:通常,这种数据扩充的⽅式是直接嵌⼊在深度学习⼯具包中的,⽤来减轻过拟合。
2. 离线数据扩充:
1. 图像的随机扰动和变换:旋转,移位,偏斜,缩放,噪声,对⽐度和⾊彩抖动
2. 基于深度学习的数据扩充技术:3D-CNN
(3)⾯部标准化
光照强度和头部姿势的变化可能会对图⽚特征造成重⼤影响,进⽽降低FER的性能。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论