广西师范大学学报(自然科学版)Journal  of  Guangxi  Normal  Universiiy  (Natural  Science  Edition)第39卷第3期
2021年5月Vol. 39 No. 3May  2021
DOI : 10.16088/j.issn.1001-6600.2020051802
http : // x uebao. gxnu. edu. cn 吕惠炼,胡维平.基于端到端深度神经网络的语音情感识别研究[J].广西师范大学学报(自然科学版),2021, 39(3): 20-26. LU  H  L, HU  W  P. Research  on  speech  emotion  recognition  based  on  end-to-end  deep  neural  network  [ J]. Journal  of  Guangxi  Normal  University  ( Natural  Science  Edition ), 2021, 39(3) : 20-26.
基于端到端深度神经网络的语音情感识别研究
吕惠炼,胡维平”
(广西师范大学电子工程学院,广西桂林541004)
摘要:语音情感识别是实现自然人机交互的重要组成部分,传统语音情感识别系统主要集中于特征提取和模型构建。 本文提出一种将深度神经网络直接应用于原始信号的语音情感识别方法。原始语音数据携带了
语音信号的情感信息、二 维空间信息和时序上下文信息。建立的模型以端到端的方式进行训练,网络自动学习原始语音信号的特征表示,无需手 工特征提取步骤。该网络模型同时兼顾了 CNN 和BLSTM  2种神经网络的优点。利用CNN 从原始语音数据中学习空间特 征,其后添加一个BLSTM 学习上下文特征。为了评估该模型的有效性,在IEMOCAP 数据库上进行识别测试,获得的 WA 和UA 分别为71.39%、61.06%o 此外,与基线模型进行对比,验证了提出方法的有效性。
关键词:语音情感识别;CNN ; BLSTM ;端到端;原始语音
中图分类号:TN912.34;TP183 文献标志码:A  文章编号:1001-6600(2021)03-0020-07
语音情感识另!J ( speech  emotion  recognition , SER )是指计算机可以自动识别语音信号的情感状态⑴。 语音作为人类的主要交流媒介之一,不仅承载了语义信息,还包含了说话者的情感信息。让机器感知人类 的情感,有助于人机在交互中进行更自然、更和谐的对话。语音情感识别在人机交互中显得越来越重要, 目前已经成为模式识别、多媒体信息处理和人工智能等领域的研究热点2勾。赋予机器识别语音情感的 能力,不仅可以进一步提高语音识别和说话人识别的性能,更是实现自然人机交互的关键。
情感特征提取作为语音情感识别的重要组成部分,引起众多研究者的广泛关注。这些研究大多致力 于设计一些最具特的手工特征进行情感识别[塚o 更具体地说,特征提取包括2个阶段:1)从每一帧语 音信号中提取一些声学特征,通常包括韵律学特征、基于谱的相关特征、声音质量特征和非线性特征等,
还 有一些通过改变算法提取的情感特征⑺;2)将不同的统计函数(均值、最大值、方差等)应用于每个话语的 声学特征得到统计特征o 通过大量精心准备的实验,寻表现出与情感高度相关的特征,这是一项耗时耗 力的工作。此外,所选特征的有效性在很大程度上仍然依赖于所实现的模式识别模型,导致其通用性 较低。
最近,深度学习领域出现了一种趋势,直接利用深度神经网络来提取语音特征,即直接从未经处理的 原始语音数据中获取输入信号的情感表示形式。这个想法是基于网络可以自动学习原始语音信号的中间 表示,从而更好地适应当前任务,进而改进性能。在这方面,端到端学习是一种很有前途的选择,大量的端 到端学习框架迅速而广泛地被应用于语音情感识别中。Trigeorgis 等⑻提出了一种基于CNN 和LSTM 网 络相结合的上下文感知情感相关特征提取方法,以便从原始数据中自动获得语音信号的最佳表示,在 RECOLA 数据库上“Arousal ”识别率为68.60%, “Valence ”识别率为26.10%,实验结果表明,所提出的拓扑 结构显著优于传统方法。Latif 等⑼提出一种端到端训练模型,由并行卷积层直接从原始语音中捕获长期 和短期的交互,同时使用LSTM 对CNN 输出的特征图捕获不同的上下文依赖关系,在IEMOCAP 数据库上
收稿日期:2020-05-18 修回日期:2020-10-17
基金项目:国家自然科学基金(61861005)
通信作者:胡维平(1963—),男,广西桂林人,广西师范大学教授,博士。E-mail : *************
u.edu21
取得了60.23%的识别率。Li等[⑹通过将CNN宜接应用于从语音中提取的声谱图,以端到端的方式学习情感表征,2组不同形状的滤波器被设计用来从输入声谱图中捕获时域和频域信息,在IEMOCAP数据库上的加权识别率为71.80%。Lim等[⑴提出一种基于串联的CNNs和RNNs语音情感识别方法,即将深度分层的CNNs特征提取架构与LSTM网络层相结合,没有使用任何传统手工特征对情感语音进行分类,而是使用声谱图作为输入,在EMO-DB数据库上的识别率为88.01%,验证了端到端神经网络模型的可行性。当前相关研究主要利用传统语音情感特征作为深度学习的输入。普通CRNN模型中的BLSTM简单地取 最后一个时刻的输出,忽略了每层输出的相关特性,降低了模型性能。
本文以传统语音情感识别方法为基础,以已有的端到端深度神经网络研究进展为动力,提出一种新的端到端CRNN模型直接用于原始信号的语音情感识别方法,该网络模型同时兼顾CNN和BLSTM2种神经网络的优点,利用卷积神经网络从原始语音数据中学习空间特征,其后添加一个双向长短时记忆网络学习上下文特征,以便充分利用语音中的情感信息。
1模型设计
1.1CNN
卷积神经网络(convolutional neural networks,CNN)是一种专门为处理高维网络数据而设计的神经网络⑴切,包含输入层、卷积层、池化层、全连接层及输出层。卷积层是CNN的核心基石,卷积运算允许网络从话语中提取局部特征,卷积滤波器的宽度决定了创建特征图的区域大小[⑼o较宽的过滤器捕获长期交互,而较窄的过滤器捕获短期交互,可以应用多个过滤器,每个过滤器具有不同权重,从同一区域提取不同信息。除此之外,在CNN的训练中,可通过局部连接和权重共享来大大简化网络结构的复杂度,减少参数 矩阵规模,从而提升收敛速度[纲。池化层的任务是降低特征图的参数进而减小运算量,并且能够在一定程度上控制过拟合。池化层进行的运算一般包括最大池化层和均值池化层。
1.2BLSTM
长短时记忆(long short-term memory,LSTM)是循环神经网络(recurrent neural network,RNN)中常用的基本单元,它能够学习长期的动态依赖关系,从而避免了RNN训练中梯度消失或爆炸的问题[⑸。
LSTM网络的思想源于人在短时期内具有长时间保持记忆的持久性,尽管LSTM在记忆层中能保存信息,但是只能保存过去的信息,不能保存未来的信息。使用双向长短时记忆(bidirectional long short-term
memory,BLSTM)网络可以很好地解决这个问题,无论是过去到未来的信息,还是未来到过去的信息,都可以用来改善网络性能2闾。BLSTM的主要思想是利用前向LSTM和后向LSTM来提取未来和过去的隐藏信息,这两部分信息构成最终的输出["何。在大多数情况下,BLSTM优于LSTM。
1.3普通CRNN模型
端到端学习框架的目的是利用深度神经网络联合训练表征提取过程和模式识别过程,自动探索与目标任务相关的最显著表征,消除蛮力特征设计过程。一般用于语音情感识别的端到端框架包括特征提取建模和时间序列建模。具体地说,特征提取模型主要是能有效处理空间特征的CNN,时间序列建模主要是能够学习长期动态依赖关系的LSTM。该端到端框架被称为卷积循环神经网络(convolutional recurrent neural network,CRNN)o本文使用端到端CRNN模型的基本思想是,无需手工特征提取步骤,从原始语音中自动学习更健壮的特征表示,从而捕获所有的情感任务,进而改进性能。采用端到端CRNN模型的动机是基于语音情感识别的2个要求:1)能有效处理高维数据的CNN可以从原始语音信号中提取谱特征并捕获长时间的依赖关系,考虑了空间结构的特征关系,增强了语音情感特征的空间性。而且模型的关键运算是卷积,减少了参数矩阵的规模,从而提升了收敛速度。为了降低原始信号的维度和学习与情感高度相关的高层特征,应用多个滤波器和设计滤波器宽度。2)每个语音序列包含不同比例的情感信息,可以通过上下文关系预测最终的语音情感。
22广西师范大学学报(自然科学版),2021,39(3)
由于以CRNN为主要特征提取网络,首先描述了由普通CRNN构成的语音情感识别模型。对于提出的语音情感识别模型中使用的CRNN基本结构,我们遵循文献[8]提出的网络结构。普通CRNN语音情感模
型的结构如图]所示,由3部分组成,前两部分构成一个CRNN。第一部分是卷积神经网络学习空间特征,用一句原始语音数据作为输入。该过程是对输入的一维向量进行卷积,并在几个步骤中将其汇集起来,生成一系列扁平的特征图,通过CNN模型,得到特征向量序列[c(1),c(2),cQ)]是CNN输出的特征向量个数。第二部分是一个RNN,每个时间步长对应CNN输出的特征向量个数,RNN选择BESTM 结构,BI5TM从CNN输出的特征向量序列中学习,经过BI5TM网络模型得到一个输出序列卩(F),;(门],其中;(巧为正向LSTM最后一层最后一个时刻的特征输出,;(『)为反向UTM最后一层最后一个时刻的特征输出,LSTM的隐藏单元设置为128;最后将BI5TM输出的特征向量r(T)和;(T)进行拼接得到一个256维的特征向量,依次输入全连接层和soft-max层并完成最终的情感预测。
Speech
产(7)
图]普通CRNN语音情感模型结构
Fig.1Common CRNN speech emotion model structure
1.4改进CRNN模型
普通CRNN模型中的BLSTM简单地取最后一个时刻的输出,忽略了每层输出的相关特性,降低了模型性
能。考虑到BLSTM不同层都有输出,如果把每一层最后一个时刻的输出进行拼接,可以实现浅层特征与深层特征的融合,每一层特征的融合,实际上是用低层网络信息补充高层网络信息。假设BLSTM有N层,将每一时刻的特征输入BLSTM,每一层都会有对应的输出,取每一层最后一个时刻的输出,得到共2N个特征向量。BUTM输出方式采用多层结合,使其能够充分利用每一层输出的上下文信息。本文提出的改进CRNN语音情感识别模型的结构如图2所示。在这个语音情感识别模型中,原始语音数据输入方法、训练过程和普通CRNN模型相同,不同的是BLSTM输出方式,经过BLSTM模型得到特征序列[(九韶,…,入),(九,;27■,…,為)]。最后将CRNN模型输出的特征向量依次输入全连接层和soft-max 层并完成最终的情感预测。整个模型以端到端的方式进行训练,学习如何提取空间特征、上下文特征表示和执行语音情感识别任务。
Speech
concat
图2改进的CRNN语音情感模型结构
Fig.2Improved CRNN speech emotion model structure
u.edu23 2实验结果与分析
2.1数据库
Interactive emotional dyadic motion capture(IEMOCAP)由南加利福尼亚大学录制[⑻,包括大约12h的视听数据(语音、视频、面部动作捕捉)o10个录音人(5男和5女),共5个会话,在有台词或即兴的场景下,特意引导出情感表达。采样率为16kHz。每个会话至少3个人评估,包括9种情感的离散标签("happy""neutral""angry""sad""surprise”“exited”“frustration”“disgust”"fear")以及3个维度的维度标签(u activation w u valence"u dominance")。根据之前的工作⑵,研究者广泛关注的是从即兴演讲中选择4种最具代表性的情感,共2280句(284句"happy"、1099句"neutral"、289句"angry"、608句"sad")。
2.2参数选择
对原始信号进行预处理,使其具有零均值和单位方差,然后将其分割成20s长的序列作为输入,模型在没有分段的情况下对整句语音进行测试,原始信号在16kHz时相当于320000维的输入向量。具体参数选择如表1所示。
表1改进CRNN模型参数
Tab.1Improved CRNN model parameters
模型结构参数
输入20s的序列长度
卷积层164个滤波器,大小为8
最大池化层大小为10
卷积层2128个滤波器,大小为6
最大池化层大小为8
卷积层3256个滤波器,大小为6
最大池化层大小为8
循环层2层BLSTM,每一层的隐层节点数为128
全连接层2层,每一层的隐藏节点数分别为128,64
由于模型包含大量参数,故在每个最大池化层之后使用dropout正则化,其概率为0.5o利用Adam算法作
为网络优化器,对同一组实验做5次取均值作为最终识别率。在IEMOCAP数据库中随机选择2/3的语音样本作为训练集,1/3作为测试集,并计算加权准确率(weighted accuracy,WA)和未加权准确率(unweighted accuracy,UA)作为算法的性能衡量指标,其中WA是测试集中所有样本的准确性,UA是所有情感准确性值的平均值。由于情感样本的未均衡性,为了使得样本较少的情感类别获得最佳准确率,实验过程中以UA作为主要的评价标准。
2.3实验结果与分析
在IEMOCAP库上开展实验,为了评价改进CRNN模型的有效性,取多种模型进行比较,模型参数与改进CRNN模型设置相同。
1)CNN模型:由CNN提取特征,soft-max层输出情感类别。
2)BLSTM模型:由BLSTM提取特征,输出512维特征向量作为全连接层输入,soft-max层输出情感类别。
3)普通CRNN模型:CRNN输出的256维特征向量作为全连接层输入,soft-max层输出情感类别。
4)改进CRNN模型:CRNN输出的512维特征向量作为全连接层输入,soft-max层输出情感类别。
由表2的识别结果可以观察到,在相同的原始语音数据下,普通CRNN模型和改进CRNN模型均优于单纯使用CNN模型和BLSTM模型,表明:1)增加输入序列的长度,可以使CRNN模型捕获更长的时间动
24广西师范大学学报(自然科学版),2021,39(3)
态;2)无论是捕获更长的时间动态,还是设计更深的CNN来处理大量参数,都会对CRNN模型的性能产生很大影响;3)先由CNN从原始语音数据中学习空间特征,再利用BLSTM学习上下文特征,原始语音数据的情感信息得到了利用。同时,改进CRNN模型优于普通CRNN模型,证明了模型性能的改善是来自BLSTM输出方式采用多层结合。
本文提出的改进CRNN模型实现了71.39%的WA,61.06%的UA,相对于普通CRNN模型分别增加了2.66%和2.64%。不同模型在每个情感类别的准确率表明,“neutral”和“sad”情感类别在4个模型中准确率相对较高。此外,改进CRNN模型的“sad”情感类别相对CNN模型(63%)提高17%,“angry”情感类别相对BLSTM模型(52%)提高16%。这些识别结果证明改进CRNN模型的有效性。
表2不同模型在IEMOCAP库上的识别结果
Tab.2Recognition results of different models on IEMOCAP%
模型-
准确率
WA UA happy neutral sad angry
CNN1773635864.6352.89
BLSTM1769685262.6351.35
普通CRNN2076746368.7358.42
改进CRNN2779806871.3961.06为了进一步分析改进CRNN模型的语音情感识别性能,给出UA为61.06%时IEMOCAP库的混淆矩阵(见图3)。我们发现:l)“sad”的识别率最高(80%);2)虽然CRNN模型做了改进,但是“happy”和“neutral”之间仍然存在许多错误,58%的“happy”样本被错误分类为“neutral”,可能是因为“happy”的激活水平较高,而"neutral"是激活效价空间的中心。然而,只有8%的"neutral"样本被错误分类为"happy",可能是"neutral"样本占了最高的百分比。
预测
happy neutral sad angry
happy0.580.050.09
neutral0.08H0.100.03
sad0.030.170
angry0.040.270.01正则化过滤器
图3改进CRNN模型在IEMOCAP库上的混淆矩阵
Fig.3Confusion matrix of CRNN model on IEMOCAP is improved
表3现有模型在IEMOCAP上的识别结果
Tab.3Recognition results of existing models on IEMOCAP%
模型UA
3-D CRNN with attention21]64.74
CNN and BLSTM】22〕64.22
CNN and LSTM⑼60.23
Proposed model61.06
将改进CRNN模型与现有模型方法进行对比(表3),由表3可以看出:1)文献[21-22]采用的网络模
型在IEMOCAP库上获得较好的识别率,2种模型依赖于手工设计的特征,能充分利用情感信息;2)Latif 等⑼提出的网络模型是直接作用在原始语音数据,与本文提出的模型相比,改进CRNN模型在UA方面的性能优于该方法。虽然基于手工特征提取的识别模型可以获得最佳识别率,但是我们提出的端到端学习

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。