技术应用
2021年第42卷第1期自动化与信息工程35
*基金项目:广东省自然科学基金(2018A030313306)
基于不确定性感知的语音分离方法*
涂斌炜
吕俊
(广东工业大学自动化学院,广东广州510006)
摘要:为抵御噪声的干扰,提出一种基于不确定性感知的语音分离方法。在训练阶段,采用双链路架构分
别学习噪声和语音源成分的编解码子网和分离子网;在测试阶段,以闭式解的形式自适应更新噪声编码子网,减小训练与测试噪声在特征空间的均值偏移,降低认知不确定性,并尽量保持重要参数不变,间接限制语音分离的经验误差。在公开数据集LibriSpeech,NoiseX 和NonSpeech 上的实验结果表明:本文提出的方法能够快速有效地提高噪声干扰下语音分离的尺度不变信噪比。
关键词:语音分离;噪声干扰;不确定性感知中图分类号:TN912
文献标识码:A
文章编号:1674-2605(2021)01-0008-06
DOI :10.3969/j.issn.1674-2605.2021.01.008
0引言
语音分离一词最初源于“鸡尾酒会问题[1]”,是指从混合的两个或多个说话人的声音中得到想要的目标说话人(一人或多人)的语音信号,广泛应用于语音识别、情感识别或翻译等任务的前端处理。按信号输入的通道数划分,语音分离可分为单通道语音分离和多通道语音分离2种。本文主要讨论单通道语音分离技术。
正则化参数的自适应估计单通道语音分离技术又分为有背景噪声和无背景噪声2类。无背景噪声的单通道语音分离技术发展较早,常见方法包括基于听觉场景分析[2]、基于非负矩阵分解
[3-4]
和基于深度神经网络的语音分离方法
[5-6]
。
这些方法推动了单通道语音分离技术的发展,但没有考虑噪声干扰的影响,与真实使用场景相差较大。
近年,许多专家学者逐渐关注有背景噪声的单通道语音分离技术。文献[7]~文献[9]通过串联方法将语音降噪网络和语音分离网络结合起来,该方法已被证明能够改善嘈杂环境下的语音识别性能;文献[10]通过多场景训练方法将语音降噪和语音分离结合在一起,2个任务共用1个网络。上述方法改善了语音分离技术在噪声环境下的分离效果,但没有考虑异常噪声带来的分布差异问题。由于噪声具有较强的多样性,因此测试信号中难免会出现与训练集噪声相差较大
的噪声信号,这些异常噪声会严重影响语音分离效果。
为抵御噪声的干扰,本文提出一种基于不确定性感知的语音分离方法(speech separation based on uncertainty perception,SSUP )。该方法采用变换域特征的均值偏移来度量预测不确定性,采取双链路网络结构,通过自适应更新噪声编码网络的参数,减小噪声带来的均值偏移,同时采用弹性权重固化(elastic weight consolidation,EWC )策略[11],间接保持较小的训练集经验误差。
1分离网络
1.1
问题描述
在背景噪声下,单通道输入信号()y t 由语音信号
()x t 和噪声信号()n t 叠加而成,本文只讨论2个说
话人的情况,因此()y t 建模为
12()()()()
y t x t x t n t =++(1)
单通道语音分离的目标是从混合信号()y t 中估
计得到1()x t 和2()x t 。1.2
网络结构
现有的单通道语音分离方法主要采用单链路架构[12-13]。但由于噪声与语音信号的分布不一样,采用不同的表达方式更合理。本文提出的SSUP 采用双链路网络架构,如图1所示。
图1SSUP双链路网络架构
SSUP双链路网络包括网络结构相同的2个链路,每个链路皆包含编码器、分离器和解码器3个主要部分。编码器和解码器分别为一维卷积和一维逆卷积网络;分离器由多个双路循环神经网络(dual-path RNN, DPRNN)模块组成[12]。其中,链路1的输出为2个说话人的语音信号,链路2的输出为噪声信号。首先,在训练集中训练得到初始模型;然后,根据每条测试信号,有针对性地更新链路2中编码器的参数,并保持其他参数不变。
依据验证集的分离性能,SSUP双链路网络的参数设置如表1所示。模型训练采用的优化器为Adam,迭代步长为10-3,迭代次数为100。
表1SSUP双链路网络参数设置
参数数量/个
编码器卷积核个数256卷积核的窗宽16卷积核的步长8
分离器分离器中DPRNN模块的
个数
5 DPRNN模块中BLSTM的
隐含状态单元
128
解码器卷积核个数256卷积核的窗宽16卷积核的步长8
1.3训练目标
网络最终输出是估计信号的时域波形。本文采用的训练目标为最大化尺度不变信噪比(scale-invariant source-to-noise ratio,SI-SNR)[14]。在单通道语音分离中,标准的信号失真比(source-to-distortion,SDR)可能出现误导性结果,即在感知上并没有改变估计信号的情况下,仅依靠缩放估计信号便能提高SDR值,然而这种提高没有实际意义[14]。为避免这种情况,SI-SNR取代SDR作为语音分离的评价指标[12,15],其定义为
10
22
10log
ˆˆ
,,
ˆ
,,
SI-SNR=
⎛⎫
⎪
-
⎪
⎝⎭
s s s s s s
s
s s s s
(2)式中,ˆs为估计信号;s为目标信号。为确保尺度不变性,ˆs和s做0均值归一化处理。
2基于不确定性感知的语音分离
2.1不确定性感知
由于噪声往往是非平稳的,且具有较强的多样性,训练集和测试集的噪声分布差异给语音分离模型带来了认知不确定性[16]。因此,需要对这种认知不确定性进行度量,并自适应地调整网络参数,克服分布差异带来的影响。目前,大多数获取预测不确定性的方法基于贝叶斯神经网络[17-18],需要对网络参数进行大量采样,计算量大,且优化效率低。针对该问题,本文采用变换域特征的均值偏移来度量预测不确定性,不确定性D的计算公式为
0test0
2
2
1
D
C
=-
B X l m(3)
00
1
11
N
j
j
N C
=
=
⎛⎫
⎪
⎝⎭
∑
m B X l(4)
式中,
K L
R⨯
∈
B为更新前链路2中的编码器参数;
1
C
R⨯
∈
l和N分别为元素为1的列向量和训练集的样
本个数;
test
L C
R⨯
∈
X为输入信号按卷积核滑动窗切割后堆叠的矩阵,其中L和C分别代表编码器卷积核的窗宽和滑动窗个数。
2.2参数更新方法
测试信号与训练集的编码特征分布应尽量接近,以减小分离模型的认知不确定性。与此同时,采用弹性权重固化策略[11],间接保持较小训练集经验误差,自适应地学习有利于目标信号实现语音分离的变换域。因此,设计代价函数为
含噪混合语音
链路2
链路1
噪声
编码器1
Concat.
1-D conv.
分离器1
分离器2
解码器1
1-D conv.
编码器2解码器2
36
涂斌炜吕俊:基于不确定性感知的语音分离方法
2021年第42卷第1期自动化与信息工程37
(
)
test 0
02
22
1min F
J C
=
-+-α
B
BX l m B B (5)
式中,B 为更新后链路2中的编码器参数;F 是0B 的费雪信息矩阵; 代表点乘运算。
因为费雪信息越大的参数对网络的输出越重要,所以尽量不要对其做太大调整。设1L
i R
⨯∈B 为B 的
第i 行,即第i 个卷积核的参数。式(5)等号两边对i B 求导:
()
()
0test test 02
1
2i i
T
i i
i
J C C
α∂∂=
-+-∂∂⎛⎫ ⎪⎝⎭
BX l m F B B B B BX l (6)
令
0i
J ∂=∂B ,得
test test 001
1()
()0i i i i
T
C C α∂-+-=∂⎛⎫ ⎪⎝⎭BX l BX l m F B B B (7)
由于代价函数(5)是一个加权最小二乘优化问题,因此可求得其闭式解的第i 行为
T T 0021
11i i i i C C -=++⎛⎫⎛⎫ ⎪⎪
⎝⎭⎝⎭
αα B m a F B aa A (8)
式中,test =a X l ;,1,2,(,,,)i i i L diag =⋅⋅⋅A F F F 。
对于每一条测试信号,都可通过式(8)快速地求得唯一解B ,式(8)的时间复杂度为3
()L L C +⨯O 。因
此,本文方法可在不进行反向传播的基础上快速更新编码器参数。
若不引入费雪信息,式(5)的最后一项是Frobenius 范数正则化约束,此时式(5)可改写为
test 0
2
22
1min F
J C
=
-+-αB
BX l m B B (9)
其闭式解的第i 行为
1
T T 00211i i i C C αα-=++⎛⎫⎛⎫ ⎪⎪
⎝⎭⎝⎭
B m a B aa I (10)
2.3
噪声信号在特征空间上的均值偏移
为探究噪声信号在特征空间上的均值偏移,本文从Nonspeech 数据集中选取8种不同的噪声数据[19],与语音信号生成8个测试集,每个测试集的样本个数和所采用的语音信号皆相同。计算每个测试集的噪声特征至训练集噪声特征中心的平均偏差为
1
2
002
1
1
M
j j M
C
==
-∑d B X l m (11)
式中,M 为测试集的样本个数。
8种不同噪声特征至训练集噪声特征中心的平均偏差如图2
所示。
图28种不同噪声特征至训练集噪声特征中心的平均偏差
由图2可知:animal 和bell 这2种噪声的编码特征偏离训练数据均值中心m 0的程度非常明显,给语音分离模型带来较大的泛化风险;而另外6种噪声的编码特征偏离均值中心比较小,可见并非所有的噪声都会在特征空间上带来严重的均值偏差。因此,需要设置1个阈值,只有满足阈值要求的测试信号才会触发参数更新。2.4
参数更新触发条件
本文采用变换域特征的均值偏移来度量预测不
确定性。针对不确定性较大的测试数据,将进行参数的动态调整。因此,设置了1个不确定性阈值TH ,计算公式为
alarm animal bell wind machine water traffic
crowd 平均偏差大小
0.000
0.001
0.002
0.0030.004噪声种类
38
({})({})
tr tr TH mean D n std D =+⨯(12)
式中,n 为超参数;{}tr D 为训练样本D 值的集合。
当测试信号的D 值大于TH ,通过式(8)或式(10)对编码器2的参数进行更新。
3实验及参数分析
3.1
实验设置
实验采用的深度学习框架为Pytorch ,服务器CPU 为8核3.90GHz AMD Ryzen 3700X ,内存为32GB ,GPU 为Nvidia RTX 2080Ti 。
本文采用公开的语音数据集LibriSpeech [20],噪声数据集NoiseX [21]和Nonspeech [19]进行实验。为方便网络训练,所有数据统一采样率为8kHz 。本文的语音数据全部来自于LibriSpeech 数据集中的“train-clean-100”子集,该子集包含了100h 来自251个不同个体的语音数据。首先,取任意2个不同说话人的语音以-2.5dB~2.5dB 的任意比例混合,得到干净的2个说话人的混合数据;然后,选取NoiseX 数据集中的10种噪声生成训练集数据,同时将Nonspeech 数据集中的8种噪声生成测试集数据,详情如表2所示。其中,噪声与说话人声按-5dB~10dB 的任意信噪比混合,训练集的样本个数为8000,测试集中每种噪声数据的样本个数为3000。
表2
噪声数据集
数据集噪声类型
用途
NoiseX [21]
babble 、buccaneer2、destroyerengine 、f16、destroyerops 、factory2、hfchannel 、white 、machinegun 、factory1
构建训练集
Nonspeech [19]
alarm 、animal 、bell 、crowd 、machine 、traffic 、water 、wind
构建测试集3.2实验结果
为验证本文提出方法的有效性,在测试集中比较
以下4种方法的分离性能:1)文献[12]提出的单链路网络方法;2)编码参数更新前(before parameter update,BPU )的双链路网络方法;3)在方法2的基
础上,采取Frobenius 范数正则化(Frobenius norm regularization,FNR )的参数更新方法;4)在方法3的基础上,采取费雪信息加权的FNR (Fisher information weighted FNR,FIW-FNR )的参数更新方法。实验的结果如表3所示。(实验中n 和α分别取0.5和10-8)
表3
4种方法的分离性能比较
方法单链路[12]BPU FNR FIW-FNR SI-SNR /dB
0.11
0.53
0.66
0.85
由表3可知:1)BPU 取得了比单链路更好的分离性能,说明双链路网络方法是有效的;2)FNR 和FIW-FNR 方法获得的SI-SNR 指标高于BPU ,其中FIW-FNR 是4种方法中分离性能最好的,可见本文提出的参数更新方法可以改善模型的分离性能。3.3
参数分析
3.3.1折中系数α
式(5)中,α越大意味着代价函数对编码器参数更新的惩罚力度越大。本文在测试集中进行了实验,当n =0.5时,对比不同α对模型分离效果的影响,结果如表4所示。
表4
α取不同值时,3种方法的SI-SNR 指标
α
方法
BPU/dB
FNR/dB FIW-FNR/dB 10-90.53
0.660.4810-70.64
0.8010-50.630.6510-30.640.6410-1
0.61
0.64
由表4可知:1)当α=10-7时,FIW-FNR 取得最好的分离效果,比BPU 提高了0.27dB ;2)当
α>10-9时,本文提出的FNR 和FIW-FNR 方法都优
于BPU 方法,可见在α相当大的取值范围内,本文
提出的参数更新方法都是有效的。
涂斌炜吕俊:基于不确定性感知的语音分离方法
2021年第42卷第1期自动化与信息工程39
3.3.2阈值系数n
由2.4节可知:不确定性阈值TH 随着n 的增大而增大。为探究阈值系数n 对FNR 和FIW-FNR 两种方法的影响,本文在测试集中进行对比实验,实验中
α=10-7
。对比结果如表5所示。
表5n 取不同值时,3种方法的SI-SNR 指标
阈值系数
需要更新参数的测试样本数
方法
SI-SNR/dB
n =0
1569
BPU
1.21FNR 1.24FIW-FNR 1.36n =0.5
1056BPU
0.53FNR 0.64FIW-FNR 0.80n =1
696BPU
−0.31FNR −0.11FIW-FNR
0.16
由表5可知:随着n 不断增大,阈值相应提高,需要更新编码器参数的测试样本数也不断减少;在3种不同的阈值条件下,FNR 和FIW-FNR 方法都优于BPU ,当1n =时,FIW-FNR 方法相较于BPU 在SI-SNR 指标上提高了0.47dB 。3.4
运行效率
针对每一条测试信号,本文提出的基于不确定性感知的语音分离方法都可以通过式(8)或式(10)闭式更新噪声编码网络参数,而无需经过反向梯度传播,从而保证了模型的运行效率。经过测试1000条数据,FIW-FNR 方法平均处理一条测试信号的时间约为(0.15+0.01)s (每条数据长度为5s )。
4结语
为减小噪声的干扰,本文提出一种基于不确定性感知的语音分离方法。针对每一条测试信号,自适应更新噪声编码网络的参数,减小噪声带来的均值偏移,并尽量保持重要参数不变,间接限制语音分离的经验
误差。该方法具有闭式解,执行效率高,能够快速调整编码网络参数,增强语音分离模型对环境噪声的泛化能力。参考文献
[1]BELL A J,SEJNOWSKI T J.An information-maximization
approach to blind separation and blind deconvolution[J].Neural Computation,1995,7(6):1129-1159.
[2]WANG D L,BROWN G J.Computational auditory scene
analysis:principles,algorithms,and applications[J].IEEE
Trans.Neural Networks,2008,19(1):199.
[3]LEE D D,SEUNG H S.Learning the parts of objects by
non-negative
matrix
factorization[J].
Nature,
1999,
401(6755):788-791.
[4]李煦,屠明,吴超,等.基于NMF 和FCRF 的单通道语音分离[J].
清华大学学报(自然科学版),2017,57(1):84-88.
[5]WANG D L,CHEN J.Supervised speech separation based on
deep learning:an overview[J].IEEE/ACM Transactions on Audio,
Speech,
and
Language
Processing,
2018,26(10):1702-1726.
[6]刘文举,聂帅,梁山,等.基于深度学习语音分离技术的研究现
状与进展[J].自动化学报,2016,42(6):819-833.
[7]MA C,LI D,JIAN X.Two-stage model and optimal SI-SNR
for monaural multi-speaker speech separation in noisy environment[J].arXiv preprint arXiv:2004.06332,2020.[8]LIU Y,DELARIA M,WANG D L.Deep casa for talker-independent
monaural
speech
separation[C].
IEEE
International Conference on Acoustics,Speech and Signal Processing (ICASSP),2020:6354-6358.
[9]WANG X,DU J,CRISTIAN A,et al.A study of child speech
extraction using joint speech enhancement and separation in realistic conditions[C].IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP).IEEE,2020:7304-7308.
[10]WU Y K,TUAN C I,LEE H Y,et al.SADDEL:Joint Speech
separation and denoising model based on multitask learning[J].arXiv preprint arXiv:2005.09966,2020.[11]KIRKPATRICK J,PASCANU R,RABINOWITZ N,et al.
Overcoming catastrophic forgetting in neural networks[J].Proceedings of the National Academy of Sciences of the United States of America,2017,114(13):3521-3526.[12]LUO Y,CHEN Z,YOSHIOKA T.Dual-Path RNN:efficient
long sequence modeling for time-domain single-channel
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论