Journal o f C om puter A p p lica tio n s
计算机应用,2018, 38(4): 1176 -1180ISSN 1001-9081
C O
D
E N J Y IID U
2018-04-10
h ttp://w w w.jo c a
文章编号:1001-9081(2018)04-1176-05 D O I:10.11772/j.issn.1001-9081.2017092316稀疏正则非负矩阵分解的语音增强算法
蒋茂松:王冬霞 '牛芳琳,曹玉东
(辽宁工业大学电子与信息工程学院,辽宁锦州m o o i)
(*通信作者dxwang_lg@ 126. com)
摘要:对于非负矩阵分解的语音增强算法在不同环境噪声的鲁棒性问题,提出一种稀疏正则非负矩阵分解 (S R N M F)的语音增强算法。该算法不仅考虑到数据处理时的噪声影响,而且对系数矩阵进行了稀疏约束,使其分解 出的数据具有较好的语音特征。该算法首先在对语音和噪声的幅度谱先验字典矩阵学习的基础上,构建联合字典矩
阵,然后更新带噪语音幅度谱在联合字典矩阵下的系数矩阵,最后重构原始纯净语音,实现语音增强。实验结果表明,
在非平稳噪声和低信噪比(小于0 d B)条件下,该算法较好地削弱了噪声的变化对算法性能的影响,不仅有较高的信 源失真率(S D R),提高了 1 ~1.5个数量级,而且运算速度也有一定程度的提高,使得基于非负矩阵分解的语音增强算 法更实用。
关键词:非负矩阵分解;语音增强;稀疏正则;鲁棒性;联合字典
中图分类号:T N912.35 文献标志码:A
Speech enhancement method based on
sparsity-regularized non-negative matrix factorization
JIANG Maosong, W A N G Dongxia , NIU Fanglin, CAO Yudong
(College o f Electronic and Information Engineering, Liaoning University o f Technology, Jinzhou Liaoning121001, China) Abstract:In order to im prove the robustness o f N on-negative M a trix Factorization(N M F)a lgo rithm fo r speech
enhancem ent in d iffe re n t ba ckground noises,a speech enhancem ent a lgo rithm based on S parsity-regularized R obust N M F (S R N M F)was proposed,w h ich takes in to account the noise effect o f data processing,and makes sparse constraints on the co e fficie n t m a trix to get be tte r speech characteristics o f the decomposed data.F irs t,the p rio r d ictio n a ry o f the am plitude spectrum o f speech and noise were learned and the jo in t d ic tio n a ry m a trix o f speech and noise were con structe d.Th e n,the S R N M F a lgo rithm was used to update the co e fficie n t m a trix o f the a m plitude spectrum w ith noise in the jo in t d ictio n a ry m a trix.
F in a lly,the o rig in a l pure speech was reconstructed,and enhanced.The speech enhancem ent perform ance o f the S R N M F
algo rithm in d iffe re n t environm ental noise was analyzed through sim u la tio n experim ents.E xperim enta l results show th a t the proposed a lgo rithm can e ffe ctive ly weaken the in flu e n ce o f noise changes on perform ance u n der non-stationary environm ents and low S ignal-to-N oise R atio(
SN R) ( < 0 d B),it not o n ly has about1-1.5 m agnitudes im provem ent in Source-to-D is to rtio n R atio(SDR)scores,b u t also is faster than oth er algo rithm s,w h ich makes the N M F-based speech enhancem ent a lgo rithm more
p ra c tic a l.
Key words:N on-negative M a trix F a ctoriza tion (N M F);speech enhancem ent;spa rsity-re g u la riza tio n;robustness;jo in t dictio n a ry
〇引言
语音增强旨在提高被各种各样噪声干扰的语音质量和可 懂度,它是语音通信、语音编码和语音识别等诸多领域的基 础,是语音信号处理领域重要的分支。
单通道语音增强算法包括最小均方误差(M in im u m Mean
Square E rro r,M M S E)估计[1]、谱减法[2]、子空间[3]及近年来 提出的深度神经网络(Deep N e u ra l N e tw o rk,D N N)方法[4_5]
等。这些方法在一定程度上改善了带噪语音的质量。这些增
强算法或是基于统计模型或是较少使用语音和噪声的先验信
息,因此,在不同环境噪声条件下,尤其是在非平稳噪声环境下语音增强的性能下降。
非负矩阵分解(N on-negative M a trix F a c to riz a tio n,N M F)是一种新的矩阵分解算法W,与传统的矩阵分解算法相比,它具有物理意义强、实现简单、存储空间小等优点。基于非负 矩阵分解的语音增强算法[7]充分利用了带噪语音的先验信 息,通过提取纯净语音和噪声信号子空间谱,建模为非负激活 系数加权到基向量的线性组合,进而弥补了常规典型算法的 不足。
非负矩阵分解的语音增强算法大致可分为无监督和有监 督两大类[8]。前者不需要先验信息、简单易实现,但在非平
收稿日期=2017-09-26;修回日期=2017-10-27。基金项目:辽宁省科学事业公益研究基金资助项目(20170056)。
作者简介:蒋茂松(1989—),男,安徽六安人,硕士研究生,主要研究方向:现代信号处理、多媒体;王冬霞(1975—),女,辽宁锦州人,教 授,博士,主要研究方向:阵列、语音处理与通信;牛芳琳(1971—),女,辽宁锦州人,副教授,博士,主要研究方向:信息论、信道编码、数字喷泉 码;曹玉东(1975—),男,辽宁锦州人,副教授,博士,主要研究方向:图像识别、图像理解。
第4期蒋茂松等:稀疏正则非负矩阵分解的语音增强算法1177
稳噪声环境下性能较差;后者需要先验信息,但在非平稳噪声 环境下,可以获得更好的增强效果,具有更加明显的优势。
由于训练数据和测试数据的不完全一致性,故有监督 N M F算法存在着训练数据和测试数据间语音特征不匹配的 问题,易影响算法的性能。考虑到语音在时频域存在稀疏性,有学者将稀疏约束引人有监督N M F中,提出了稀疏N M F (S parse N M F,S N M F)算法,提高了收敛速度和语音与噪声信 号区分度,很好的解决了两者之间语音特征不匹配的问题[9_1°]。考虑到D N N特性,有学者提出联合D N N和N M F的语音增强算法[11]。这些算法虽然能够达到预期效果,但是在 处理数据时产生的误差具有随机性且易受到异常噪声等各种 因素的影响。此外,N M F分解后的基矩阵和系数矩阵的稀疏 度难以控制,容易造成过度拟合和大量残佘噪声剩佘,导致重 构语音的严重失真和算法对噪声鲁棒性下降。
针对上述问题,文献[12 ]通过在目标函数中引人噪声约 束项,提出了一种鲁棒N M F(Robust N M F,R N M F)算法,以修 正非负矩阵分解过程中产生的随机误差。考虑到数据的稀疏 性,文献[13]在目标函数中引人系数矩阵的稀疏约束项,提 出了一种稀疏R N M F算法,以控制其稀疏度。但是,这两种 算法采用的是欧氏距离来度量原始数据与重构数据间的误 差,计算目标函数时存在数据点冗余的平方,造成了异常点的 误差被放大而影响算法性能。
考虑到语音信号的时间连续性[14]和幅度谱的统计先验 知识[15]的一致性,在N M F目标函数中添加由噪声项和稀疏 约束项所构成的正则项,以保证分解的数据具有原始语音信 号特征,本文在文献[12-13]的基础上进行了改进,提出了 ~'种稀疏正则N M F (S parsity-regularized R obust N M F,S R N M F)的语音增强算法。该算法既能提高不同环境噪声下 的鲁棒性,又能减少过度拟合,进而减小重构数据中的残佘噪 声和异常噪声对算法的影响,加快收敛,增强语音性能。
1稀疏正则非负矩阵分解算法
l.i非负矩阵分解
设非负矩阵F = [%,,]E R f1,表示经过短时傅里叶变 换(S h o rt-tim e F o u rie r T ra n s fo rm,S T F T)后的带噪语音幅度 谱或功率谱信息组成的矩阵。非负矩阵分解算法是为了寻 一个局部最优的分解w
v=W H(1)其中:〜,,中= 1,2,…,X)和Z(Z = 1,2,…,L)分别代表频
点和时间帧;W =[气J e E分别表示是基矩阵和系数矩阵;M是基向量数。
为了使W和//的乘积结果尽可能地逼近矩阵F,定义一 个度量函数D,使其产生最佳的分解结果,即
a r^m in D(V||V)(2)
其中:f l(V||是度量观测数据F与重构数据间的误差散度函数。
1.2 算法描述
文献[12 - 13]以欧氏距离来度量误差散度函数,这样易造成异常点的误差被放大。在文献[10]中,假设噪声服从泊 松分布,求解非负矩阵W和的最大对数似然解,得到 K L C K u llb a c k-L e ib le r)散度下的目标函数。然而,标准N M F语 音增强算法处理数据时产生的误差具有随意性,算法性能达 不到预测效果。为减弱这些问题的影响,引人噪声项£= [e w]E R K'即:+五,能够保护基矩阵W和系数矩 阵免受干扰,且增强对噪声等不利因素的抵抗能力,即K L 散度下的目标函数为:
D kl(V,V,E)=
X X [^ _ ^(V ; e)iJ-(v -e)Kl + ik l](3)
为了加强式(3)的稀疏性,在目标函数中添加噪声项£的i〇范数稀疏约束,优化目标函数为:
minE D KL(V,V,E)(4)
其中:r是参数,表示£中最大的非零元素。因为求L0范数很 困难,所以采用I I范数替代i0范数的稀疏正则,这是解决稀 疏问题的标准方法。然后,式(4)的改写形式为:
m m D KL(V,V,E)+ A ||£ ||,(5)
K L
其中:II五IU= Z Z 1;人彡〇。参数人是£稀疏度和重
k=l 1=1
构误差权衡系数,它控制£的权重,F- £為0保证原始数据
非负性。
由于语音信号在时频域存在稀疏性,因此通过引人稀疏 因子来控制系数矩阵的稀疏度[15],使得基矩阵W成为完 备基。故在式(5)中目标函数添加系数矩阵的稀疏惩罚项,用于控制系数矩阵的稀疏性和重构时语音的失真度,将式(3)代人式(5),目标函数为:
p=X X[~ e)k,ih^^^1'1-(v -e)Kl + + k=1i=1^k,l
A l l^l l, +r l|f f|l i(6)其中:P为目标函数;7奋〇为稀疏因子,决定系数矩阵的稀疏度。
结合文献[12],采用固定W和//更新优化噪声项,引人 软阈值算子[16]操作能够有效地解决更新时出现的凸优化问 题,有利于对异常点的处理,使其不受噪声形式的限制,提高 算法适应性。定义软阈值函数^/i A( •)表达式为:
{% - X,x >X
X+\,X<-X(7)
〇,其他
其中^E R和A > 0为阈值。式(7)可以扩展到向量和矩阵。
由于目标函数最优解没有唯一性,所以利用文献[17]方 法对W的列和//的行进行归一化处理,保持目标函数值不 变。然后采用梯度下降法优化代价函数式(6),得到如下乘法 迭代规则[12]:
W^W.*(U V-E)./V)H t)./(1K x L H t)(8)
H^H.*{W T{{V-E)./V))./{W's lKyL+y)(9)
E^soft.(V-W H)(10)其中和代表矩阵的点乘和点除,即对应元素相
1178
计算机应用
第38卷
图1 S R N M F 语音增强算法框架
Fig. 1 Framework of speech enhancement algorithm based on S R N M F
训练阶段:首先分别利用STFT 收集语料库纯净语音和 噪声信号的信息,分别将纯净语音和噪声信号的短时幅度谱 作为目标矩阵,即為0和y N 奋0;然后通过SRNMF 算法迭 代式(8) ~ (10)将语音幅度谱分解
为基矩阵、将噪声幅 度谱分解为,将分解的基矩阵和联合保存起来为 字典矩阵,即W  = [ Ws  WN  ],作为增强阶段的先验信息。
增强阶段:分为系数矩阵的在线更新和语音重构两个部 分。
1)
在线更新阶段,先通过STFT 得到带噪语音幅度谱F ,
将其幅度谱和训练阶段保存的联合字典矩阵w 作为式(9)的
输人,固定W 不变通过式(9)和(10)迭代更新,直至目标函
数收敛,停止迭代。最后,分别估计出语音信号和噪声信号的
幅度谱t >s 和t >N ,推导如下:
V ^W H =[W S
W N ][//S
H …y  =
V s  + V s = W S H S  +
(12)
2)
语音重构阶段,在重构出语音和噪声的幅度谱之后,
利用文献[18]的维纳滤波简单易实现的优点,以提高算法的
降噪能力与适应性。求得带噪语音增益函数G ,即
G  = (Wsf f s )./(Wsf f s  + WN f f N) (13)
利用式(13)带噪语音增益估计出纯净语音幅度谱为
F s  =
G . *F 。最后,结合带噪语音的相位,对重构幅度谱运
用逆STFT 得到时域上增强的语音信号。
3.1实验参数设置
实验中所用的纯净语音信号取自标准TIMIT 语音库,噪
声取自标准Noise -92噪声库,其中采样频率为16 kHz 。采用 三种背景噪声:FaC toryl 工厂车间噪声UHfchannel 高频信道 噪声和Babble 餐厅内嘈杂噪声,这些噪声属于非平稳噪声。 信号采样率均下采样至8 kHz ,用16 bit 量化。选用20名说话 人的语音(10名男性和10名女性),从每个说话人中选择一
个句子,即20个句子约60 s 作为纯净语音的训练数据。每个 训练和测试语音信号由6 S (2个句子)信号组成,并且所有的
3买验结果与分析
乘相除;T 代表矩阵的转置;l X xi  e  为元素全1矩阵。
2 稀疏正则NMF 的语音增强算法
假设语音信号和噪声信号均为加性信号且互不相关,则 带噪语音信号y (0表示为:
y (t ) = s {t ) + n {t )
(11)
其中是纯净语音信号是加性噪声信号。算法结构
如图1所示,即包括训练和增强两个阶段。
训练和测试数据互不交叉。通过将纯净语音信号与噪声信号 混合,分别生成信噪比分别为-5 dB 、0 dB 、5 dB 和10 d B 的带 噪语音信号。增强算法所采用帧长为512点,帧移为128点, 窗选择汉明窗。基向量数满足M 矣X  x  L/(X  + L )标准,在训 练阶段纯净语音和噪声维基向量数M 为30,最大迭代次数为 50,分别生成大小为257 x 30纯净语音和噪声字典矩阵,组合 成先验联合字典矩阵。
通过利用验证集观察性能来确定权衡系数A U  E  丨0.005,0.01,0.05,0.07丨)和稀疏因子 7(7 E  [0,2])。图2 表本了当输人信噪比(Signal -to-Noise  Ratio ,SNR )为 0 dB  时, Factoryl 噪声背景下的带噪语音经过增强处理后信源失真率 (Source -to-Distortion  Ratio ,SDR )值与 A  和 7 之间的关系。
7.06.5
6.0
3.5 ■/
S 〇L
0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0
权衡系数义
3 2
在输人信噪比为0 d B 时Factoryl 噪声下增强语音的平均S D R 值Fig. 2 Average S D R  values of the enhginced speech under
Factoryl noise a t  input S N R  of 0 dB
分另!J 对Hfchannel 和Babble 噪声背景下的带噪语音进行
实验仿真。通过分析可知,随权衡系数A 的增加,增强信源失
真率SDR 平均值趋于平稳,可以通过改变稀因子y 来再度提
高算法性能。最后,实验选取A  = 1.8和7 =0.05作为最佳参
数,为了更好地验证本文算法的性能,后续的算法评估均使用 该参数。
3.2实验结果与分析
将本文SRNMF 算法与NMF 算法、文献[12 ]算法和文献
[13]算法进行性能比较。采用客观质量评估(Perceptual
Evaluation  of  Speech  Quality , PESQ )方法[19]和信源失真率
SDR [a )]作为语音增强算法性能客观评估标准。PESQ 用来衡
量增强语音的质量,能够反映主观听觉测试结果,较高的
PESQ 值,说明其语音质量越好;SDR 用来衡量增强语音的失
真率,能够反映增强语音中残余噪声所占比,SDR 越大说明残
余噪声越少,语音质量越好。
表1为四种算法单次训练联合字典矩阵所耗时间情况。
虽然文献[12]算法、文献[13]算法和本文SRNMF 算法都在 目标函数中引人正则项增加了计算负担,但是NMF 算法的训 练时间仍然是它们的2 ~ 3倍,而且本文SRNMF 算法耗时最
表1
不同算法训练时间比较
Tab. 1 Compare the training time of different algorithms 语音增强算法训练时间语音增强算法训练时间N M F 算法13.06文献[13]算法  5.19文献[12]算法
5.47
S R N M F 算法
4.33
r =〇.〇〇5
-C K r =0.01-
-〇- r =o .〇5-
-厶
-r=0.07
第4期蒋茂松等:稀疏正则非负矩阵分解的语音增强算法
1179
1E ■定込m 土目•苜里彳日;V J  丁 m
v ir 畀该权'I 仄0刈!:L 固外汉固T
的矩阵框可知,S R N M F 算法静音段和帧间残佘噪声明显减 少,说明该算法具有较好的噪声消除能力。因此,该算法能够 有效地减少失真,提高语音质量和可懂度。
1
2    3 4
t/s
(a )纯净语音  2 3
t/s
(b )带噪语音
5
褰:
骧:
2    3 4
t/s
_\M I  1:法
1    2    3    4 5
t/s
⑷义献算法
蘧:
()
1    2    2    3    4 5
3    4    5
1 3t/s
t/s
(e)文献[13]算法 (f ) S R N M F ^:法
图4
输入信噪比为0 d B 时Hfchannel 噪声下各算法的语谱图比较
Fig. 4 Spectrogram of contrast algorithms under
Hfchannel noise a t  input S N R  of 0 dB
0.8  1.0
0.6
璧().4
^0.2l i i i
■ 0.5
l
0.0
f w n 1丨丨旧〇.〇l
频率/kHz 频率/kHz 频率/kHz
(a) Factoryl 噪声 (b) Hfchannel 噪声 (c) Babble 噪声
图3三种背景噪声频域幅度分布
Fig. 3 Amplitude distribution maps of three kinds o f
background noise in frequency domain
综上所述,说明了各算法在三种背景噪声环境和不同信 噪比条件下的P E S Q 和S D R 平均值的对比情况。可见,同一 算法在相同信噪比及不同背景噪声条件下的性能总趋势为 H fch a n n e l  > F a c to ry l  > B a b b le ,而且各种算法在 H fch a n n e l  噪声 背景下性能最优,S R N M F 算法在该噪声环境下表现出较强的 增强效果。随着信噪比提高,其优势逐渐下降,而
S R N M F 算
法仍能保证较强的增强性能。这是由于该算法在目标函数中 正则项的引人,能够较好地保护语音时频域特性,削弱了非平 稳类噪声的影响,同时也降低了误差随机性,使其具有较强的 鲁棒性,发挥了 N M F 算法在低信噪比条件下的优势。在高信 噪比条件下,S R N M F 算法对提高语音质量优势较弱。在低信 噪比环境下,S R N M F 算法增强效果较为显著,说明该算法对 噪声的抵抗能力较强,能够削弱异常噪声的影响。总体来看,
少。说明使用K L
散度下的目标函数及其正则约束,可以提 高算法收敛速度,减小字典训练时间,提高算法实用性。
表2为三种背景噪声和不同信噪比下的P E S Q 和S D R 平 均值比较。在实验中,标准N M F 算法没有
特别针对噪声处理 的措施,故在不同噪声环境下的增强语音的P E S Q 值有明显 的差别,而文献[12]算法和文献[13 ]算法在求解目标函数时
都引人了噪声项,能够在一定程度上削弱噪声的影响,但是效 果不是十分明显。虽然在不同背景噪声环境下本文S R N M F 算法有一定的差别,但是这种差异不大,说明背景噪声变化对 其性能影响较弱,体现了该算法具有较好鲁棒性。随着信噪 比提高,语音质量也相应地提高,且总体上高于其他算法,较 稳定。
表2
不同算法增强语音的P E S Q 和S D R 平均值比较
Tab. 2 Average PESQ and SD R  comparison of enhanced speech by different algorithms
评估
准则
Factoryl
Hfchannel Babble 处埋力拔-5 dB O d B 5d B 10 dB -5 dB O d B 5d B 10 dB -5 dB O d B    5 dB 10 dB 原始带噪语音  1.57  1.85  2.19  2.55  1.38  1.60  1.89  2.23  1.67  1.92  2.28  2.63N M F 算法
1.89
2.18  2.51  2.84  1.82  2.11  2.40  2.69  1.82  2.07  2.48  2.75PRSQ 文献[12]算法
1.82
2.20  2.60  2.95  1.76  2.06  2.39  2.78  1.88  2.11  2.51  2.83文献[13]算法  1.85  2.25  2.59  2.93  1.75  2.18  2.40  2.83  1.73  2.08  2.52  2.86S R N M F 算法
1.96
2.32  2.62  2.90  1.88  2.21  2.46  2.72  1.93  2.21  2.53  2.89原始带噪语音-4.890.05  5.0410.03-4.850.07  5.0510.04-4.610.21  5.1310.09N M F 算法  1.05
5.679.9514.20  2.49
正则化与稀疏6.6310.5314.02-2.26  2.38  6.9510.37SDR
文献[12]算法0.85  6.0710.6114.74  2.33  6.3710.2714.33-2.48  3.427.9612.50文献[13]算法0.98  6.3110.4914.78  2.137.1010.4714.49-3.09  2.578.2312.50S R N M F 算法
2.21
7.07
11.08
14.15
3.65
7.50
10.82
13.93
-1.69
3.97
9.10
12.63
对各算法在不同背景噪声环境下进行比较,由表2可知, 使用这些算法增强语音的S D R 值有明显的差别,尤其是在低 信噪比条件下的F a c to r y l 和
B a b b le 噪声,且B a b b le 噪声最为
突出。如图3所示,通过分析实验中的背景噪声频谱可知,
F a c to r y l 和B a b b le 噪声的频率分量功率主要分布在低频段,
而H fc h a n n e l 在中低频段。说明这些算法主要适用于频率分
量功率分布在中低频段的噪声,较难对低频段噪声产生作用。 然而,观察S D R 评估值可知,S R N M F 算法增强效果明显优于 其他算法,能够较好地保存语音特征处理低频段噪声,削弱了 环境的变化对算法性能的影响。
虽然,S R N M F 算法在所有噪声环境下的平均P E S Q 值变化不 大,但是该算法有较高的S D R 值。可见,本文算法增强效果 比其他算法要好。
图4为不同算法在输人信噪比为0 d B ,背景噪声为
H fc h a n n e l 噪声时的语谱图。语谱图上颜的深浅反映语音
数据能量的大小,颜越深说明语音能量越强。由图4可知,
N M F 、文献[12]算法和文献[13]算法消噪能力较低,语音段
明显存在大量的残佘噪声。通过分析实验数据可知,虽然在 目标函数中引人噪声约束项或稀疏项可以达到增强的目的,
N H -褂鲮
f
3 2 1
C £
-鞒磨
1180计算机应用第38卷
4结语
针对非负矩阵分解在单通道语音增强算法中应用存在的 一些问题,本文提出了稀疏正则非负矩阵分解的语音增强算 法。该算法通过在目标函数中的正则项中引人噪声项及稀疏 约束项,对带噪语音进行增强,较好地保留了语音信号的基本 信息,具有较好的噪声抑制能力。实验结果表明,在不同环境 噪声和不同信噪比条件下,本文算法比NMF算法和文献[12 -13]算法能够更好地抑制背景噪声,提高语音质量和可懂 度。但是在实际应用中,语音还存在空间信息,而单通道语音 增强算法缺少该项特征,需要进一步研究多通道语音增强算 法下的性能。
参考文献(R eferences)
[1] E P H R A I M Y, MAT,AH D. Speech enhancement using a minimum-
mean square error short-time spectral amplitude estimator [J].IEEE
Transactions on Acoustics Speech & Signal Processing, 2003, 32
(6): 1109-1121.
[2]蔡宇,郝程鹏,侯朝焕.采用子带谱减法的语音增强[J].计算
机应用,2014, 34(2): 567 -571. (CAI Y,H A O C P,H O U    C H.
Speech enhancement based on subbeind spectrum subtraction g i l g o-
rithm[ J].Journal of Computer Applications, 2014, 34(2): 567 -
571.)
[3] J A B L O U N F, C H A M P A G N E B. Incorporating the human hearing
properties in the signal subspace approach for speech enhancement
[J].IEEE Transactions on Speech & Audio Processing, 2010, 11
(6): 700 -708.
[4] X U Y, D U J, DAI L R, e t a l. An experimental study on speech en­
hancement based on deep neural networks [J].IEEE Signal Pro­
cessing Lett e r s, 2014, 21(1): 65 -68.
[5] X U Y, D U J,DAI L R, et £i l. A regression approach to speech en-
hancement based on deep neural networks [J].IEEE/ACM Trans­
actions on Audio Speech & Language Processing, 2015, 23( 1): 7
-19.
[6] LEE D D, S E U N G H S. Algorithms f o r non-negative matrix f a c t o r i z a-
t i on[ C]// NIPS 2000: Proceedings of the 13th International Confer­
ence on Neural Information Processing Systems. Cambridge, MA:
MIT Press, 2000: 556 -562.
[7] K W O N K, SHIN J W, KIM N S.NMF-based speech enhancement
using bases update [J].IEEE Signal Processing Lett e r s,2015, 22
(4): 45〇_454.
[8] M O H A M M A D I H A N, SMA R A G D I S P, LEIJON A. Supervised and
unsupervised speech enhancement using nonnegative matrix f a c t o r i­
zation [J].IEEE Transactions on Audio, Speech, and Language
Processing, 2013, 21(10): 2140-2151.
[9]卢宏,赵知劲,杨小牛.基于行列式和稀疏性约束的N M F的欠
定盲分离方法[J].计算机应用,2〇11, 31(2):553 -555.(LU
H, Z H A O Z J,Y A N G X N. Algorithm for underdetermined blind
source separation based on D S N M F [J]• Journal of Computer Appli­cations, 2011, 31(2): 553 -555.)
[10] O'GRADY P D, P E A R L M U T T E R B A. Discovering speech phones
using convolutive non-negative matrix f a ctorisation with a sparseness
constraint [J].Neurocomputing, 2008, 72(1/2/3): 88 -101. [11] V U T T, BIGOT B, C H N G E S.Combining non-negative matrix
factorization and deep neural networks for speech enhancement and
automatic speech recognition[ C]// Proceedings of the 2016 IEEE
International Conference on Acoustics, Speech and Signal Process­
i n g.Piscataway, NJ: IEEE, 2016: 499 -503.
[12] Z H A N G L, C H E N Z, Z H E N G M, e t a l.Robust non-negative ma­
t r i x factorization [J]. Frontiers of E l e c t r i c e i l&Electronic Engineer­
ing in China, 2011, 6(2):192-200.
[13] H E W, Z H A N G H Y, Z H A N G L P. Spareity-regularized robust
non-negative matrix factorization for hyperspectral unmixing [J].
IEEE Journal of Selected Topics in Applied Earth Observations &
Remote Sensing, 2016, 9(9): 4267 -4279.
[14] M Y S O R E G J,SMA R A G D I S P. A non-negative approach t o semi-
supervised separation of speech from noise with the use of temporal
dyn£imics[ C]// Proceedings of the 2011 IEEE International Con­
ference on Acoustics, Speech and Signal Processing. Piscataway,
NJ: IEEE, 2011: 17 -20.
[15] C H U N G H, P L O U R D E E, C H A M P A G N E B. Regularized NMF-
based speech enhancement with spectral components modeled by
Gaussian mixtures[C]// Proceedings of the 2014 IEEE Interna-
t ional Workshop on Machine Learning for Signal Processing. Pisca-
taway, NJ: IEEE, 2014: 1 -6.
[16] H A L E E T, YIN W, Z H A N G Y. Fixed-point continuation f o r 11-
minimization: methodology and convergence[ J].SIAM Journal on
Optimization, 2008, 19(3): 1107 -1130.
[17] X U W, LJU X, G O N G Y. Document clustering based on nonnega­
t i v e matrix factorization [C] // Proceedings of the 26th Annueil In­
ternational A C M SIGIR Conference on Research and Development
in Information Retrieval. New York: ACM, 2003: 267 -273. [18] WILSON K W, RAJ B, SMA R A G D I S P, e t a l.Speech denoising
using nonnegative matrix factorization with priors [C ]// ICASSP
2008: Proceedings of the 2008 IEEE International Conference on
Acoustics, Speech and Signed Processing. Piscataway, NJ: IEEE,
2008: 4029 -4032.
[19] RIX A W, B E E R E N D S J G, HOLLIER M P, e t a l.Perceptual E-
valuation of Speech Quality( PESQ) — a new method f o r speech
q u e i l i t y assessment of telephone networks and codecs[ C] // ICASSP
2001: Proceedings of the 2001 IEEE International Conference on
Acoustics, Speech, and Signal Processing. Piscataway, NJ:
IEEE, 2001: 749 -752.
[20] VINCENT E, G R I B O N V A L R, FEVO T T E C. Performance meas­
urement in blind audio source separation [J].IEEE Transactions
on Audio Speech & Language Processing,2006,14(4): 1462 -
1469.
This work i s p a r t i a l l y supported by the S c i e ntific Public Welfare Research Foundation of Liaoning Province (20170056).
JIANG Maosong, bom in 1989, M. S.candidate. His research i n t e rests include modern signal processing, multimedia.
WANG Dongxia, bom in 1975, Ph. D.,professor. Her research i n t e rests include microphone a r ray, speech processing and communication.
NIU Fanglin, bom in 1971, Ph. D.,associate professor. Her research i n t e rests include information theory, channel coding, d i g i t a l fountain codes.
CAO Yudong, bom in 1975, Ph. D.,associate professor. His research i n t e r e s t s include image recognition, image understanding.

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。