稀疏正则非负矩阵分解的语音增强算法--688IT编程网

Journal o f C om puter A p p lica tio n s

计算机应用，2018, 38(4): 1176 -1180ISSN 1001-9081

C O

E N J Y IID U

2018-04-10

h ttp://w w w.jo c a

文章编号：1001-9081(2018)04-1176-05 D O I：10.11772/j.issn.1001-9081.2017092316稀疏正则非负矩阵分解的语音增强算法

蒋茂松：王冬霞 '牛芳琳，曹玉东

(辽宁工业大学电子与信息工程学院，辽宁锦州m o o i)

(*通信作者dxwang_lg@ 126. com)

摘要：对于非负矩阵分解的语音增强算法在不同环境噪声的鲁棒性问题，提出一种稀疏正则非负矩阵分解 (S R N M F)的语音增强算法。该算法不仅考虑到数据处理时的噪声影响，而且对系数矩阵进行了稀疏约束，使其分解出的数据具有较好的语音特征。该算法首先在对语音和噪声的幅度谱先验字典矩阵学习的基础上，构建联合字典矩

阵，然后更新带噪语音幅度谱在联合字典矩阵下的系数矩阵，最后重构原始纯净语音，实现语音增强。实验结果表明，

在非平稳噪声和低信噪比（小于0 d B)条件下，该算法较好地削弱了噪声的变化对算法性能的影响，不仅有较高的信源失真率（S D R)，提高了 1 ~1.5个数量级，而且运算速度也有一定程度的提高，使得基于非负矩阵分解的语音增强算法更实用。

关键词：非负矩阵分解；语音增强；稀疏正则；鲁棒性；联合字典

中图分类号：T N912.35 文献标志码:A

Speech enhancement method based on

sparsity-regularized non-negative matrix factorization

JIANG Maosong, W A N G Dongxia , NIU Fanglin, CAO Yudong

(College o f Electronic and Information Engineering, Liaoning University o f Technology, Jinzhou Liaoning121001, China) Abstract：In order to im prove the robustness o f N on-negative M a trix Factorization(N M F)a lgo rithm fo r speech

enhancem ent in d iffe re n t ba ckground noises,a speech enhancem ent a lgo rithm based on S parsity-regularized R obust N M F (S R N M F)was proposed,w h ich takes in to account the noise effect o f data processing,and makes sparse constraints on the co e fficie n t m a trix to get be tte r speech characteristics o f the decomposed data.F irs t,the p rio r d ictio n a ry o f the am plitude spectrum o f speech and noise were learned and the jo in t d ic tio n a ry m a trix o f speech and noise were con structe d.Th e n,the S R N M F a lgo rithm was used to update the co e fficie n t m a trix o f the a m plitude spectrum w ith noise in the jo in t d ictio n a ry m a trix.

F in a lly,the o rig in a l pure speech was reconstructed,and enhanced.The speech enhancem ent perform ance o f the S R N M F

algo rithm in d iffe re n t environm ental noise was analyzed through sim u la tio n experim ents.E xperim enta l results show th a t the proposed a lgo rithm can e ffe ctive ly weaken the in flu e n ce o f noise changes on perform ance u n der non-stationary environm ents and low S ignal-to-N oise R atio(

SN R) ( < 0 d B),it not o n ly has about1-1.5 m agnitudes im provem ent in Source-to-D is to rtio n R atio(SDR)scores,b u t also is faster than oth er algo rithm s,w h ich makes the N M F-based speech enhancem ent a lgo rithm more

p ra c tic a l.

Key words：N on-negative M a trix F a ctoriza tion (N M F);speech enhancem ent;spa rsity-re g u la riza tio n;robustness;jo in t dictio n a ry

〇引言

语音增强旨在提高被各种各样噪声干扰的语音质量和可懂度，它是语音通信、语音编码和语音识别等诸多领域的基础，是语音信号处理领域重要的分支。

单通道语音增强算法包括最小均方误差（M in im u m Mean

Square E rro r,M M S E)估计[1]、谱减法[2]、子空间[3]及近年来提出的深度神经网络（Deep N e u ra l N e tw o rk,D N N)方法[4_5]

等。这些方法在一定程度上改善了带噪语音的质量。这些增

强算法或是基于统计模型或是较少使用语音和噪声的先验信

息，因此，在不同环境噪声条件下，尤其是在非平稳噪声环境下语音增强的性能下降。

非负矩阵分解（N on-negative M a trix F a c to riz a tio n,N M F)是一种新的矩阵分解算法W，与传统的矩阵分解算法相比，它具有物理意义强、实现简单、存储空间小等优点。基于非负矩阵分解的语音增强算法[7]充分利用了带噪语音的先验信息，通过提取纯净语音和噪声信号子空间谱，建模为非负激活系数加权到基向量的线性组合，进而弥补了常规典型算法的不足。

非负矩阵分解的语音增强算法大致可分为无监督和有监督两大类[8]。前者不需要先验信息、简单易实现，但在非平

收稿日期=2017-09-26；修回日期=2017-10-27。基金项目：辽宁省科学事业公益研究基金资助项目（20170056)。

作者简介：蒋茂松（1989—），男，安徽六安人，硕士研究生，主要研究方向：现代信号处理、多媒体；王冬霞（1975—），女，辽宁锦州人，教授，博士，主要研究方向：阵列、语音处理与通信；牛芳琳(1971—)，女，辽宁锦州人，副教授，博士，主要研究方向：信息论、信道编码、数字喷泉码；曹玉东（1975—），男，辽宁锦州人，副教授，博士，主要研究方向：图像识别、图像理解。

第4期蒋茂松等：稀疏正则非负矩阵分解的语音增强算法1177

稳噪声环境下性能较差；后者需要先验信息，但在非平稳噪声环境下，可以获得更好的增强效果，具有更加明显的优势。

由于训练数据和测试数据的不完全一致性，故有监督 N M F算法存在着训练数据和测试数据间语音特征不匹配的问题，易影响算法的性能。考虑到语音在时频域存在稀疏性，有学者将稀疏约束引人有监督N M F中，提出了稀疏N M F (S parse N M F，S N M F)算法，提高了收敛速度和语音与噪声信号区分度，很好的解决了两者之间语音特征不匹配的问题[9_1°]。考虑到D N N特性，有学者提出联合D N N和N M F的语音增强算法[11]。这些算法虽然能够达到预期效果，但是在处理数据时产生的误差具有随机性且易受到异常噪声等各种因素的影响。此外，N M F分解后的基矩阵和系数矩阵的稀疏度难以控制，容易造成过度拟合和大量残佘噪声剩佘，导致重构语音的严重失真和算法对噪声鲁棒性下降。

针对上述问题，文献[12 ]通过在目标函数中引人噪声约束项，提出了一种鲁棒N M F(Robust N M F,R N M F)算法，以修正非负矩阵分解过程中产生的随机误差。考虑到数据的稀疏性，文献[13]在目标函数中引人系数矩阵的稀疏约束项，提出了一种稀疏R N M F算法，以控制其稀疏度。但是，这两种算法采用的是欧氏距离来度量原始数据与重构数据间的误差，计算目标函数时存在数据点冗余的平方，造成了异常点的误差被放大而影响算法性能。

考虑到语音信号的时间连续性[14]和幅度谱的统计先验知识[15]的一致性，在N M F目标函数中添加由噪声项和稀疏约束项所构成的正则项，以保证分解的数据具有原始语音信号特征，本文在文献[12-13]的基础上进行了改进，提出了 ~'种稀疏正则N M F (S parsity-regularized R obust N M F，S R N M F)的语音增强算法。该算法既能提高不同环境噪声下的鲁棒性，又能减少过度拟合，进而减小重构数据中的残佘噪声和异常噪声对算法的影响，加快收敛，增强语音性能。

1稀疏正则非负矩阵分解算法

l.i非负矩阵分解

设非负矩阵F = [%,,]E R f1，表示经过短时傅里叶变换（S h o rt-tim e F o u rie r T ra n s fo rm，S T F T)后的带噪语音幅度谱或功率谱信息组成的矩阵。非负矩阵分解算法是为了寻一个局部最优的分解w

v=W H(1)其中:〜,，中= 1，2,…，X)和Z(Z = 1，2,…，L)分别代表频

点和时间帧;W =[气J e E分别表示是基矩阵和系数矩阵;M是基向量数。

为了使W和//的乘积结果尽可能地逼近矩阵F，定义一个度量函数D，使其产生最佳的分解结果，即

a r^m in D(V||V)(2)

其中:f l(V||是度量观测数据F与重构数据间的误差散度函数。

1.2 算法描述

文献[12 - 13]以欧氏距离来度量误差散度函数，这样易造成异常点的误差被放大。在文献[10]中，假设噪声服从泊松分布，求解非负矩阵W和的最大对数似然解，得到 K L C K u llb a c k-L e ib le r)散度下的目标函数。然而，标准N M F语音增强算法处理数据时产生的误差具有随意性，算法性能达不到预测效果。为减弱这些问题的影响，引人噪声项£= [e w]E R K'即：+五，能够保护基矩阵W和系数矩阵免受干扰，且增强对噪声等不利因素的抵抗能力，即K L 散度下的目标函数为：

D kl(V,V,E)=

X X [^ _ ^(V ; e)iJ-(v -e)Kl + ik l](3)

为了加强式(3)的稀疏性，在目标函数中添加噪声项£的i〇范数稀疏约束，优化目标函数为：

minE D KL(V,V,E)(4)

其中:r是参数，表示£中最大的非零元素。因为求L0范数很困难，所以采用I I范数替代i0范数的稀疏正则，这是解决稀疏问题的标准方法。然后，式(4)的改写形式为：

m m D KL(V,V,E)+ A ||£ ||,(5)

K L

其中：II五IU= Z Z 1；人彡〇。参数人是£稀疏度和重

k=l 1=1

构误差权衡系数，它控制£的权重，F- £為0保证原始数据

非负性。

由于语音信号在时频域存在稀疏性，因此通过引人稀疏因子来控制系数矩阵的稀疏度[15]，使得基矩阵W成为完备基。故在式(5)中目标函数添加系数矩阵的稀疏惩罚项，用于控制系数矩阵的稀疏性和重构时语音的失真度，将式(3)代人式(5)，目标函数为：

p=X X[~ e)k,ih^^^1'1-(v -e)Kl + + k=1i=1^k,l

A l l^l l, +r l|f f|l i(6)其中:P为目标函数;7奋〇为稀疏因子，决定系数矩阵的稀疏度。

结合文献[12]，采用固定W和//更新优化噪声项，引人软阈值算子[16]操作能够有效地解决更新时出现的凸优化问题，有利于对异常点的处理，使其不受噪声形式的限制，提高算法适应性。定义软阈值函数^/i A( •)表达式为：

{% - X,x >X

X+\,X<-X(7)

〇，其他

其中^E R和A > 0为阈值。式(7)可以扩展到向量和矩阵。

由于目标函数最优解没有唯一性，所以利用文献[17]方法对W的列和//的行进行归一化处理，保持目标函数值不变。然后采用梯度下降法优化代价函数式(6)，得到如下乘法迭代规则[12]:

W^W.*(U V-E)./V)H t)./(1K x L H t)(8)

H^H.*{W T{{V-E)./V))./{W's lKyL+y)(9)

E^soft.(V-W H)(10)其中和代表矩阵的点乘和点除，即对应元素相

1178

计算机应用

第38卷

图1 S R N M F 语音增强算法框架

Fig. 1 Framework of speech enhancement algorithm based on S R N M F

训练阶段：首先分别利用STFT 收集语料库纯净语音和噪声信号的信息，分别将纯净语音和噪声信号的短时幅度谱作为目标矩阵，即為0和y N 奋0；然后通过SRNMF 算法迭代式(8) ~ (10)将语音幅度谱分解

为基矩阵、将噪声幅度谱分解为，将分解的基矩阵和联合保存起来为字典矩阵，即W = [ Ws WN ]，作为增强阶段的先验信息。

增强阶段：分为系数矩阵的在线更新和语音重构两个部分。

在线更新阶段，先通过STFT 得到带噪语音幅度谱F ，

将其幅度谱和训练阶段保存的联合字典矩阵w 作为式(9)的

输人，固定W 不变通过式(9)和（10)迭代更新，直至目标函

数收敛，停止迭代。最后，分别估计出语音信号和噪声信号的

幅度谱t >s 和t >N ，推导如下：

V ^W H =[W S

W N ][//S

H …y =

V s + V s = W S H S +

(12)

语音重构阶段，在重构出语音和噪声的幅度谱之后，

利用文献[18]的维纳滤波简单易实现的优点，以提高算法的

降噪能力与适应性。求得带噪语音增益函数G ，即

G = (Wsf f s )./(Wsf f s + WN f f N) (13)

利用式（13)带噪语音增益估计出纯净语音幅度谱为

F s =

G . *F 。最后，结合带噪语音的相位，对重构幅度谱运

用逆STFT 得到时域上增强的语音信号。

3.1实验参数设置

实验中所用的纯净语音信号取自标准TIMIT 语音库，噪

声取自标准Noise -92噪声库，其中采样频率为16 kHz 。采用三种背景噪声:FaC toryl 工厂车间噪声UHfchannel 高频信道噪声和Babble 餐厅内嘈杂噪声，这些噪声属于非平稳噪声。信号采样率均下采样至8 kHz ，用16 bit 量化。选用20名说话人的语音（10名男性和10名女性），从每个说话人中选择一

个句子，即20个句子约60 s 作为纯净语音的训练数据。每个训练和测试语音信号由6 S (2个句子）信号组成，并且所有的

3买验结果与分析

乘相除;T 代表矩阵的转置;l X xi e 为元素全1矩阵。

2 稀疏正则NMF 的语音增强算法

假设语音信号和噪声信号均为加性信号且互不相关，则带噪语音信号y (0表示为：

y (t ) = s {t ) + n {t )

(11)

其中是纯净语音信号是加性噪声信号。算法结构

如图1所示，即包括训练和增强两个阶段。

训练和测试数据互不交叉。通过将纯净语音信号与噪声信号混合，分别生成信噪比分别为-5 dB 、0 dB 、5 dB 和10 d B 的带噪语音信号。增强算法所采用帧长为512点，帧移为128点，窗选择汉明窗。基向量数满足M 矣X x L/(X + L )标准，在训练阶段纯净语音和噪声维基向量数M 为30，最大迭代次数为 50，分别生成大小为257 x 30纯净语音和噪声字典矩阵，组合成先验联合字典矩阵。

通过利用验证集观察性能来确定权衡系数A U E 丨0.005,0.01，0.05,0.07丨）和稀疏因子 7(7 E [0,2])。图2 表本了当输人信噪比（Signal -to-Noise Ratio ，SNR )为 0 dB 时， Factoryl 噪声背景下的带噪语音经过增强处理后信源失真率 (Source -to-Distortion Ratio ，SDR )值与 A 和 7 之间的关系。

7.06.5

6.0

3.5 ■/

S 〇L

0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0

权衡系数义

3 2

在输人信噪比为0 d B 时Factoryl 噪声下增强语音的平均S D R 值Fig. 2 Average S D R values of the enhginced speech under

Factoryl noise a t input S N R of 0 dB

分另!J 对Hfchannel 和Babble 噪声背景下的带噪语音进行

实验仿真。通过分析可知，随权衡系数A 的增加，增强信源失

真率SDR 平均值趋于平稳，可以通过改变稀因子y 来再度提

高算法性能。最后，实验选取A = 1.8和7 =0.05作为最佳参

数，为了更好地验证本文算法的性能，后续的算法评估均使用该参数。

3.2实验结果与分析

将本文SRNMF 算法与NMF 算法、文献[12 ]算法和文献

[13]算法进行性能比较。采用客观质量评估（Perceptual

Evaluation of Speech Quality , PESQ )方法[19]和信源失真率

SDR [a )]作为语音增强算法性能客观评估标准。PESQ 用来衡

量增强语音的质量，能够反映主观听觉测试结果，较高的

PESQ 值，说明其语音质量越好;SDR 用来衡量增强语音的失

真率，能够反映增强语音中残余噪声所占比，SDR 越大说明残

余噪声越少，语音质量越好。

表1为四种算法单次训练联合字典矩阵所耗时间情况。

虽然文献[12]算法、文献[13]算法和本文SRNMF 算法都在目标函数中引人正则项增加了计算负担，但是NMF 算法的训练时间仍然是它们的2 ~ 3倍，而且本文SRNMF 算法耗时最

表1

不同算法训练时间比较

Tab. 1 Compare the training time of different algorithms 语音增强算法训练时间语音增强算法训练时间N M F 算法13.06文献[13]算法 5.19文献[12]算法

5.47

S R N M F 算法

4.33

r =〇.〇〇5

-C K r =0.01-

-〇- r =o .〇5-

-厶

-r=0.07

第4期蒋茂松等：稀疏正则非负矩阵分解的语音增强算法

1179

1E ■定込m 土目•苜里彳日;V J 丁 m

v ir 畀该权'I 仄0刈！：L 固外汉固T

的矩阵框可知，S R N M F 算法静音段和帧间残佘噪声明显减少，说明该算法具有较好的噪声消除能力。因此，该算法能够有效地减少失真，提高语音质量和可懂度。

2 3 4

t/s

(a )纯净语音 2 3

t/s

(b )带噪语音

褰:

■

骧:

2 3 4

t/s

_\M I 1：法

1 2 3 4 5

t/s

⑷义献算法

蘧:

()

1 2 2 3 4 5

3 4 5

1 3t/s

t/s

(e)文献[13]算法（f ) S R N M F ^：法

图4

输入信噪比为0 d B 时Hfchannel 噪声下各算法的语谱图比较

Fig. 4 Spectrogram of contrast algorithms under

Hfchannel noise a t input S N R of 0 dB

0.8 1.0

0.6

璧().4

^0.2l i i i

■ 0.5

0.0

f w n 1丨丨旧〇.〇l

频率/kHz 频率/kHz 频率/kHz

(a) Factoryl 噪声（b) Hfchannel 噪声（c) Babble 噪声

图3三种背景噪声频域幅度分布

Fig. 3 Amplitude distribution maps of three kinds o f

background noise in frequency domain

综上所述，说明了各算法在三种背景噪声环境和不同信噪比条件下的P E S Q 和S D R 平均值的对比情况。可见，同一算法在相同信噪比及不同背景噪声条件下的性能总趋势为 H fch a n n e l > F a c to ry l > B a b b le ，而且各种算法在 H fch a n n e l 噪声背景下性能最优，S R N M F 算法在该噪声环境下表现出较强的增强效果。随着信噪比提高，其优势逐渐下降，而

S R N M F 算

法仍能保证较强的增强性能。这是由于该算法在目标函数中正则项的引人，能够较好地保护语音时频域特性，削弱了非平稳类噪声的影响，同时也降低了误差随机性，使其具有较强的鲁棒性，发挥了 N M F 算法在低信噪比条件下的优势。在高信噪比条件下,S R N M F 算法对提高语音质量优势较弱。在低信噪比环境下,S R N M F 算法增强效果较为显著，说明该算法对噪声的抵抗能力较强，能够削弱异常噪声的影响。总体来看，

少。说明使用K L

散度下的目标函数及其正则约束，可以提高算法收敛速度，减小字典训练时间，提高算法实用性。

表2为三种背景噪声和不同信噪比下的P E S Q 和S D R 平均值比较。在实验中，标准N M F 算法没有

特别针对噪声处理的措施，故在不同噪声环境下的增强语音的P E S Q 值有明显的差别，而文献[12]算法和文献[13 ]算法在求解目标函数时

都引人了噪声项，能够在一定程度上削弱噪声的影响，但是效果不是十分明显。虽然在不同背景噪声环境下本文S R N M F 算法有一定的差别，但是这种差异不大，说明背景噪声变化对其性能影响较弱，体现了该算法具有较好鲁棒性。随着信噪比提高，语音质量也相应地提高，且总体上高于其他算法，较稳定。

表2

不同算法增强语音的P E S Q 和S D R 平均值比较

Tab. 2 Average PESQ and SD R comparison of enhanced speech by different algorithms

评估

准则

Factoryl

Hfchannel Babble 处埋力拔-5 dB O d B 5d B 10 dB -5 dB O d B 5d B 10 dB -5 dB O d B 5 dB 10 dB 原始带噪语音 1.57 1.85 2.19 2.55 1.38 1.60 1.89 2.23 1.67 1.92 2.28 2.63N M F 算法

1.89

2.18 2.51 2.84 1.82 2.11 2.40 2.69 1.82 2.07 2.48 2.75PRSQ 文献[12]算法

1.82

2.20 2.60 2.95 1.76 2.06 2.39 2.78 1.88 2.11 2.51 2.83文献[13]算法 1.85 2.25 2.59 2.93 1.75 2.18 2.40 2.83 1.73 2.08 2.52 2.86S R N M F 算法

1.96

2.32 2.62 2.90 1.88 2.21 2.46 2.72 1.93 2.21 2.53 2.89原始带噪语音-4.890.05 5.0410.03-4.850.07 5.0510.04-4.610.21 5.1310.09N M F 算法 1.05

5.679.9514.20 2.49

正则化与稀疏6.6310.5314.02-2.26 2.38 6.9510.37SDR

文献[12]算法0.85 6.0710.6114.74 2.33 6.3710.2714.33-2.48 3.427.9612.50文献[13]算法0.98 6.3110.4914.78 2.137.1010.4714.49-3.09 2.578.2312.50S R N M F 算法

2.21

7.07

11.08

14.15

3.65

7.50

10.82

13.93

-1.69

3.97

9.10

12.63

对各算法在不同背景噪声环境下进行比较，由表2可知，使用这些算法增强语音的S D R 值有明显的差别，尤其是在低信噪比条件下的F a c to r y l 和

B a b b le 噪声，且B a b b le 噪声最为

突出。如图3所示，通过分析实验中的背景噪声频谱可知，

F a c to r y l 和B a b b le 噪声的频率分量功率主要分布在低频段，

而H fc h a n n e l 在中低频段。说明这些算法主要适用于频率分

量功率分布在中低频段的噪声，较难对低频段噪声产生作用。然而，观察S D R 评估值可知,S R N M F 算法增强效果明显优于其他算法，能够较好地保存语音特征处理低频段噪声，削弱了环境的变化对算法性能的影响。

虽然，S R N M F 算法在所有噪声环境下的平均P E S Q 值变化不大，但是该算法有较高的S D R 值。可见，本文算法增强效果比其他算法要好。

图4为不同算法在输人信噪比为0 d B ，背景噪声为

H fc h a n n e l 噪声时的语谱图。语谱图上颜的深浅反映语音

数据能量的大小，颜越深说明语音能量越强。由图4可知,

N M F 、文献[12]算法和文献[13]算法消噪能力较低，语音段

明显存在大量的残佘噪声。通过分析实验数据可知，虽然在目标函数中引人噪声约束项或稀疏项可以达到增强的目的,

N H -褂鲮

■

3 2 1

C £

-鞒磨

1180计算机应用第38卷

4结语

针对非负矩阵分解在单通道语音增强算法中应用存在的一些问题，本文提出了稀疏正则非负矩阵分解的语音增强算法。该算法通过在目标函数中的正则项中引人噪声项及稀疏约束项，对带噪语音进行增强，较好地保留了语音信号的基本信息，具有较好的噪声抑制能力。实验结果表明，在不同环境噪声和不同信噪比条件下，本文算法比NMF算法和文献[12 -13]算法能够更好地抑制背景噪声，提高语音质量和可懂度。但是在实际应用中，语音还存在空间信息，而单通道语音增强算法缺少该项特征，需要进一步研究多通道语音增强算法下的性能。

参考文献（R eferences)

[1] E P H R A I M Y, MAT,AH D. Speech enhancement using a minimum-

mean square error short-time spectral amplitude estimator [J].IEEE

Transactions on Acoustics Speech & Signal Processing, 2003, 32

(6): 1109-1121.

[2]蔡宇，郝程鹏，侯朝焕.采用子带谱减法的语音增强[J].计算

机应用，2014, 34(2): 567 -571. (CAI Y，H A O C P，H O U C H.

Speech enhancement based on subbeind spectrum subtraction g i l g o-

rithm[ J].Journal of Computer Applications, 2014, 34(2): 567 -

571.)

[3] J A B L O U N F, C H A M P A G N E B. Incorporating the human hearing

properties in the signal subspace approach for speech enhancement

[J].IEEE Transactions on Speech & Audio Processing, 2010, 11

(6): 700 -708.

[4] X U Y, D U J, DAI L R, e t a l. An experimental study on speech en

hancement based on deep neural networks [J].IEEE Signal Pro

cessing Lett e r s, 2014, 21(1)： 65 -68.

[5] X U Y, D U J,DAI L R, et £i l. A regression approach to speech en-

hancement based on deep neural networks [J].IEEE/ACM Trans

actions on Audio Speech & Language Processing, 2015, 23( 1): 7

-19.

[6] LEE D D, S E U N G H S. Algorithms f o r non-negative matrix f a c t o r i z a-

t i on[ C]// NIPS 2000: Proceedings of the 13th International Confer

ence on Neural Information Processing Systems. Cambridge, MA:

MIT Press, 2000： 556 -562.

[7] K W O N K, SHIN J W, KIM N S.NMF-based speech enhancement

using bases update [J].IEEE Signal Processing Lett e r s,2015, 22

(4)： 45〇_454.

[8] M O H A M M A D I H A N, SMA R A G D I S P, LEIJON A. Supervised and

unsupervised speech enhancement using nonnegative matrix f a c t o r i

zation [J].IEEE Transactions on Audio, Speech, and Language

Processing, 2013, 21(10): 2140-2151.

[9]卢宏，赵知劲，杨小牛.基于行列式和稀疏性约束的N M F的欠

定盲分离方法[J].计算机应用，2〇11, 31(2):553 -555.(LU

H, Z H A O Z J,Y A N G X N. Algorithm for underdetermined blind

source separation based on D S N M F [J]• Journal of Computer Applications, 2011, 31(2)： 553 -555.)

[10] O'GRADY P D, P E A R L M U T T E R B A. Discovering speech phones

using convolutive non-negative matrix f a ctorisation with a sparseness

constraint [J].Neurocomputing, 2008, 72(1/2/3): 88 -101. [11] V U T T, BIGOT B, C H N G E S.Combining non-negative matrix

factorization and deep neural networks for speech enhancement and

automatic speech recognition[ C]// Proceedings of the 2016 IEEE

International Conference on Acoustics, Speech and Signal Process

i n g.Piscataway, NJ: IEEE, 2016: 499 -503.

[12] Z H A N G L, C H E N Z, Z H E N G M, e t a l.Robust non-negative ma

t r i x factorization [J]. Frontiers of E l e c t r i c e i l&Electronic Engineer

ing in China, 2011, 6(2)：192-200.

[13] H E W, Z H A N G H Y, Z H A N G L P. Spareity-regularized robust

non-negative matrix factorization for hyperspectral unmixing [J].

IEEE Journal of Selected Topics in Applied Earth Observations &

Remote Sensing, 2016, 9(9): 4267 -4279.

[14] M Y S O R E G J,SMA R A G D I S P. A non-negative approach t o semi-

supervised separation of speech from noise with the use of temporal

dyn£imics[ C]// Proceedings of the 2011 IEEE International Con

ference on Acoustics, Speech and Signal Processing. Piscataway,

NJ: IEEE, 2011: 17 -20.

[15] C H U N G H, P L O U R D E E, C H A M P A G N E B. Regularized NMF-

based speech enhancement with spectral components modeled by

Gaussian mixtures[C]// Proceedings of the 2014 IEEE Interna-

t ional Workshop on Machine Learning for Signal Processing. Pisca-

taway, NJ: IEEE, 2014: 1 -6.

[16] H A L E E T, YIN W, Z H A N G Y. Fixed-point continuation f o r 11-

minimization: methodology and convergence[ J].SIAM Journal on

Optimization, 2008, 19(3): 1107 -1130.

[17] X U W, LJU X, G O N G Y. Document clustering based on nonnega

t i v e matrix factorization [C] // Proceedings of the 26th Annueil In

ternational A C M SIGIR Conference on Research and Development

in Information Retrieval. New York: ACM, 2003: 267 -273. [18] WILSON K W, RAJ B, SMA R A G D I S P, e t a l.Speech denoising

using nonnegative matrix factorization with priors [C ]// ICASSP

2008: Proceedings of the 2008 IEEE International Conference on

Acoustics, Speech and Signed Processing. Piscataway, NJ: IEEE,

2008: 4029 -4032.

[19] RIX A W, B E E R E N D S J G, HOLLIER M P, e t a l.Perceptual E-

valuation of Speech Quality( PESQ) — a new method f o r speech

q u e i l i t y assessment of telephone networks and codecs[ C] // ICASSP

2001: Proceedings of the 2001 IEEE International Conference on

Acoustics, Speech, and Signal Processing. Piscataway, NJ:

IEEE, 2001： 749 -752.

[20] VINCENT E, G R I B O N V A L R, FEVO T T E C. Performance meas

urement in blind audio source separation [J].IEEE Transactions

on Audio Speech & Language Processing，2006，14(4): 1462 -

1469.

This work i s p a r t i a l l y supported by the S c i e ntific Public Welfare Research Foundation of Liaoning Province (20170056).

JIANG Maosong, bom in 1989, M. S.candidate. His research i n t e rests include modern signal processing, multimedia.

WANG Dongxia, bom in 1975, Ph. D.,professor. Her research i n t e rests include microphone a r ray, speech processing and communication.

NIU Fanglin, bom in 1971, Ph. D.,associate professor. Her research i n t e rests include information theory, channel coding, d i g i t a l fountain codes.

CAO Yudong, bom in 1975, Ph. D.,associate professor. His research i n t e r e s t s include image recognition, image understanding.

688IT编程网

稀疏正则非负矩阵分解的语音增强算法

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

稀疏正则非负矩阵分解的语音增强算法

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式