恶劣环境中基于频谱波纹和最小统计的低延迟噪声估计.docx
《恶劣环境中基于频谱波纹和最小统计的低延迟噪声估计.docx》由会员分享,可在线阅读,更多相关《恶劣环境中基于频谱波纹和最小统计的低延迟噪声估计.docx(14页珍藏版)》请在冰点文库上搜索。
恶劣环境中基于频谱波纹和最小统计的低延迟噪声估计
LOW-DELAYNOISEESTIMATIONBASEDONSPECTRUMRIPPLESANDMINIMUMSTATISTICSINADVERSEENVIRONMENTS
恶劣环境中基于频谱波纹和最小统计的低延迟噪声估计
摘要:
本文提出了一个新的噪声估计算法来减少在极度非平稳的噪音条件下的估计延时。
由于谱图中的谐波波纹对于人们确定语音是很重要的存在,基于这些波纹的特征,我们提出来一个新能源独立的特点来检测变化的噪音。
如果噪音出现了,传统的最低限度的噪音统计(MS)被迫更新来跟上噪音的变化。
这个方案可以在出现一个长的语音时防止噪音层次(MS)的错误提升。
所提出的算法的表现经过了性能结果的估价和全面客观地测量。
对比于其他的噪声估计算法取得了优异的表现。
关键词:
噪音估计,非平稳噪音,语音增强,语音/非语音的发现
1引言
噪音估计是一个在恶劣环境中基本的真实语音增强算法。
在多数增强算法中,噪音的谱统计是事先预定的,但是在非平稳噪音的情况下,语音处理必须面对具有挑战性的噪音的有效和快速估计的问题。
然而,大部分的自适应噪声估计算法在跟踪噪声能量的变化时有较长的滞后。
已经做出许多努力来解决这个问题。
一般来说,被报道的主要有两种方式。
第一个包括噪声估值基于语音活动检测器(VADs),它从非活动语音中区分出活动语音并且在语音缺少期间重新估计噪声频谱,比如VAD使用LPC高阶积累量的残留[1].软判决(SD)方案能够在最近建议的语音活动期间更新噪声功率谱密度(psd)[2,3].SD的方式采用决策指示(DD)的方法来做信号-噪声比(SNR)的鲁棒估计,以及采用派生语音不存在的概率(SAP)进行似然比检验,这是用来调整长期背景噪声的平滑。
这种方法被用在[5]评价许多语音增强算法中。
第二种方式的原理是通过提出一个最小统计(MS)的方法[6].它基于一个简单的观察发现,就是嘈杂的语音信号的功率通常衰减到干扰噪声的功率电平。
然后通过跟踪最小噪声信号的psd,可以精确地推导出噪声估计。
这个想法被许多其他的研究人员采纳了。
SD和MS通过提出一个最小值递归控制的算法(MCRA)进行了相结合[7]。
类似的方法也用在了[8]中通过提出一种基于sap的联合概率。
这些方法的主要缺点是,适应时间取决于所选择的搜索窗口的尺寸。
长窗口会导致长时间的延迟,而短窗口可能会导致噪声的过高估计。
通过不断地更新本底噪声一个快速的适应方法在[9]中提出了。
然而,连续平滑在长语音出现的情况下可能会导致本底噪声的慢慢上移。
由于上面提到的大部分的方法是基于不同版本的SNR估计的,当噪声能量突然增大时会有不可避免的延迟。
因此[10]提出了傅里叶平均幅度的变化差函数(AMDF)以及[11]中采用了浊音决定的谐波综合。
本文提出了一种在恶劣环境中快速的进行噪音估计的方法。
其主要原理是人们通常使用谱图中显示的谐波波纹来决定高度嘈杂的条件中语音的存在。
根据这些噪音与语音之间的波纹的不同特点,当检测到电源起始后,一个新的能源独立的检测器被用于区分语音/噪声的存在。
然后,最小值跟踪程序进行相应的调整。
本文的其余部分安排如下:
第2节介绍了该算法。
第3节评估了这个方法通过定性的结果和客观措施的测量。
第4节总结全文。
2.算法描述
让噪音抑制的语音在时域中表示为y(n)=x(n)+d(n),
(1)
其中,x(n)是纯净语音,d(n)是加性噪声。
所观察到的信号y(n)被分成重叠帧并通过FFT分析。
具体来说,
(2)
其中,λ是帧索引,k是频率窗口索引,h()是大小为N的分析窗口,并且R是窗口移动长度。
2.1基于特征的频谱波纹
由于MS和SD基于的噪声估计都参照的是信号功率的变化,噪声功率的快速增加可能会被错误地认为是语音的出现,导致噪音适应的延迟。
所以除了信噪比的线索,我们往往利用其它信息进行语音/噪声的鉴别,尽可能快的调节噪声适应进程,特别是在恶劣环境中。
图片1,表示一个从NOIZEUS资料库中选定的语音文件(SNR=5分贝,传音噪声)。
(a)所示的是含有噪音的语音频谱图。
(b)表示的是相应的波形。
(c)表示的是纯净语音的波形。
我们发现人们很容易定位语音的位置在频谱图中,即使在较低的SNR情况下。
采纳的主要信息可能是出现在频谱图中的谐波波纹的有声语音信号。
图片1绘制了一个例子,其中,图片1(a)表示一个噪声抑制语音信号的谱图,图片(b)是信号的波形,图片(c)是纯净语音信号的波形。
显然,这是很那在图片1(b)中定位语音的位置,而很容易在图片1(a)中定位它们。
所涉及的最吸引人的信息可能是谱图中的谐波波纹。
一般来说,这些波纹的能量主要集中在靠近主共振峰的位置,显著地高于它的临近位置波纹的能量。
此外,这些波纹通常会持续一会儿,并且由于浊音的间距没有大的改变,它们看起来像横向波纹。
然后,我们想象频谱图作为图像,利用模式匹配的方法来强调这些横向波纹和抑制频谱的另一部分。
然而,这些波纹变化的范围可能会很大,这使得很难选择一个合适的模式,所以我们首先把功率谱归一化。
具体来说是,
(3)
其中,Y(λ,k)表示归一化的频谱。
归一化之后,波纹的峰值都被缩放到一。
根据波纹的特性,我们设计了一个简单的模型为
(4)
其中M是模型的宽度。
然后我们使用互相关函数作为图像Y(λ,k)和模型b之间的匹配方法。
我们可以推断,频谱中与模型相似部分的相应结果将比其它部分的更大,表明波纹信息被增强了。
该互相关定义为
(5)
其中,b(m,l)是模型b的元素。
然后我们将互相关图像去归一化来重建频谱图通过
(6)
图2(a)示出了结果谱图,图2(b)画出了原始信号和结果信号的功率曲线。
图2.图1(a)的结果谱图。
图2(b)的原始信号以及结果信号的功率曲线。
我们可以发现,模型匹配处理后,原始谱图中波纹的区域被放大,其它区域被抑制。
图2(b)更明显了,其中有声语音信号的能量增加,背景噪音能量被抑制。
基于以上的讨论,我们提出了一个区分语音/噪声的新功能,它表示波纹通过模型匹配后的能量变化规律,特别是
图3画出了所有的噪声抑制语音信号和NOIZEUS资料库中的噪声信号的D(λ)的比较直方图,注意,VAD的标签是根据纯净信号的标注的。
噪声类型包括机场,汽车,会展厅,餐馆,车站,街道和火车等等。
信噪比从0dB到15dB不同。
图案宽度设置为3帧,也就是,M=3.
图3.噪声抑制语音信号和NOIZEUS资料库中的噪声信号的D(λ)的比较直方图,VAD是根据纯净信号的标注的。
图3表明,大多数语音信号的能量增加,而大多数噪音信号的能量减少了。
尽管这并不总是正确的,因为VAD还能够检测出无声语音,它在频谱图中没有波纹,而且一些噪音具有与之相似的波纹在频谱图中,这些D(λ)的结果仍然有助于在多数情况下的稳定性。
我们尝试着用它作为一种辅助检测器来减少正常噪音估计技术的估计延迟,尤其是噪音突然增加时。
2.2起始能源检测
传统估计的估计延迟通常发生在能量迸发的瞬间,其中后验信噪比的快速增加将防止本底噪声更新直到搜索窗的结束。
因此我们选择使用波纹措施来确定噪音/语音的存在,只要能量开始被检测到。
这种方案的优点是,一个开始点通常意味着一个强烈的语音或者噪音的迸发。
如果语音出现,较高分段信噪比将会导致更清晰的波纹。
能量起始点检测是基于信号PSD[6]的最佳平滑,其被估计为
其中,α(λ,k)为在[6](式(11))提出的最终的平滑参数。
然后帧相关的后验信噪比定义为
其中σN2是噪声PSD的估计。
然后一帧被划分为开始或不根据
其中L为起始点检测的窗口长度,Ωth是一个预定义的阈值。
I(λ)=1表示λ个帧被标记为可能的开始点。
2.3.语音/噪声区分
在检测到起始点之后,就采用一个语音/噪声分类方案来确定每个频率窗口噪声基底的更新状态。
如果噪声出现,基底应该尽快的遵循变化。
否则,它们将不会变化。
检测到起始点之后,采用假设的测试方法来区分语音/噪声的存在。
假设H0表示噪声的存在和H1表示语音出现,这两种假说之间做出选择最佳的测试是一个似然比检验,它由下式给出
其中,p(O|Hi),i=0,1,是评价所观察到的音频段O的假设Hi的概率密度函数,也被称为给出的音频段假说Hi的可能性。
Ho的接受或拒绝的判决门限为θ。
我们使用一个向量
D={D(λ‘),D(λ'+1)……,D(λ+T)来表示起始点λ’之后的音频段,其中T是段的长度。
高斯混合模型(GMM)具有对角协方差矩阵用来表示H0和H1,分别表示为GMM0和GMM1.这两种GMM与所有的包含在NOIZEUS语料库中的信号进行混合通过期望最大化算法(EM)。
我们简单地假设GMM0的每一个混合物是指一种噪声,以便使GMM0的混合物的数量被设置为8。
相应地,GMM1的混合物的数量也被设置为8。
通常情况下,似然比检测器用于其对数的形式下,即所谓的对数似然比(LLR)检测器。
因此我们使用LLR作为语音/噪声检测器,它被定义为
然后,假设检验变为
该探测器不仅用于快速更新的基底噪声,还能在长语音的情况下防止基底的虚假增加。
2.4.改进最小统计跟踪
我们就如在[6]中提出的MS使用类似最小跟踪的策略。
MS方法的基本意思是不断地找到最小D之后的psd估计P(λ,k).所以当前的信号能量减少时它很灵敏的更新噪声估计。
然而,当前信号的能量增加时,噪声更新时总是出现长时间的延迟。
选择MS方法的原理是最小跟踪策略可以帮助纠正语音/噪声识别错误所造成的基底噪声的虚假增加。
对于MS,具体而言,为了平衡计算复杂度和极小值的更新率,D采样窗口被分成V采样的U子窗口(UV=D)。
每当读取V样例时,当前最小的子窗口被确定并存储在队列中。
将当前子窗口和U之前子窗口的最小值作为总体的最小值。
由于最小噪声估计总是比平均值更小,故MS方法为了达到无偏噪声psd估计采用了偏置补偿。
改进的算法总结于图4。
主要的区别被标记为粗体字和一些MS的细节参考[6]。
我们用actmin(λ,k)和actmin_sub(λ,k)分别表示整体和子窗口的运行最小值的估计,
Subwc表示一个子窗口内的帧的计数器,delayLen作为用于区分语音/噪声的段内帧的另一个计数器。
图4,改进后的最小统计噪声估计算法
3.性能评价
对于性能评价,选择[6]中的MS的方法和改进的[7]中的MCRA(IMCRA)作为比较算法。
为了公平起见,当与MS和IMCRA相比较时,我在我们的估计中试着使用相同的参数。
该参数对8kHz的采样率进行了优化:
R=80(10ms);N=256(32ms);H()是一个汉明窗,L=5;D=40,U=5,V=8.由于(10)中和(13)中的阈值的确定是十分重要的对于噪声检测,我们首先采用不同的阈值来评估语音/噪声检测器的性能。
然后定性结果和总体的客观比较都参与到评价我们的估计值中来。
采用三种语音增强方法:
对数的最小均方差[12](logMMSE),多频带(MB)谱减法,基于听觉掩蔽特性的增强[14](Virag).logMMSE是一个基于语音信号的统计假设的著名增强算法。
MB是最近的主观增强评价[5]所推荐的一种改进的谱减法算法。
Virag的算法是出于人类听觉系统的掩蔽特性。
3.1评价数据库
为了模拟非平稳噪声的情形,我们随机从TIMIT数据库中选择10个句子(5男5女),并将它们重采样到8千赫兹。
我们的数据库中的每个干净的测试文件包括两个语音样本和两个沉默部分,这是随机级联。
噪声样本是从Noisex-92的数据库中选择的,其中包含了各类噪音除了机枪噪声。
我们使用功率调制方法来修改原始的噪声来模拟恶劣环境。
载波频率分别为0.2Hz,0.1Hz和0.05Hz。
调制噪声的剪辑添加到干净的信号。
整体信噪比为0dB,5分贝和10分贝。
注意,当计算语音电平时,沉默忽略不计。
评价数据库包括162个混合文件共有32分钟的长度。
3.3语音/噪声检测器的性能
我们使用检测误差权衡(DET)曲线[16]来表示本文提出的语音/噪声检测器的性能。
其结果示于图5。
具体来说,考虑了Ωth的不同的阈值就像3分贝,5分贝,10分贝。
一个具有8种混合物的GMM和一个对焦协方差矩阵分别被用于模拟语音信号和噪声信号。
训练数据均来NOIZEUS语料库。
功能指的是(7)。
选择我们的评测数据库中的所有嘈杂的样本来进行辨别测试。
使用基于能量VAD方法按照纯净的样品对所有的语音部分进行标记。
图5示出了随着起始探测器阈值的增加,语音/噪声辨别的表现也越来越好,而当阈值设置为3分贝,语音/噪声辨别的相等错误率(ERR)为20%,这意味着大部分噪声的微小增加可以被检测到。
需要注意的是噪声层的错误增加将通过下面的最小的跟踪策略纠正。
下述实验的Ωth设置为3和θ被
设置为0
图5不同起始探测器阈值的语音检测结果DET曲线。
3.3定性结果
我们开始我们实验结果的介绍采用级联的例子,其中一个被串音信号(SNR=10dB)抑制的语音信号与另一个语音信号级联,它是由汽车噪声(SNR=0分贝)抑制的。
图6绘制了周期图,平滑周期图,MS估计,IMCRA估计及建议估计值(频点κ=15)。
我们看到,提出估计跳跃最快噪声爆裂约2.6S,延时大约为0.25秒。
MS延迟约0.5秒,IMCRA延迟1秒左右。
另外,由提出的估计法,噪声层在MS和IMCRA中约1秒和2秒的2个虚假的增加得以避免。
图7绘制了一个更复杂的例子的比较谱图,其中级联了四个不同的嘈杂文件。
在2.8S,5.8S和7.9s噪声变化。
信噪比轮流为15分贝,0分贝,10分贝和5分贝。
两个短箭头指向噪音起始点。
很明显,MS方法的延迟造成很大的残留噪声,而IMCRA的做法是更加糟糕。
需要注意的是噪音的变化在5.8S被所有的方法检测到,因为极小搜索策略对噪声的敏感减少。
维拉格增强算法在这里也适用。
图7.四个不同的嘈杂文件的混合例子的对比谱图。
从上到下:
干净的信号,噪声信号,
MS估计增强结果,IMCRA估计,提出的估计法的增强结果。
3.4总体客观评价
我们计算真实的噪声谱和推测噪音谱之间的相对总均方误差[11]来评估噪声估计的准确度为
我们采用语音质量的修饰感知评估(PESQ)[15]与促进语音增强的噪音估计进行比较。
MSE的结果示于图8,PESQ结果列于表1。
在图8和表1所示的客观指标表明,该算法可以提供一个比MS和IMCRA相对一致的改进。
IMCRA的MSE结果对载波频率非常敏感。
当调制频率从0.05Hz的上升为0.2Hz时,他们显著增加。
这些结果意味着,所提出的估计器可以快速地跟踪变化的噪声,从而提供比那些MS和IMCRA更准确的估计。
在不同的增强算法的比较结果中,也发现了我们估计器的改进。
具体来说,MB和维拉格的增强算法实现比logMMSE更好的结果,和所提出的估计器一起,3种算法的PESQs都增加了。
图8.提出的,MS和IMCRA估计的MSE结果。
4.总结
本文主要针对在高度非平稳环境下的噪声估计问题。
通过考虑频谱脉动的特性提出了一种新的噪声估计算法,并且导出一个新的功能用来帮助辨别语音/噪音的存在。
该功能提供更多有用的信息,以确定信号类型,尤其是当后验信噪比突然增大时。
这导致更短的延迟比以前的最小搜索策略,即MS和IMCRA。
此外,新算法也可以避免存在长语音时噪声层次的虚假增加。
定性结果和客观的评估表明我们的算法的性能很好。
5.参考文献
[1]E.Nemer,R.Coubran,andS.Mahmoud,"Robustvoiceactivitydetectionusinghigher-orderstatisticsintheLPCResidualdomain,"IEEETrans.SpeechAudioProcess.,vol.9,pp.217-231,Mar.2001.
[2]J.Sohn,N.S.Kim,andW.Sung,"Astatisticalmodel-basedvoiceactivitydetection,"IEEESignalProcess.Lett.,vol.6.no.1,pp.1-3,Jan.1999.
[3]J.H.Chang,N.S.Kim,andS.K.Mitra,"Voiceactivitydetectionbasedonmultiplestatisticalmodels,"IEEETrans.SignalProcess.,vol.54,no.6,pp.1965-1976,June,2006.
[4]Y.Ephraim,D.Malah,"Speechenhancementusingaminimummean-squareerrorshort-timespectralamplitudeestimator,"IEEETrans.Acoust.,Speech,SignalProcess.,vol.32,no.6,pp.1109-1121.Dec.1984
[5]Y.Hu,P.C.Loizou,"Subjectivecomparisonandevaluationofspeechenhancementalgorithms,"SpeechCommun.,vol.49,pp.588-601,2007.
[6]R.Martin,"Noisepowerspectraldensityestimationbasedonoptimalsmoothingandminimumstatistics,"IEEETrans.SpeechAudioProcess.,vol.9,no.5,pp.504-512,July,2001.
[7]I.Cohen,"Noisespectrumestimationinadverseenvironments:
Improvedminimacontrollerrecursiveaveraging,"IEEETrans.SpeechAudioProcess.,vol.11,no.5,pp.466-475,Sep.2003.
[8]Y-S.Park,J-H.Chang,"Aprobabilisticcombinationmethodofminimumstatisticsandsoftdecisionforrobustnoisepowerestimationinspeechenhancement,"IEEESignalProcess.Lett.,vol.15,pp.95-98,2007.
[9]S.Rangachari,P.C.Loizou,"Anoise-estimationalgorithmforhighlynon-stationaryenvironments,"SpeechCommun.,vol.48,pp.220-231,2006.
[10]Z.Lin,R.Goubran,"InstantnoiseestimationusingFouriertransformofAMDFandvariablestartminimasearch,"Proc.Int.Conf.Acoust.SpeechSignalProcess.,vol.1,pp.161-164,2005.
[11]Z.Lin,R.Goubran,andR.M.Dansereau,"Noiseestimationusingspeech/non-speechframedecisionandsubbandspectraltracking,"SpeechCommun.,vol.49,pp.542-557,2007.
[12]Y.Ephraim,D.Malah,"Speechenhancementusingaminimummean-squareerrorlog-spectralamplitudeestimator,"IEEETrans.Acoust.,Speech,SignalProcess.,vol.33,no.2,pp.443-445.Apr.1985.
[13]S.Kamath,"Amulti-bandspectralsubtractionmethodforspeechenhancement,"Mastersthesis,UniversityofTexasatDallas,2001.
[14]N.Virag,"Singlechannelspeechenhancementbasedonmaskingpropertiesofthehumanauditorysystem,"IEEETrans.SpeechAudioProcess.,vol.7,no.2,pp.126-137,Mar.1999.
[15]Y.Hu,P.C.Loizou,"Evaluationofobjectivequalitymeasuresforspeechenhancement,"IEEETrans.Audio,Speech,andLanguageProcess.,vol.16,no.1,pp.229-238,Jan,2008.
[16]A.Martin,G.Doddington,T.Kamm,M.Ordowski,M.Przybocki,"TheDETcurveinassessmentofdetectiontaskperformance,"Proc.oftheEuro.Conf.onSpeechCommunicationandTechnology,pp.1895-1898,1997.