毕业设计论文基于盲源分离技术的语音信号噪声分析与处理.docx
《毕业设计论文基于盲源分离技术的语音信号噪声分析与处理.docx》由会员分享,可在线阅读,更多相关《毕业设计论文基于盲源分离技术的语音信号噪声分析与处理.docx(43页珍藏版)》请在冰点文库上搜索。
毕业设计论文基于盲源分离技术的语音信号噪声分析与处理
基于盲源分离技术的语音信号噪声分析与处理
摘要
语音信号盲分离处理的含义是指利用BSS技术对麦克风检测到的一段语音信号进行处理。
混合语音信号的分离是盲分离的重要内容,目前的混叠语音分离大多是建立在无噪环境中的混叠情形下,主要以盲源分离(BlindSourceSeparation,BSS),根据信号的统计特性从几个观测信号中恢复出未知的独立源成分。
本文重点研究了以语音信号为背景的盲处理方法,在语音和听觉信号处理领域中,如何从混有噪声的的混叠语音信号中分离出各个语音源信号,来模仿人类的语音分离能力,成为一个重要的研究问题。
具体实现主要结合ICA技术,将语音去噪作为一个预处理过程,对带噪声的混叠语音盲分离进行了研究,本文详细了介绍三种FastICA算法:
SOBI算法以及CICA算法,将三种算法应用于实际的语音信号噪声分离中,并比较了传统算法和基于ICA/BSS算法在语音消噪和增强方面的差异,文章最后还介绍了分离效果评价准则,并比较了SNR和SIR参数。
关键词语音信号,语音信号噪声,盲源分离,独立成分分析
ABSTRACT
BlindseparationofspeechsignalprocessingmeansistheuseofBSStechniquesmicrophonedetectsavoicesignalprocessing.Separationofmixedspeechsignalsisimportantforblindseparation,thecurrentseparationofoverlappingspeechisbuiltmostlyintheabsenceofaliasingnoiseintheenvironment,underthecircumstances,mainlyinblindsourceseparation(BlindSourceSeparation,BSS),thestatisticalcharacteristicsofsignalSeveralobservationsfromtheunknownsignaltorecovertheindependentsourcecomponents;
Thisarticlefocusesonthebackgroundtotheblindspeechsignalprocessingmethod,signalprocessing,speechandhearing,howthenoisefromamixtureofoverlappingspeechsignaltoseparatethevariousaudiosourcesignalstomimichumanspeechseparationabilitybecomeanimportantresearchquestion.CombinationofconcreterealizationofthemainICAtechnology,speechdenoisingasapreprocessingofspeechwithnoise-aliasingblindseparationwerestudied,thepaperintroducesthreekindsofFastICAalgorithm:
SOBIalgorithmandtheCICAalgorithm,threekindsofalgorithmapplicationtheactualnoiseinspeechsignalseparation,andcomparedthetraditionalalgorithmandtheICA/BSSalgorithminspeechdenoisingandenhancementofthedifferences,thepaperfinallydescribestheseparationevaluationcriteria,andcomparedtheSNRandSIRparameters.
Keywords:
Voicesignal,voicesignalnoise,blindsourceseparation,independentcomponentanalysis
第一章语音信号及噪声概述
1.1语音信号的概述
语音特性分析
1.语音产生机理
发声器官分为三部分:
肺、喉(声门)和声道。
肺的作用相当于一个动力源,将气流输送到喉部。
喉将来自肺部的气流调制为周期脉冲或类似随机噪声的激励声源,并送入声道。
喉在发声中的作用是控制声带的开启和闭合,使得气流形成一系列脉冲,声带振动的频率决定了声音频率的高低。
由声带振动产生的音统称为浊音,而不由声带振动产生的音统称为清音。
声道包括口腔、鼻腔和咽腔,它们对声源的频谱进行整形而产生不同音色的声音。
声道的谐振频率称为共振峰频率,它与声道的形状和大小有关,每种形状都有一套共振峰频率作为其特征,改变声道的形状就产生不同的语音,因而,当声道形状改变时,语音信号的频谱特性就随之改变。
声源经过声道润色频谱后,最后从嘴唇或鼻孔或同时从嘴唇和鼻孔辐射出来,形成可传播的声波,被人感知为语音。
综上所述,语音由空气流经过声门激励,经由声道调制,经过嘴辐射出去,完整的语音信号产生的数学模型可以用三个子模型:
激励模型、声道模型和辐射模型的串连来表示。
2.语音的特性
(1)短时平稳性
根据对语音信号的研究,语音是一种时变的、非平稳的随机过程,但另一方面,由于人类发声系统的生理结构的变化速度是有一定限度的,在一段短时间内(10~30ms)人的声带和声道形状基本稳定,并且大部分情况下,激励源参数也是如此,因此可认为短时间内语音特征是不变的,语音的短时性特点是对语音信号进行分析和处理的基础。
(2)浊音和清音
语音分为浊音和清音两大类,二者从语音产生的机理上有明显的差异,前者由周期性脉冲产生,后者由随机噪声产生,因而在特征上也有明显的区别。
浊音在时域上呈现出明显的周期性,在频域上具有共振峰结构而且能量大部分集中在较低频段内。
清音则完全不同,它没有明显的时域和频域特征,类似于白噪声。
浊音在频谱上有共振峰结构,能量重要集中在低频区(<1000Hz),清音没有共振峰结构,能量小且主要集中在高频段(>1000Hz)。
语音信号的基本特征
(1)语音信号的时域特征
由于说话人在不同时刻的说话内容千变万化,而且没有确定的规律性,因此语音信号是时变的。
但由于人类的发声器官的变化速率有限,声道在短时间内(5.500ms)处于平稳状态,因此语音信号具有短时平稳性。
而这种短时平稳性,也是语音处理中许多理论和算法的必要前提。
由于人们在说话时,各个音节或单词之间总会存在着时间上的间隔,
因此语音信号在时域上存在着有音段和无音段。
通过有音段和无音段的检测,可用去除带噪语音中平稳的噪声。
此外,无音段所占比例越大,语音的稀疏性越好,利用这一特点,产生了许多基于语音稀疏性的增强算法。
(2)语音信号的频域特征
语音信号的频谱能量主要集中在300-3400Hz范围内。
语音本身由浊音和清音组成,浊音含有语音信号的大部分能量,其频谱分布主要集中在低频段中的基
音频率及其各次谐波上,呈现出明显的周期性;清音则表现出随机性,在频谱上类似于白噪声。
(3)语音信号的统计特征
语音信号可以看作是一个遍历性随机过程的样本函数,其统计特性可用其幅度的概率密度函数来描述。
对语音信号的统计特性的研究表明,其幅度分布的概率密度函数可以用两种近似的表达式来较好地描述,其中一种是伽马(Gamma)分布
(1-1)
式中k是一个常数,与标准差仃,有下列关系
(1-2)
另一种是拉普拉斯分布(Laplacian)分布
(1-3)
式中,口是一个由标准差仃。
决定的常数,即
(1-4)
相对说来,伽马分布对语音信号的幅度分布描述更为精确一点,而拉普拉斯分布的函数形式则更加简洁。
语音噪声特性分析
1.2.1信噪比(SignalNoiseRatio,SNR)
最常用的一种客观评价方法就是计算增强后的语音信号的信噪比,又称为讯噪比,狭义来讲是指放大器的输出信号的电压与同时输出的噪声电压的比,常常用分贝数表示。
设备的信噪比越高表明它产生的杂音越少。
一般来说,信噪比越大,说明混在信号里的噪声越小,声音回放的音质量越高,否则相反。
信噪比一般不应该低于70dB,高保真音箱的信噪比应达到110dB以上。
其计算公式如下:
(1-5)
式中,
是未失真的理想信号,对应于原始纯净语音;
是失真后的信号,对应于经过语音增强后的信号。
1.2.2信干比(signal-to-InterferenceRatio,SIR)
为了说明盲分离的效果,提出的信号干扰比SIR(SignalInterferenceRatio)的概念:
分离性能是通过将每一个估计出的源信号
和相应的真实源信号
的对比计算出来的。
计算分2个步骤进行,首先是将
进行分解:
(1-6)
其中
是
经某一允许的变形(alloweddistortion)修正之后的版本,这里所谓允许的变形是指:
例如,对于线性瞬时混合的盲源分离算法,我们可以接受时不变增益的变形(itime-invariantgainsalloweddistortions);对于卷积混合的盲源分离算法,我们可以接受时不变滤波的变形(time-invariantfiltersalloweddistortions)。
而
和
分别表示干扰、噪声和人工因素带来的误差(artifactserror)。
式子(2.15)右边的4个项分别代表了
,如下各部分:
来自于期望(wanted)源
的部分、来自于不想要的(unwanted)源
的部分、来自于传感器噪声的部分咀及来自于其它因素的部分(例如来自于源的禁止变形)。
接下来的第2步就是要计算能量比来评估上面4个项的相对数量大小。
我们主要关注的是信干比(SIR):
(1-7)
第二章盲信号处理
盲信号处理的概述
盲信号处理的基本概念
盲信号处理是现代数学信号处理、算智能学近年来迅速发展的重要方向。
电子信息、通信、生物医学、图像增强、雷达、地球物理信号处理等众多领域有广泛的应用前景。
盲信号处理就是利用系统(如无线信道、通信系统等)的输出观测数据,通过某种信号处理的手段,获得我们感兴趣的有关信息(如原来独立发射的信号等)。
盲信号的研究是当前学术界的一个研究热点,而盲信号分离则是盲信号研究中的一个重要的课题。
BSS是指从观测到的混合信号中分离出未知的源信号。
盲信号中的“盲”意味着两个方面:
第一,对源信号一无所知或只有少许的先验知识。
第二,混合本身是未知的。
这看似是一个不可能的任务,然而理论和实际都证实了只需要相当简单的假设,就可以得到该问题的解。
这一特点使得BSS成为一种功能相当强大的信息处理方法。
图2.1.1盲处理原理框图
盲信号处理的方法和分类
在盲信号处理中,就源信号进过传输通道的混合方式而言,其处理方法可分为线性瞬时混合信号盲处理、线性卷积混合信号盲处理和非线性混合信号盲处理三类。
根据通道传输特性中是否含有噪声、噪声特性(白噪声、有色噪声等)、噪声混合形式,可分为有噪声、无噪声盲处理,含加性噪声和乘性噪声混合信号盲处理等。
按源信号和观测信号数目的不同可以将混合方式分为欠定、适定和超定情况;按源信号特性的不同分为:
平稳、非平稳、超高斯、亚高斯、超高斯和亚高斯混合分离等。
盲处理的目的可分为盲辨识和盲源分离两大类。
盲辨识的目的是求得传输通道混合矩阵(新型混合矩阵、卷积混合矩阵、非线性混合矩阵等)。
盲源分离的目的是求得源信号的最佳估计。
当盲源分离的各分量相互独立时,就称为独立分量分析,即独立分量分析是盲源分离的一种特殊情况。
盲信号处理技术的研究应用
近年来,盲信号处理逐渐成为当今信息处理领域中热门的课题之一,并且已经在尤其在生物医学工程、医学图像、语音增强、遥感、通信系统、地震探测、地球物理学、计量经济学和数据挖掘等领域显示出诱人的前景,特别是盲源分离技术、ICA的不断发展和应用最为引人注目。
下面介绍盲处理应用中的两个主要方面:
1.语音识别领域
语音信号分离、语音识别是盲处理应用的一个重要领域。
最典型的应用就是声控计算机,计算机所接受到的语音指令肯定是肯定是带有各种环境噪声的,还可能存在其他的语音信号(如有其他人说话),而且这些信号源与接收器的相对位置也未知,计算机需要在这种情况下识别出正确的语音命令。
在移动通信中,往往存在通信质量问题,极大的影响了通话效果,而盲源分离或盲均衡技术能够消除噪声、抑制干扰及增强语音,提高通话质量。
2.生物医学信号处理
在生物医学领域,盲信号处理可应用于心电图(ECG)、脑电图(EEG)信号分离、听觉信号分析、功能磁共振图像(FMRI)分析等。
例如人们常常需要从肌电图中确定神经元细胞信号的触发模式,而EMG信号通常由多个特殊的传感器在人体表处测得,从信号源到传感器之间的信号传输介质参数是未知的,而人们之间各不相同。
目前已经有一些学者将盲源分离技术成功地够应用于脑电图等信号的数据处理。
2.2盲源分离法
盲源分离技术
盲源信号分离(BlindSourceSeparation,BSS)是20世纪90年代迅速发展起来的一个研究领域。
它具有可靠的理论基础和许多方面的应用潜力。
其在生物医学工程、医学图像、语音增强、遥感、通信系统、地震探测等领域有着广泛而诱人的前景,盲源分离成为信号处理和神经网络领域的研究热点。
盲源分离是针对从检测的混合信号中估计或恢复源信号的问题提出的,是指源信号、传输通道特性未知的情况下,仅由观测信号和源信号的一些先验知识(如概率密度)估计出源信号各个分量的过程。
例如最著名的鸡尾酒会问题,仅根据多个麦克风检测信号分离或恢复出某种语音源信号。
盲分离算法实现
在实际的ICA盲分离算法应用中,一般有时是必需的对观测数据做一些预处理技术,如用主成分分析(PCA)降维和白化,用滤波器进行滤波降噪处理等。
另外,由于恢复准则的局限以及先验知识的缺乏,盲信号分离方法只能得到源信号的波形,而无法确定信号的幅值以及信号之间的顺序。
这两点都需要人为的制定规则(如规定信号的方差为1来确定幅值)来确定。
图2.盲信号分离基本原理框图
盲源分离技术的研究发展和应用
1986年,法国学者JeannyHerault和ChristianJutten提出了递归神经网络模型和基于Hebb学习律的学习算法,以实现2个独立源信号混合的分离。
这一开创性的论文在信号处理领域中揭开了新的一章,即盲源分离问题的研究。
其后二十几年来,对于盲信号分离问题,学者们提出了很多的算法,每种算法都在一定程度上取得了成功。
从算法的角度而言,BSS算法可分为批处理算法和自适应算法;从代数函数和准则而言,又分为基于神经网络的方法、基于高阶统计量的方法、基于互信息量的方法、基于非线性函数的方法等。
尽管国内对盲信号分离问题的研究相对较晚,但在理论和应用方面也取得很大的进展。
清华大学的张贤达教授在其1996年出版的《时间序列分析——高阶统计量方法》一书中,介绍了有关盲分离的理论基础,其后关于盲分离的研究才逐渐多起来。
近年来国内各类基金支持了盲信号处理理论和应用的项目,也成立了一些研究小组。
虽然盲源分离理论方法在最近20年已经取得了长足的发展,但是还有许多问题有待进一步研究和解决。
首先是理论体系有待完善。
实际采用的处理算法或多或少都带有一些经验知识,对于算法的稳定性和收敛性的证明不够充分。
盲源分离尚有大量的理论和实际问题有待解决,例如多维ICA问题、带噪声信号的有效分离方法、如何更有效地利用各种先验知识成功分离或提取出源信号、一般性的非线性混合信号的盲分离、如何与神经网络有效地结合、源信号的数目大于观察信号的数目时ICA方法等。
另外,盲源分离可同其他学科有机结合,如模糊系统理论在盲分离技术中的应用可能是一个有前途的研究方向;盲源分离技术与遗传算法相结合,可以减少计算复杂度,提高收敛速度。
如何有效提高算法对源信号统计特性的学习和利用也需要进行深入研究。
在硬件实现方面,盲分离问题也存在着极大的发展空间,例如用FPGA实现等。
经过人们将近20年的共同努力,有关盲分离的理论和算法得到了较快发展,包括盲分离问题本身的可解性,以及求解原理等方面的基本理论问题在一定程度上得到了解决,并提出了一些在分离能力、内存需求、计算速度等方面性能各异的算法。
由于该问题的理论研究深度和算法实现难度都较大,目前对于盲分离的研究仍然很不成熟,难以满足许多实际应用需求,许多理论问题和算法实现的相应技术也有待进一步探索。
2.3独立成分分析
独立分量分析(IndependentComponentAnaly2sis,ICA)是由Herault和Jutten在1983年提出,该方法不依赖与源信号类型相关的详细知识或信号传输系统特性的精确辨识,是一种有效的冗余取消技术,被广泛应用于盲源分离(blindsourceseparationBSS)、特征提取和盲解卷、生理学数据分析语音信号处理、图像处理及人脸识别等领域。
该方法根据代价函数的不同,可以得到不同的ICA算法,如信息最大化(infomax)算法、FastICA算法、最大熵(ME)和最小互信息(MMI)算法、极大似然(ML)算法等。
在统计学中,独立成分分析或独立分量分析(Independentcomponentsanalysis,缩写:
ICA)是一种利用统计原理进行计算的方法。
它是一个线性变换。
这个变换把数据或信号分离成统计独立的非高斯的信号源的线性组合。
独立成分分析是盲信号分离(Blindsourceseparation)的一种特例。
2.3.1独立成分分析的定义
ICA是一种用来从多变量(多维)统计数据里找到隐含的因素或成分的方法,被认为是主成分分析(PrincipalComponentAnalysis,PCA)和因子分析(FactorAnalysis)的一种扩展。
对于盲源分离问题,ICA是指在只知道混合信号,而不知道源信号、噪声以及混合机制的情况下,分离或近似地分离出源信号的一种分析过程。
独立成分分析(IndependentComponentAnalysis,ICA)是近年来出现的一种强有力的数据分析工具(HyvarinenA,KarhunenJ,OjaE,2001;RobertsSJ,EversonR,2001)。
1994年由Comon给出了ICA的一个较为严格的数学定义,其思想最早是由Heranlt和Jutten于1986年提出来的。
ICA从出现到现在虽然时间不长,然而无论从理论上还是应用上,它正受到越来越多的关注,成为国内外研究的一个热点。
特别是从应用角度看,它的应用领域与应用前景都是非常广阔的,目前主要应用于盲源分离、图像处理、语言识别、通信、生物医学信号处理、脑功能成像研究、故障诊断、特征提取、金融时间序列分析和数据挖掘等。
盲源分离技术是近二十年发展起来的一门新型科学,在各国科学家和研究人员的努力下获得了充分的发展,但是ICA的研究方兴未艾,它毕竟是一个涉及面广并且仍处于发展前沿的课题,在理论上还远没有成熟,许多问题有待进一步研究和解决。
(1)带噪混合信号的盲分离问题。
盲信号处理中的未知条件太多,混合信号含有噪声的情况下的盲源分离问题解决起来是相当困难的。
尽管目前已有部分算法对存在噪声的情况表现出了良好的性能,但由于噪声种类繁多,因此处理起来仍很棘手。
现有的大多数盲源分离或盲解卷积算法都假设不含噪声或者把噪声看作是一个独立的信源信号来处理。
(2)非平稳混合信号的盲源分离算法。
许多情况下源信号可能是非平稳的,如何利用信号的非平稳特性进行盲源分离是摆在广大研究人员面前的一个现实问题。
(3)卷积混合信号的盲源分离算法。
在实际中,系统接收到的混合输入信号是源信号经过不同的传播途径到达接收器。
在这个过程中,不可避免的存在信号的时延和反射。
针对这种情况的盲源分离算法还很不成熟。
(4)ICA的推广应用。
在算法应用方面,ICA可以取得进一步的发展,如可以在语音识别、图像处理、特征提取、医学信号处理方面作进一步的研究。
目前的关键的问题是如何将理论算法转化为实际应用,以及如何建立更加符合实际情况的模型等。
(5)算法的收敛性。
算法全局收敛性的研究,可以考虑将遗传算法、混沌算法等具有全局收敛性的优化算法和ICA结合起来,提高算法的全局收敛性。
2.3.2ICA的基本原理
(1)无噪声的ICA模型
ICA作为生成模型的估计给定随即变量的一组观测
…
,其中
是时间或者样本标号,假设它们有独立成分线性混合而产生:
=A
(2-1)
式中,
是某个未知矩阵。
用向量-矩阵符号方式表示通常比上面的求和表达式更为方便。
用随机向量x来表示混合向量,其元素分别为
,同样地,用
来表示元素
,用矩阵
表示那些混合系数
。
所有的向量都理解为列向量;这样
或者称
的转置就是一个行向量。
利用向量和矩阵符号表示,混合模型可以写为:
(2-2)
有时我们需要使用矩阵A中的列向量,如果将其表示为,则模型也可以写为:
(2-3)
(2)有噪声的ICA模型
将基本的ICA模型扩展到有噪声的情形,并且假设噪声是以加性噪声形式存在的。
这是一个相当现实的假设,因为加性噪声是因子分析和信号处理中通常研究的标准形式,具有简单的噪声模型表达方式。
因此,噪声ICA模型可表示为:
(2-4)
式中,
是噪声向量。
信号源噪声,即直接添加到独立成分(即信号源)上的噪声。
信号源噪声可用与式()稍有差别的下式来表示:
(2-5)
实际上,如果可以直接考虑带噪声的独立成分,那么可将此模型写为:
(2-6)
可以看出,这就是基本的ICA模型,只是独立成分本身变了。
2.本文对ICA的研究目的及实现
独立分量分析的含义是把信号分解成若干个互相独立的成分,它是为了解决盲信号分离的问题而发展起来的。
如果信号本来就是由若干独立信源混合而成的,ICA就能恰好把这些信源分解开来。
故在一般的文献中通常把ICA等同于BSS,ICA不同于主分量分析把目光投注于信号的二阶统计量,研究信号间的相关关系,而是基于信号的高阶统计量,研究信号间的独立关系。
作为一个形象的图示,我们可以借鉴下面的波形,原始的语言信号是类似图()中的信号,而混合信号是如图(2.3)样子的数据。
需要解决的问题是,如何仅使用图(2.3)中的数据还原的到图()的“源”信号。
图2.3.1源信号S
图2.混合矩阵A
图.3混合信号X
独立成分分析方法能够基于信息的的独立性来估计
,这样我们就能从混合信号
中分离出三个原始信号
。
第三章盲语音信号分离的实现及抑噪分析
3.1盲语音信号分离的实现
盲信号分离的三种算法
(1)二阶盲辨识(SOBI)
SO