面向麦克风阵列应用的声源定位算法研究概要.docx

上传人:b****5 文档编号:14781822 上传时间:2023-06-27 格式:DOCX 页数:57 大小:639.02KB
下载 相关 举报
面向麦克风阵列应用的声源定位算法研究概要.docx_第1页
第1页 / 共57页
面向麦克风阵列应用的声源定位算法研究概要.docx_第2页
第2页 / 共57页
面向麦克风阵列应用的声源定位算法研究概要.docx_第3页
第3页 / 共57页
面向麦克风阵列应用的声源定位算法研究概要.docx_第4页
第4页 / 共57页
面向麦克风阵列应用的声源定位算法研究概要.docx_第5页
第5页 / 共57页
面向麦克风阵列应用的声源定位算法研究概要.docx_第6页
第6页 / 共57页
面向麦克风阵列应用的声源定位算法研究概要.docx_第7页
第7页 / 共57页
面向麦克风阵列应用的声源定位算法研究概要.docx_第8页
第8页 / 共57页
面向麦克风阵列应用的声源定位算法研究概要.docx_第9页
第9页 / 共57页
面向麦克风阵列应用的声源定位算法研究概要.docx_第10页
第10页 / 共57页
面向麦克风阵列应用的声源定位算法研究概要.docx_第11页
第11页 / 共57页
面向麦克风阵列应用的声源定位算法研究概要.docx_第12页
第12页 / 共57页
面向麦克风阵列应用的声源定位算法研究概要.docx_第13页
第13页 / 共57页
面向麦克风阵列应用的声源定位算法研究概要.docx_第14页
第14页 / 共57页
面向麦克风阵列应用的声源定位算法研究概要.docx_第15页
第15页 / 共57页
面向麦克风阵列应用的声源定位算法研究概要.docx_第16页
第16页 / 共57页
面向麦克风阵列应用的声源定位算法研究概要.docx_第17页
第17页 / 共57页
面向麦克风阵列应用的声源定位算法研究概要.docx_第18页
第18页 / 共57页
面向麦克风阵列应用的声源定位算法研究概要.docx_第19页
第19页 / 共57页
面向麦克风阵列应用的声源定位算法研究概要.docx_第20页
第20页 / 共57页
亲,该文档总共57页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

面向麦克风阵列应用的声源定位算法研究概要.docx

《面向麦克风阵列应用的声源定位算法研究概要.docx》由会员分享,可在线阅读,更多相关《面向麦克风阵列应用的声源定位算法研究概要.docx(57页珍藏版)》请在冰点文库上搜索。

面向麦克风阵列应用的声源定位算法研究概要.docx

面向麦克风阵列应用的声源定位算法研究概要

华中科技大学

硕士学位论文

面向麦克风阵列应用的声源定位算法研究姓名:

徐燕子

申请学位级别:

硕士

专业:

微电子学与固体电子学指导教师:

江建军

20090525

摘要

随着语音通信技术的发展,对声源定位的实时性和精确性要求越来越高,基于麦克风阵列的语音处理方法已成为研究热点之一。

然而,受系统灵活性、应用方便性和算法精确性等方面的影响,目前国内麦克风阵列产品虽有部分应用,但是仍然具有一定的局限性。

因此,为了推进麦克风阵列的应用,对麦克风阵列及其算法开展研究,具有实用价值和意义。

为了利用麦克风阵列实现对实际声源的定位功能,本论文着重于声源定位算法研究。

在LabVIEW环境中设置了仿真模型,考虑室内混响和噪声的影响,分别实现了基于时延估计的声源定位法和基于子空间技术的声源定位法,并讨论了各种算法的适用范围。

基于时延估计的声源定位法分为时延估计和声源定位两部分,其中时延估计部分讨论了各种加权因子的GCC时延估计法,声源定位部分讨论了角度距离定位法、最小二乘法和球形插值法的特点和定位效果。

基于子空间技术的声源定位讨论了二维MUSIC方法对远场声源的DOA估计。

经仿真结果对比分析,讨论的各种算法基本上可以实现声源定位功能,但是局限性和精确性各有不同,如正常情况下的最小二乘法和球形插值法精确性好,但是不适用于四元阵列,需针对实际系统进行改进;角度距离定位法在远场情况下对距离的估计误差较大等等。

通过仿真实现声源定位功能后,针对系统构建,将算法移植到硬件平台上,对实际声源进行定位。

在仿真过程对实际系统的理论指导下,选用了各种加权的GCC时延估计法和角度距离声源定位法进行实际声源定位,实验证明,该系统能够比较精确地对半空间域的声源进行定位。

关键词:

麦克风阵列时延估计声源定位MUSIC算法LabVIEW

Abstract

Withthedevelopmentofthevoicecommunicationstechnology,attentionismainlypaidtotheperformanceofthereal-timecharacterandtheaccuracyforacousticsourcelocalization.Thustheacousticsignalprocessingmethodsbasedonmicrophonearrayhavebecomeahotspotintheresearcharea.However,theapplicationsofmicrophonearraycommercialproductsarestilllimitedindomesticuptonowowingtolackingtheflexibilityofsystem,theconvenienceinuseandtheaccuracyofalgorithm.Therefore,inordertopopularizetheapplicationofthemicrophonearray,theimprovementofthealgorithmandhardwaresontheperformanceofacousticsourcelocalizationareofimportantvalue.Theresearchisfocusedonthealgorithmtoobtainthesoundsourcelocalizationpractically.AsimulationmodelisputforwadfirstlyintheLabVIEWenvironment,aftertakingboththereverberationandnoiseintoaccount.Then,thetimedelayestimationandthesub-spatialalgorithmoftheacousticsourcelocalizationarecarriedout.Asaresult,theapplicationscopeandtheeffectsofvariousalgorithmarefurtherdiscussed.Asthetimedelayestimationalgorithmisdividedintotwosteps,kindsofweightedgeneralizedcrosscorrelation(GCCalgorithmaresimulatedfortimedelayestimate,whiletheangle-distancemethod,theLeast-Square(LSmethodandtheSphericalInterpolation(SImethodarediscussedfortheacousticsourcelocalization.Thesub-spatialalgorithmalsoincludesdifferenttypesofmethods,hereonlyatwodimensions(2DMUSICmethodbasedonafar-fieldsignalmodelisapplied.Afterbeinganalyzedanddiscussed,thesimulationresultsindicatethat,themethodsinthethesiscanacquirethelocationoftheacousticsourcewithdifferentlimitationsandaccuracy.Forexample,theSImethodandtheLSmethodundernormalcircumstancesareaccurate,buttheyarenotsuitforfour-elementmicrophonearray,sothealgorithmsareadjustedtoacquireasatisfyingperform.Theerrorofthedistancecausedbytheangle-distancemethodisrelativelylargewhilethesourceisinafarfield,etc.Asthesimulatedresultturnedtobefine,thealgorithmsaretransplantedtothehardwareplatformaccordingtotherequirementofthesystem.Theintegrationofthehardwareandsoftwaremakestheobjectofthesystemcometrue.Undertheguidanceofthesimulationresults,therealsystemadoptskindsofweightedGCCmethodsfortimedelay

estimationandtheangle-distancemethodforacousticsourcelocalization.Inconclusion,thesystemcanlocalizetheacousticsourceaccurately.

Keywords:

MicrophoneArray;TimeDelayEstimate;AcousticSourceLocalization;MUSICalgorithm;LabVIEW

独创性声明

本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。

尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。

对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。

本人完全意识到本声明的法律结果由本人承担。

学位论文作者签名:

日期:

年月日

学位论文版权使用授权书

本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:

学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。

本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。

保密□,在____________年解密后适用本授权书。

不保密□。

(请在以上方框内打“√”

学位论文作者签名:

指导教师签名:

日期:

年月日日期:

年月日

本论文属于

1绪论

1.1研究背景和目的

对语音信号处理而言,麦克风是最基本的信号接收设备之一。

传统的单个麦克风在无噪声、无混响、距离声源很近的情况下,拾取信号的质量较高[1]。

然而,随着时代的发展,单个麦克风存在的许多局限性已无法满足我们对于语音通信的要求[2]:

(1它要求声源和麦克风之间的位置相对固定,如果声源位置改变,就必须移动麦克风。

(2声源多位于室内等较封闭的环境中,各种其它声音的多径反射和混响等因素,也会导致单个麦克风接收的信号信噪比降低,拾取信号的质量下降。

(3当麦克风距离声源很远时,也无法保证良好的语音通信质量。

针对单个麦克风的不足,结合实际应用的需要,如远程视频会议、报警系统、车载电话、助听系统、智能机器人系统等等[3,4],人们提出了用麦克风阵列进行语音处理的方法。

麦克风阵列是指多个麦克风按一定的几何结构进行摆放组成的阵列。

它具有很强的空间选择性,无须移动就可对声源信号自动监测、定位和跟踪,因此在语音增强[5]、声源定位[6]、回声消除[7]等方面有着极大的应用空间。

其中,利用麦克风阵列采集到的声音信号来估计声源所在位置即声源定位[8]。

用麦克风阵列进行信号处理与传统的阵列信号处理有以下不同[9-11]:

(1传统的阵列处理信号,如通信信号和雷达信号等,它们属于主动定位方式,即发出电磁波,接收的是经过高频信号调制后的窄带信号;而麦克风阵列属于被动定位方式,接收的是目标发出的语音信号,其频率集中在300~3400Hz,中心频率随声源的变化而变化,是一个多频宽带信号[12]。

(2传统的阵列信号是平稳的电磁波,其相关函数可以通过时间相关来准确获得,而麦克风阵列的接收信号为短时平稳的语音信号,用时间平均来求得准确的相关函数比较困难,因此要采取其他的方法来获得准确的相关函数[12]。

(3传统的阵列信号多采用远场、平面波模型,而麦克风阵列多位于近场[13],需要使用球面波模型。

另外,在需要估计声源与阵列的距离时,还应该考虑信号在传播过程中发生的幅度衰减。

(4传统的阵列信号处理中,噪声和信源通常是不相干的,而麦克风阵

列多位于室内等较封闭的环境中,除了非高斯噪声和相干噪声的影响[14]外,声源本身在室内的混响也会对准确定位造成影响。

(5传统的阵列信号处理主要针对一维DOA估计,麦克风阵列应用一般需要二维、三维定位[9]。

这些不同要求我们对传统的阵列处理算法和模型加以改进。

由于麦克风阵列在语音处理方面具有极大的优势,麦克风阵列在声源定位上的应用引起了人们越来越多的注意。

但是国内在这方面起步较晚,各高校和研究机构更多的关注算法仿真,而忽视算法与硬件的有效结合,因而在实际的系统构建中存在不少缺陷,无法保证声源定位的实时性和精确性。

因此对麦克风阵列的应用还有极大的发掘潜力和极大的应用前景,这就促使了我们对这一课题进行进一步的研究。

整个系统的目的是在DSP平台上利用麦克风阵列实现实际的声源定位。

基于系统构建的需要,本文着重进行算法部分的研究,在仿真的基础上使之更加适用于实际的声源定位系统。

1.2国内外研究概况

1.2.1麦克风阵列的发展历程

20世纪80年代以来,传声器阵列信号处理技术得到了迅猛的发展,并在雷达、声呐及通信中得到广泛的应用,后来又应用到语音信号处理中。

1985年,Flanagan将传声器阵列引入到大型会议的语音增强中,并开发出很多实际产品。

1987年Silverman将传声器阵列引入到语音识别系统[15]。

1992年,Silverman将阵列信号处理用于移动环境下的语音获取,后来将其应用于说话人识别。

1995年Flanagan在混响环境下用阵列信号处理对声音进行捕获。

1996年Silverman和Brandstein开始将其应用于声源定位中,用于确实和实时跟踪说话人的位置。

中国在这方面的研究起步较晚,对声源定位的研究21世纪初期才起步。

21世纪初期:

近年来,音/视频通信/会议系统发展很快,Polycom、Lifesize等公司推出了基于麦克风阵列的音/视频会议产品。

其中Lifesize公司的LifesizePhone采用16个麦克风组成均匀圆环麦克风阵列,16KHz采样,集成voPI、PsNT等通信模块[9]。

YAMAHA的Projectphone系列会议产品采用了窄指向性阵列式麦克风技术,实现清

晰语音收音,并强化特定方向的收音效果。

在过去二十多年中,笔记本电脑的多媒体应用功能不断增强,但是其音频输入端很大程度上被忽略了,通常提供给用户最普通的体验。

近年来Intel研究所致力于研究能够提高第三方语音识别系统识别率的麦克风阵列,新一代笔记本电脑平台被设计以支持实时通信应用(如基于IP的视频和语音(WoIP。

为了利用噪声抑制和波束形成算法的优点,Microsoft公司在WindowsVista中集成了对麦克风阵列的支持,实现高质量的语音采集。

2001年,波音的研究人员把广泛应用于无线通讯的智能天线的原理推广到音频[16],用数百个麦克风在机场的跑道上布设了直径达150英尺的螺旋形的麦克风阵列来记录飞越上空的波音777发出的噪声,如图1-1左图所示。

反复试验的结果表明波音777在起飞和降落期间发出的2000Hz的啸叫来自两翼的前沿。

麦克风阵列的这一次完美展示使其得到进一步推广。

如今,麦克风阵列不仅被用来研究飞机、汽车上的噪声源,而且被用于潜水艇、建筑和家电行业的噪声研究中。

在这类应用中,麦克风阵列被视作“声学照相机”。

2005年,日本的BMC(Bio-MimeticControl研究中心的HiromichiNakashima和ToshiharuMukai研制了仿生的麦克风阵列的声源定位机器人系统[17],如图1-2右图所示。

此系统设计定位功能由两套定位子系统完成。

首先,利用双耳时延模型,通过设计仿生人耳耳廓功能的反射器及两个模仿人耳的麦克风接受声音信号,完成水平方向的声源定位。

其次,利用反射器引导的音频信号谱来确定垂直方向的声源定位,最后通过PC机进行数据处理并控制电机完成定位。

该系统中的反射器的频率特性成为作者的重要讨论内容,基于该反射器,系统可以识别在正前方水平范围-30°到+30°之间的声源,而超过-40°到+40°时,该系统则完全失效。

图1-2“声音照相机”与声源定位机器人

在国内对于麦克风阵列的实际应用研究较晚,应用范围也有一定的限制:

2005年,上海交通大学振动、冲击、噪声国家重点实验室研制成功了基于虚拟仪器技术的声场可视化系统。

该系统基于虚拟仪器技术构建了声信号采集及处理系统。

文中提到该系统可以对噪声源进行定位、量化及传播路径的确定,但并未给出具体的声源定位性能分析等参数[18]。

2006年,哈尔滨工业大学的机器人研究所的研究人员讨论了移动机器人中利用模糊推理结合声源定位技术来实现机器人的协同定位功能[19]。

2007年,泛华测控推出国内首款“声音照相机”,即噪声源定位分析系统[20],由麦克风阵列、传输线缆和主机组成,综合了声源定位、声源识别、声源信号分离、频谱分析和联合时频分析等功能,在机器故障定位、降噪设计(如汽车、飞机等降噪设计以及噪声泄漏测试等领域有着广泛的应用。

一方面,实际的应用需求促进了对麦克风阵列的研究;另一方面,麦克风阵列的发展拓宽了语音处理的领域。

如果能保证声音定位精确性和实时性,麦克风阵列在不同的场合有着愈加广泛的应用。

而声音定位的精确性和实时行需要我们对传统的声源定位算法作一定的改进,使这些改进切实可行,可进一步推广麦克风阵列的使用。

1.2.2麦克风阵列实现声源定位的算法研究概况

1973年,WilliamR.hahn和StevenA.thetter最早提出基于最大输出功率的可控波

束的声源定位算法[21]。

1977年,WilliamR.hahn进一步得出可控定位的理论和实际上的方差[22]。

1983年,MatiWax和ThomasKailath将该方法应用于多声源的定位[23]。

2007年,电子科技大学电子工程学院的张扬等在基于移位平滑的相干波束形成方法和阵列内插方法的基础上提出了相干波束形成法[24],解决了五阵元均与圆阵下二维相干信号的波束形成问题。

北京航空航天大学汽车工程系的雷凌等研究了改进的波束形成方法在运动声源定位中的应用,从而大幅降低了所需的传声器数目,而对定位精度影响不大[25]。

波束形成的基本思想是采用波束形成技术实现阵列信号的输出同步及加权求和来得到波束,然后通过修改权值或麦克风指向来对阵列输出信号功率进行搜索,所得到的波束最大输出功率点即为声源的位置。

基于可控波束形成的定位算法,主要分为延迟累加波束算法和自适应波束算法。

该技术己经广泛应用于基于麦克风阵列的语音拾取领域,但要达到稳健有效的声源定位还十分困难。

这主要是由于该方法需要进行全局搜索,运算量极大,很难实时实现。

虽可以采用一些迭代方法来减少运算量,但常常没有有效的全局峰值,收敛于几个局部最大值,且对初始搜索值极度敏感。

并且,可控波束定位技术依赖于声源信号的频谱特性,其最优化准则绝大多数都基于背景噪声和声源信号的频谱特性的先验知识。

因此,该类方法在实际系统中性能差异很大,再加之计算复杂度高,限制了该类算法的应用范围。

1976年,C.H.Knapp和G.C.Carter发表的论文中提出应用于时延估计的广义相关函数(GCC法[26]。

虽然它计算非常有效,但是在实际环境中,由于噪声和混响的影响,TDOA估计的可靠性大大降低。

1981年,ReedFA和FeintuchPL提出最小均方(LMS自适应滤波法[27]。

针对GCC受混响影响较严重的情况,1987年,ChampagneB和StepheneA提出倒谱预滤波(CEP技术[28],通过对通道特性的分析,有目的地去除信号中受反射影响严重的部分,再将预滤波后的信号通过GCC进行时延估计。

1997年,BrandsteinMS提出基音加权的GCC方法[29],充分考虑了信号本身的特征,比CEP方法更适用于语音信号的处理。

2002年,DiBiase提出了联合可控响应功率和相位变换(SRP-PHAT的声源定位方法。

国内大连理工大学致力于各种时延估计及定位估计方法的改进,2004年,马晓红等提出了改进的互功率谱相位时延估计法[30],将固定的互功率谱加权函数改进为随信噪比而变的,将原来由一帧互功率谱相位的峰值决定时

延估计值改为由多帧互功率谱相位。

2005年,Doh-HyoumgKim等利用小波变换改进了直接适应性时延估计法(EATDE,针对移动声源进行有效定位[31]。

2006年,谭颖等提出了改进的SRP-PHAT声源定位方法[32],去掉了对相位累加和没有贡献的互功率谱成分,并将原方法中所有频段的全搜索改为分频段由粗到精的搜索,从而降低了运算量,在低信噪比和强混响的环境下定位精度较高。

清华大学在与松下电器北京研究所“车载导航”研究项目开展过程中研究了各种时延估计法的优缺点[33]。

此外,2000年GunerArslan和F.AyhanSakarya提出基于BP神经网络的声源定位法实质上是声源定位的一种[34,35]。

2006年中国计量学院光电子技术研究所的沈常宇提出的基于蒙特卡罗的实时空间三维声源定位方法实质上是时延估计的一种[36]。

基于子空间技术的声源定位算法主要有MUSIC算法、ESPRIT(旋转不变子空间算法、极大似然估计算法等。

1979年Schimidt提出多信号分类方法[37],简称MUSIC,这是DOA估计理论发展上一次质的飞跃,其核心原理是以信号子空间与噪声子空间的正交性为基础,划分空间来进行参数估计。

其后Balabell又提出了一维Root-MUSIC算法,减小了MUSIC算法的计算量。

针对MUSIC算法的不足,后来出现了改进的MMUSIC算法子空间迭代的快速算法及一些去相关的空间平滑技术等。

但由于麦克风阵列的DOA估计与普通的DOA估计有很大的区别,传统的算法并不适用于基于麦克风阵列的声源定位。

2000年,日本的FutoshiASANO和HidekiASOH等人把传统的MUSIC算法用到了声源定位系统中,提出了基于麦克风阵列的近场二维MUSIC算法[38],该算法用于办公室智能机器人系统中,基本实现了声源的水平角和声源与麦克风阵列之间的距离的估计,但是距离分辨率和准确性均较低。

2002年,美国的JoeC.Chen等人提出了用极大似然估计算法来实现声源定位[12],该算法可以对近场和远场的声源进行定位,在单声源系统中定位性能较好,但是对于多声源系统运算量较大,性能较低。

电子科技大学彭启琮教授带领的团队对MUSIC算法进行了各种改进,对均匀线阵、均匀圆阵近场模型进行2D仿真[4],进而对均匀圆阵及均匀球面阵进行3D仿真。

2008年,四川大学电子信息学院的李文等改进了基于麦克风阵列的近场声源定位,提出了一种快速谱峰搜索算法,从而降低了运算量[10]。

1986年,Roy等提出ESPRIT方法[37],它是“借助旋转不变性估计信号参数”的简称,由于不需要进行全空间搜索,

它的运算量较适中,但是常规的ESPRIT算法不能处理相干信号。

1994年,MathewsCP等在原算法进行改进的基础上提出了二维ESPRIT方法,从而实现了对二维方向的估计。

除了上述三种常用的声源定位方法外,近年来有不少学者提出一些新的方法,如基于匹配域处理的方法、基于空间时域分布分析的方法等等。

1.2.3LabVIEW的信号处理应用

为了将

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > PPT模板 > 动态背景

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2