基于麦克风阵列的声源定位技术的研究资料下载.pdf

上传人:wj 文档编号:5982137 上传时间:2023-05-05 格式:PDF 页数:78 大小:5.09MB
下载 相关 举报
基于麦克风阵列的声源定位技术的研究资料下载.pdf_第1页
第1页 / 共78页
基于麦克风阵列的声源定位技术的研究资料下载.pdf_第2页
第2页 / 共78页
基于麦克风阵列的声源定位技术的研究资料下载.pdf_第3页
第3页 / 共78页
基于麦克风阵列的声源定位技术的研究资料下载.pdf_第4页
第4页 / 共78页
基于麦克风阵列的声源定位技术的研究资料下载.pdf_第5页
第5页 / 共78页
基于麦克风阵列的声源定位技术的研究资料下载.pdf_第6页
第6页 / 共78页
基于麦克风阵列的声源定位技术的研究资料下载.pdf_第7页
第7页 / 共78页
基于麦克风阵列的声源定位技术的研究资料下载.pdf_第8页
第8页 / 共78页
基于麦克风阵列的声源定位技术的研究资料下载.pdf_第9页
第9页 / 共78页
基于麦克风阵列的声源定位技术的研究资料下载.pdf_第10页
第10页 / 共78页
基于麦克风阵列的声源定位技术的研究资料下载.pdf_第11页
第11页 / 共78页
基于麦克风阵列的声源定位技术的研究资料下载.pdf_第12页
第12页 / 共78页
基于麦克风阵列的声源定位技术的研究资料下载.pdf_第13页
第13页 / 共78页
基于麦克风阵列的声源定位技术的研究资料下载.pdf_第14页
第14页 / 共78页
基于麦克风阵列的声源定位技术的研究资料下载.pdf_第15页
第15页 / 共78页
基于麦克风阵列的声源定位技术的研究资料下载.pdf_第16页
第16页 / 共78页
基于麦克风阵列的声源定位技术的研究资料下载.pdf_第17页
第17页 / 共78页
基于麦克风阵列的声源定位技术的研究资料下载.pdf_第18页
第18页 / 共78页
基于麦克风阵列的声源定位技术的研究资料下载.pdf_第19页
第19页 / 共78页
基于麦克风阵列的声源定位技术的研究资料下载.pdf_第20页
第20页 / 共78页
亲,该文档总共78页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

基于麦克风阵列的声源定位技术的研究资料下载.pdf

《基于麦克风阵列的声源定位技术的研究资料下载.pdf》由会员分享,可在线阅读,更多相关《基于麦克风阵列的声源定位技术的研究资料下载.pdf(78页珍藏版)》请在冰点文库上搜索。

基于麦克风阵列的声源定位技术的研究资料下载.pdf

2DMUSIC算法能够精确的估计基于任意阵列的语音信号的二维角度俯仰角和方位角,然后把基于子空间的测向算法和定位算法结合起来,提出了新的基于麦克风阵列的远场定位算法一一垂心定位法。

该方法与传统的测向交叉定位法相比精度更高,抗噪性更好。

关键词:

麦克风阵列,声源定位,波束形成,高阶统计量,子空间A8STRACTABSTRACTMicrophonearraysarewidelyusedinaudiovideoconferences,speechrecognitions,andspeechenhancementsetcSpeechlocalizationtechnologybasedonmicrophonearraysisoneofthearraysignalprocessingkeytechnologiesItisanewhotspotinacousticsignalprocessingfieldFocusonthistechnology,thefollowingworkhasbeendone:

nebasictheoriesofmainkindsofspeechlocalizationtechnologieshavebeensummarized。

Arealizationmodeofroomimpulseresponseinroomreverberationenvironmentisproposed,usingray-tracingmethodAcousticsignalpro-processisproposed,becauseoftheparticularityoftheacousticsignalandtheroomreverberationenvironment,includingpre-filtering,voiceactivitydetectionetcInactualuse,acousticsignaliseitherinnearfieldorinfarfield,SOweresearchthespeechlocalizationtechnologyinthetwoconditionsrespectivelyInnearfield,weusenear-fieldadaptivebeamformingandspeechlocalizationbasedonhigherorderstatisticsThepresentedrobustnear-fieldadaptivebeamformerisdevelopedbycombininganewformulationofthepon-constrainedrobustbeamformerandaself-calibrationtechnique3-DESPRITalgorithmisusedtoestimatethespeechlocation,andcomparedwiththetraditionalnear-filedsoRrcglocalizationmethodInfarfield,weresearchedthesubspacemethodItiSconsistsoftwoparts,souEcedirectiontechnicalandsourcelocatingtechnicalThespeechlocalizationtechnologyusingorthocenterlocalizationalgorithmhasbeenproposedAsubspacemethod2一DMUSICalgorithmisappliedtoestimatetheplaneangleandthepolarangleW髓thebearingresultsofsubarrays,main-arrayconfirmsapointinthetriangleenclosedbylocationlinesasthetargetpositionKeyword:

microphonearray,speechlocalization,beamforming,higlaorderstatistics,subspacemethodII独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。

据我所知,除了文中特多l,J)Jn以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。

与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。

签名_盖j兰圈期:

年,ElEt关于论文使用授权的说明本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。

本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。

(保密的学位论文在解密后应遵守此规定)签名一兰竣导师签名:

蜀期:

o第一章引言11研究背景第一章引言语言是人类特有的功能,声音是人类常用的工具,是相互传递信息的最主要的手段。

通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息的形式。

因此,语音信号是人们构成思想沟通和感情交流的最主要的途径。

并且,由于语音和语音与人的智力活动密切相关,与社会文化和进步紧密相连,所以它具有最大的信息容量和最高的智能水平。

现在,人类已开始进入了信息化时代,用现代手段研究语音处理技术,使人们能更加有效地产生、传输、存储、获取和应用语音信息,这对于促进社会的发展具有十分重要的意义。

麦克风阵列是指由一定的几何结构排列而成的若干个麦克风组成的阵列。

相对于单个麦克风而言具有更多优势,它可以电子瞄准的方式从所需要的声源方向提供高质量的声音信号,同时抑制其他人的声音和环境噪声,具有很强的空间选择性,而且不需移动麦克风就可获取移动的声源信号,同时它还可以在一定的范围内实现声源的自适应检测、定位及跟踪,这使得它在诸多领域有着广泛的应用。

基于麦克风阵列的声源定位是指用麦克风阵列拾取声音信号,通过对多路声音信号进行分析与处理,在空间域中定出一个或是多个声源的平面或空间坐标,即得到声源的位置,以进一步控制摄像机和麦克风阵列波束对准正在说话的人。

传统定位是采用雷达技术,而基于麦克风阵列的定位系统相对于传统的雷达跟踪定位而言具有隐蔽性、不易受干扰。

正是由于其独特优势,基于麦克风阵列的应用已经成为一门新型的技术。

同时,由于它涉及到阵列信号处理、数字信号处理、模式识别和数据融合等多方面的理论知识,因而成为语音信号处理中难度大、且具有挑战性的研究课题。

早在20世纪七八十年代,就已经开始将麦克风阵列应用于语音信号处理的研究中,进入90年代以来,基于麦克风阵列的语音信号处理算法逐渐成为一个新的研究热点【IJ。

1985年Flanagan将麦克风阵列引入到大型会议的语音增强中,并开发出很多实际产品。

1987年Silverman将麦克风阵列引入到语音识别系统,1992年又将阵列信号处理用于移动环境下的语音获取,后来将其应用于说话人识别。

1995年Flanagan在混响环境下用阵列信号处理对声音进行捕获。

1996年Silverman电子科技人学硕士学位论文和Brandstein开始将其应用于声源定位中,用于确定和实时跟踪说话人的位置。

目前麦克风阵列系统已有许多应用,其中在民用上包括视频会议2】【3】【41、语音识别【51、车载系统环境、大型场所的会议记录系统以及助听装置【6】等;

军用上17】包括声纳系统对水下潜艇的跟踪及无源定位直升机和其他发声设备上。

在国外,很多著名的公司和研究机构,如IBM,BELL等,正致力于麦克风阵列的研究和产品,而且已经有了一些初期产品进入市场。

这些产品已经应用到社会生活的各个场合并体现出了极大的优越性。

遗憾的是,在国内,到目前为止还没有自主产权的麦克风阵列产品。

因此,研究我国自主的基于麦克风阵列的语音处理算法和技术具有重要的意义。

我国一些企业、研究所和高校做了大量的相关工作,但是目前对声源定位的研究才算刚刚起步。

12麦克风阵列声源定位技术概述基于麦克风阵列的声源定位方法大体上可分为三类【9】:

(a)基于到达时延(TDOA)的定位技术。

该方法首先求出声音到达不同位置麦克风的时延,再利用这些时延求得声音到达不同位置麦克风的距离差,最后用搜索或几何知识确定声源位置;

(b)基于可控波束形成的定位技术。

该方法对麦克风阵列接收到的语音信号进行滤波、加权求和,然后直接控制麦克风指向使波束有最大输出功率的方向;

(c)基于子空间的定位技术。

该方法利用求解麦克信号间的相关矩阵来定出方向角,从而进一步定出声源位置。

121基于到达时延的定位技术基于到达时延(TimeDelayofArrival,TDOA)声源定位方法是应用最广泛的方法。

它首先估计出声源到达麦克风阵列的各阵元的相对时延,再利用时延算出声源到达各阵元的距离差,最后用搜索或几何算法确定声源位置【lo】。

基于TDOA的源定位一般分为两个步骤进行【lI】:

第一步,先进行时延估计(TDE)并从中获得麦克风阵列中相应阵元对之间的TDOA。

TDE的方法大致可分为广义互相关(GeneralizedCrossCorrelation,GCC)法、LMS自适应滤波器法、线形回归(LinearRegression,LR)法和互功率谱相位(CrosspowerSpectralPhase,CSP)法四种。

第二步,利用TDOA结合已知的麦克风阵列的空间位置进行定位估计,主要的方法有ML(最大似然)法、SI(SphericalInterpolation,球形插值)法和LI(LinearIntersection,线性相交)法几种。

2第一章引言在现有麦克风器阵列声源定位中,基于时间到达差的定位方法精度相对较高,计算量是三种方法中最小的,可以考虑在实际中实时实现。

不过由于该方法的定位分为2个过程(时延估计和定位),在定位时所使用的参数是过去时间,因此该估计只是一个次最优的定位。

同时该定位比较适合单声源的定位,对多声源的定位效果不是很好,房间的混响也会影响定位的准确性。

122基于可控波束形成的定位技术在这三种定位方法中,基于可控波束形成的定位技术是出现较早且已应用于实际的一种定位方法,较多的用于雷达、声纳以及移动通信的信号处理中。

波束形成的基本思想是将各阵元采集信号进行了加权求和形成波束,进而通过搜索声源可能的位置来引导波束,修改权值使麦克风阵列的输出信号功率达到最大,波束输出功率最大的点就是声源的位置。

文献【12】t31是最早提出该方法的理论基础。

基于可控波束形成的定位技术,主要分为延迟累加波束算法和自适应波束算法。

前者运算量较小,信号失真小,但抗噪性能差,需要较多的阵元才有比较好的效果。

后者因为加了自适应滤波,所以运算量大比较大,而且输出信号有一定程度的失真,但需要的麦克风数目相对较少,在没有混响时有比较好的效果。

可控波束形成技术本质上是一种最大似然估计,它需要声源和环境噪声的先验知识。

而实际使用中,这种先验知识往往很难获得。

同时进行定位估计是一个非线性优化问题,这类非线性优化的目标函数往往有多个极点,对初始点选取很敏感。

用传统的梯度下降法往往容易陷于局部极小点,从而不能找到个局最优点,若采用别的搜索方法来找个局最优点,就会增加计算复杂度,不适用于实时系统。

波束形成算法已经广泛的应用于基于麦克风阵列的语音拾取领域,但要达到稳健有效的声源定位还十分困难。

本文针对近场环境,对稳健的自适应波束形成算法进行了研究。

123基于子空间的定位技术、:

基于子空间的定位技术来源于现代高分辨率谱估计技术。

子空间技术是阵列信号处理技术中研究最多、应用最广、最基本也是最重要的技术之一。

该类声源定位技术是利用接收信号相关矩阵的空间谱,求解麦克风间的相关矩阵来确定方向角,从而进一步确定声源位置。

子空间类方法主要分两类,一类是利用阵列自相关矩阵主特征向量(即信号子空间)的主分量方法,如AR参数模型主分量法,电子科技大学硕士学位论文BT主分量法等;

另一类方法是以信号子空间和噪声子空间的正交性原理为基础,利用组成噪声子空间的特征向量来进行谱估计,这类算法主要有多重信号分类法(MUSIC)141,Johnson法,最小范数(Mini-Norm)法,MUSIC根(RootMUSIC)法【l卯,旋转不变信号参数估计(ESPRIT)法,等等。

在实际中,基于子空间的定位技术的空间谱的相关矩阵是未知的,必须从观测信号中来估计,需要在一定时间间隔内把所有信号平均来得到,同时要求接收信号处于声源、噪声、估计参数固定不变的环境和有足够多的信号平均值。

即便满足这此条件,该算法也不如传统的波束形成方法对声源和麦克风模型误差的鲁棒性好。

目前定位问题所涉及算法都是研究远场的线性阵列情况。

基于子空间的定位技术是通过时间平均来估计信号之间的相关矩阵,需要信号是平稳过程,估计参数固定不变,而语音信号是一个短时平稳过程,往往不能满足这个条件。

该定位方法的效果和稳定性不如可控波束形成法,但每次迭代的计算复杂度不像可控波束形成那么苛刻。

此外还要求阵列处于远场情况,而且该方法主要针对窄带信号,而语音信号是宽带信号。

虽然如此,在适当的改进后,也可用于近场环境。

本文针对近场、远场两种模型,对基于子空间的声源定位进行了研究。

13基于麦克风阵列的声源定位技术的难点基于麦克风阵列的语音信号处理是阵列信号处理的一种,但它又不同于传统的阵列信号处理,其主要技术难点如下:

1、麦克风阵列模型的建立:

麦克风阵列主要用于处理语音信号,声源信号可能位于麦克风阵列的远场范围内,也可能位于麦克风阵列近场范围内。

如果声源信号位于麦克风阵列近场范围内,此时传统阵列处理,如雷达、声纳等,所用的平面波前远场模型不再适用,必须使用更为精确的球面波前模型【16】。

球面波前模型必须考虑由于传播路径不同所带来的幅度衰减的不同,即除了信号的到达方向外,还需要考虑声源与麦克风阵列之间的距离。

所以,进行麦克风阵列研究,除了要建立常规的平面波前远场模型以外,必须建立适用于麦克风阵列的球面波前近场模型。

2、阵列宽带信号的处理:

传统的阵列处理的信号一般是窄带信号。

阵元之间接收到的信号的时延和相位差主要由载波确定。

在麦克风阵列处理中,拾取到的语音信号没有经过调制,也没有载波,阵元之间接收到的信号的时延和相位差由4第一章弓|富信号源的特性来决定。

麦克风接收到的语音信号频率一般在3003000Hz之间,阵列之间的时延和相位差与信号源的频率关系密切。

因此,麦克风阵列处理的信号可以看成是一个宽带信号,这使得阵列处理更加困难。

3、非平稳信号的处理:

传统的阵列处理的接收信号一般为平稳信号,丽麦克风阵列中的接收信号为菲平稳的语音信号。

语音信号从整体来看其特性及表征其本质特征的参数均是随时间而变化的,所以它是一个非平稳态过程,不能用处理平稳信号的数字信号处理技术对其进行处理分析。

虽然语音信号具有时变特性,但是在一个短时间范围内(一般认为在10。

30ms的短时间内),其特性基本保持不变即相对稳定,因丽可以将其看作是一个准稳态过程,帮语音信号具有短时平稳性。

所以任何语音信号的分析和处理必须建立在“短时的基础上,即进行“短时分析一,将语音信号分成一段一段来分析其特征参数,其中每一段称为一“帧,帧长一般取为1030ms。

这样,对于整体的语音信号来讲,分析出的是由每一帧特征参数组成的特征参数时间序列。

本文结合上面的宽带和非平稳的情况,对麦克风阵列静处理过程为先把接收信号经过一个短时傅立时变换,求出萁短时谱,然后在频域进行处理。

每一频率对应一个相位差。

麦克风阵列的信号处理其实质是将宽带信号在频域上分成多个子带,对每一个子带应用传统的窄带处理,放瑟褥到接收信号的空间谱。

14影晌麦克风阵列定位性能的因素影响麦亮风阵列定位性缝的因素是多种多样的,主要概括如下:

l、背景噪声:

背景噪声是由于声源定位的环境主要为会场,多媒体教室,高速行驶的汽车内部丽带来的噪声。

鹜景噪声一般来说能量不会特别大,不会掩盖正常的语音。

背景噪声通常不具有空间方向性,或者说是一个全向噪声。

2、方向性干扰【l7】:

方向性干扰通常是点于扰源。

它可能是固定的,如风扇、空调等,也可能是移动的,如吸尘器等。

方向性干扰的能量有可能很大,足以掩盖正常的语音信号。

3、模型噪声:

严格来讲,模型噪声不是语音通信环境中的豳有噪声,人为雩|入的噪声。

如在计算各个统计量时,由于样本数有限,得到的估计值与真实值存在偏差等。

人们在使用各种算法进行噪声处理过程中,使得真实的数据模型和算法设定的数据模型之间存在差异,所以人们称之为模型噪声。

模型噪声的随机性很大,随时间、地点的改变嚣改变,影响了算法的处理性能。

电子科技人学硕士学位论文4、房间混响:

由于房间的反射,麦克风不仅接收到声源信号的直接到达部分,还接收到反射部分,从而使房间内部产生了混响。

由于混响的存在,导致了互相关函数或者波束的尖峰扩展,使得难以确定最大值,从而影响了麦克风阵列的定位性能。

5、麦克风的摆放及数量:

麦克风的间距和相对位置会极大地影响定位的精度,对于一个定位系统而言,麦克风的数量越多,麦克风的相对位置越多样化,提供的空间信息量越大,从而具有较高的定位精度。

而在实际系统中,麦克风的摆放位置比较固定。

所以需要尽量少的麦克风和固定摆法条件下,提高它的定位精度。

所以麦克风的摆放和数量影响着定位的性能。

15本文主要工作本课题的主要任务是研究基于麦克风阵列的声源定位技术。

根据课题本身的需要,本文所展开的主要工作包括:

(1)根据室内声源定位的环境,建立了室内混响模型。

(2)研究了语音信号的预处理过程。

通过语音信号的预处理使传统的阵列处理算法能应用于声源定位系统。

(3)研究了近场可控波束定位算法。

把基于自校正的稳健的自适应波束形成算法应用于近场,实现了对近场的麦克风阵列波束形成。

(4)研究了利用高阶统计量的近场源三维空间定位的算法,并把它用于声源定位系统。

(5)研究了基于子空间的远场声源定位算法,其中包括基于子空间的测向算法和定位算法。

提出了在远场环境下的新的声源定位算法。

(6)对本文所涉及到的几类算法的性能进行了比较。

本文的章节安排如下:

第一章介绍了基于麦克风阵列的声源定位的研究背景与发展现状、归纳总结了基于麦克风阵列的声源定位技术的几类基本技术的原理及优缺点,并讨论了声源定位的技术难度和影响声源定位性能的因素。

第二章根据室内声源定位的环境,建立了室内混响模型,利用声线跟踪法实现了房间脉冲响应的仿真。

讨论了语音信号预处理的过程,包括预滤波、加窗分帧处理和语音端点检测等。

第三章研究了近场可控波束定位算法,在定点约束波束形成的基础上,把6第一章引言基于自校正的

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > PPT模板 > 商务科技

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2