噪声环境下语音端点检测技术的开发Word格式文档下载.docx

上传人:b****1 文档编号:242607 上传时间:2023-04-28 格式:DOCX 页数:21 大小:99.84KB
下载 相关 举报
噪声环境下语音端点检测技术的开发Word格式文档下载.docx_第1页
第1页 / 共21页
噪声环境下语音端点检测技术的开发Word格式文档下载.docx_第2页
第2页 / 共21页
噪声环境下语音端点检测技术的开发Word格式文档下载.docx_第3页
第3页 / 共21页
噪声环境下语音端点检测技术的开发Word格式文档下载.docx_第4页
第4页 / 共21页
噪声环境下语音端点检测技术的开发Word格式文档下载.docx_第5页
第5页 / 共21页
噪声环境下语音端点检测技术的开发Word格式文档下载.docx_第6页
第6页 / 共21页
噪声环境下语音端点检测技术的开发Word格式文档下载.docx_第7页
第7页 / 共21页
噪声环境下语音端点检测技术的开发Word格式文档下载.docx_第8页
第8页 / 共21页
噪声环境下语音端点检测技术的开发Word格式文档下载.docx_第9页
第9页 / 共21页
噪声环境下语音端点检测技术的开发Word格式文档下载.docx_第10页
第10页 / 共21页
噪声环境下语音端点检测技术的开发Word格式文档下载.docx_第11页
第11页 / 共21页
噪声环境下语音端点检测技术的开发Word格式文档下载.docx_第12页
第12页 / 共21页
噪声环境下语音端点检测技术的开发Word格式文档下载.docx_第13页
第13页 / 共21页
噪声环境下语音端点检测技术的开发Word格式文档下载.docx_第14页
第14页 / 共21页
噪声环境下语音端点检测技术的开发Word格式文档下载.docx_第15页
第15页 / 共21页
噪声环境下语音端点检测技术的开发Word格式文档下载.docx_第16页
第16页 / 共21页
噪声环境下语音端点检测技术的开发Word格式文档下载.docx_第17页
第17页 / 共21页
噪声环境下语音端点检测技术的开发Word格式文档下载.docx_第18页
第18页 / 共21页
噪声环境下语音端点检测技术的开发Word格式文档下载.docx_第19页
第19页 / 共21页
噪声环境下语音端点检测技术的开发Word格式文档下载.docx_第20页
第20页 / 共21页
亲,该文档总共21页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

噪声环境下语音端点检测技术的开发Word格式文档下载.docx

《噪声环境下语音端点检测技术的开发Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《噪声环境下语音端点检测技术的开发Word格式文档下载.docx(21页珍藏版)》请在冰点文库上搜索。

噪声环境下语音端点检测技术的开发Word格式文档下载.docx

Thispaperisorganizedintofourchapters:

Chapter1chapter1describessomehistory,difficultyofthecurrentusedSpeech/non-speechdetectionsystemandtheconsigningunit’sdemands;

Chapter2presentssomecomposingpartandgeneraltheoryofthespeechrecognitiontechnologyandSpeech/non-speechdetectionsystem;

Chapter3describesindetailthemethodofSpeech/Non-Speechdetectionusingthepolaritycorrelationinadverseconditions;

Chapter4describesthesumming-upandvista.

Keywords:

Speech/non-speechdetection,Polaritycorrelation,Similarity,SpeechRecognition.

目录

第一章引言1

1.1课题的研究背景与意义1

1.2历史与现状1

1.3我的工作1

第二章语音信号处理与语音端点检测2

2.1汉语语音基础及其特性2

2.2语音信号分析与特征提取2

2.2.1语音特征2

2.2.2时域分析2

2.2.2.1语音信号的基本短时参数2

2.2.2.2短时平均能量3

2.2.2.3短时过零率特征3

2.2.2.4相关函数3

2.3噪声环境下语音端点检测的实现4

2.3.1语音端点检测与基音周期4

2.3.2语音端点检测的方法4

2.3.2.1基于信号的短时能量及过零数参数的语音端点检测法4

2.3.2.2基于信号的相关函数的语音端点检测法5

2.3.2.3其它检测方法5

第三章基于信号的极性相关函数的语音端点检测法6

3.1极性自相关函数6

3.2正、负极性相关序列6

3.3正、负极性相关序列间的相似性8

3.4类似度8

3.5基于极性相关法的语音端点检测的探讨9

3.6极性相关法算法的实现10

3.7实验结果11

3.8本章小结12

第四章总结和展望13

参考文献14

致谢15

第一章引言

1.1课题的研究背景与意义

汉语语音识别技术在电话语音拨号、家电语音遥控、工业控制等诸多领域有着极大的应用价值,进入九十年代,语音识别方面的研究进一步升温,语音识别技术正趋于成熟,还出现了诸多实用化的研究方向。

但在实际应用中,语音识别需要能排除各种环境因素的影响,语音识别系统的性能受到各种因素的影响,包括不同的说话人、说话方式、环境噪音、传输信道等。

语音识别系统中的噪声,包括环境噪音和录音过程中的噪声,在实验室环境下,计算机语音识别系统有着很好的性能,但在公共场合系统的识别性能将急剧变坏,你几乎不可能指望计算机听懂你的话,来自四面八方的声音让它茫然而不知所措,因此提高各种环境下的语音识别能力是很有必要的,语音端点的检测准确性是影响语音识别能力的重要因素。

1.2历史与现状

语音识别技术的研究工作始于20世纪50年代,至今已走过了五十年的历程。

语音识别方法较多,并且不断发展出新方法,既有基于固定检测条件的非自适应检测方法,又有基于语音与噪声的统计信息的自适应检测方法。

非自适应语音识别方法常用于信号与噪声均较稳定且信噪比较高的场合,对语音识别的准确性要求不太高,实现较容易;

自适应语音识别方法适应性广,对有声/无声语音识别的准确性可以作得很高,但实现起来相对来说难一些。

判决算法在有关的语音文献中已有大量报道,但是大部分算法都要求背景噪声保持平稳,信噪比较高,并且需要一定的训练算法以预先得到语音及背景噪声的统计信息。

另外,大部分算法耗时多,不易实时实现。

不论是非自适应语音识别方法还是自适应语音识别方法,归纳起来,常用的语音端点的检测方法大体上有以下几种:

信号能量(功率)检测法;

信号的频谱分析和判别法;

信号能量检测和信号频谱分析、判别综合法;

零交叉数分析以及音节识别法等,其中,音节识别法常用于语音识别领域,算法复杂,难以实时运用;

零交叉数分析则易受噪声的影响。

1.3我的工作

其主要内容为∶

(1)对各种语音端点检测的实现方法进行了介绍。

(2)着重对基于极性相关法的带噪语音端点检测进行了探讨。

本研究工作的主要成果为∶

对在噪声环境下的基于相关法的端点检测算法进行了详细分析,在此基础上提出了一种基于极性相关法的端点检测算法,提供了相应的关键算法,通过对语音识别实验的比较,考察了该算法的有效性和实用性。

与传统的语音端点检测法相比,本文提出的端点检测法能使语音/非语音成份估计及分离变得更为有效和方便,同时由于极性相关法采用取小累加处理法从而使得端点检测运算量可大为减少,明显提高了运算速度,可满足实时要求。

第二章语音信号处理与语音端点检测

2.1汉语语音基础及其特性

汉语语音的最小组成单位是音素,最小发声单元是音节。

一个音节是由元音和辅音构成的。

无论从能量上看还是从时间上看,元音在一个音节中都是占主要部分。

所有的元音都是浊语音。

辅音则是出现在音节的前端、后端或前后端,具有调整和辅助发音的作用。

在语音信号中,若辅音遭到破坏,则将从很大程度上影响语音的清晰度。

根据语音学知识,汉语语音的频谱特点如表1:

表1汉语语音频谱特点

浊语音

清辅音

元音

浊辅音

频谱低频(0.1至0.4kHz间)能量较高;

频谱中频(0.64至2.8kHz)能量较高

频谱中频(0.64至2.8kHz)能量较低

频谱高频(3.5kHz以上)能量较高

从语音产生的机理上看,清音和浊语音两者有明显的差异,因而在特征上也有明显的区别。

浊语音在时域上呈现出明显的周期性,在频域上有共振峰结构,而且能量大部分集中在较低频段内。

清语音则完全不同,它没有明显的时域和频域特征,类似于白噪声。

在语音识别中可以利用浊语音的周期性特征来提取语音分量或抑制非语音信号,而清语音则难以与宽带噪声区别。

[1][2]

2.2语音信号分析与特征提取

语音信号处理包括语音特征提取和端点检测两部分

2.2.1语音特征 

在语音信号分析中,我们首先要研究语音信号的特点,语音特征的提取与选择是语音识别的一个重要环节,其目的是从语音波形中提取出随时间变化的语音特征序列。

语音特征的提取既是一个信息大幅度压缩的过程,也是一个信号解卷过程,目的是使模式划分器能更好地划分。

由于语音信号的时变特性,特征提取必须在一小段语音信号上进行,也即进行短时分析。

这一段被认为是平稳的分析区间称之为帧,帧与帧之间的偏移通常取帧长的1/2或1/3。

通常要对信号进行预加重以提升高频,对信号加窗以避免短时语音段边缘的影响。

语音信号的特点可以从时域和频域上加以讨论。

2.2.2时域分析

2.2.2.1语音信号的基本短时参数

通常认为,在20~40ms的短时间内语音信号具有短时平稳性,可以用短时平稳的分析方法,因此语音信号常被分段或分帧处理。

一般来说每秒的帧数约为33~100,视实际情况而定。

语音信号的基本参数有短时平均能量、短时过零率、自相关函数和幅差函数等。

2.2.2.2短时平均能量

信号流的分帧是采用可移动的有限长度窗口进行加权的方法来实现的。

当窗的起点n=0时,语音信号的短时能量用E0来表示,其计算公式如下:

(1)

如果窗的起点不是n=0而是某个其他整数m,那么相应的短时能量用Em表示,其取和限为n=m~(m+N-1)。

(2)

2.2.2.3短时过零率特征

语音信号的短时过零率是指单位时间内信号波形穿过横轴(零电平)的次数。

抽样后的语音信号是离散的时间序列,其过零即是指序列取样值改变符号,过零率则是指相当每个样本的改变符号的次数。

当窗起点为n=0时,信号的短时过零率用Z0表示,它可以用相邻两个取样改变符号的次数来计算如下:

(3)

同样,当窗的起点不是n=0而是某个其他整数m,那么相应的短时过零率用Zm表示。

2.2.2.4相关函数

相关函数经常被用于语音信号的时域分析中。

例如,发浊音时语音波形序列具有短时周期性,因此,可以用自相关函数找出这个周期,这也就是音调周期,此外,在线性预测分析中也要用到自相关函数。

自相关函数的定义式如下:

设Sw(n)是一段加窗语音信号,它的非零区间为n=0~(N-1),Sw(n)的相关函数称为语音信号S(n)的短时相关函数,用Rw(l)表示,计算公式为

(4)

因为相关函数是偶函数,所以Rw(l)=Rw(-l),Rw(l)在l=[(-N+1),(N-1)]区间之外恒为0,Rw(l)的最大值在l=0处,且Rw(0)等于加窗语音的平方和,即

(5)

2.3噪声环境下语音端点检测的实现

2.3.1语音端点检测与基音周期

语音端点检测就是从包含语音的一段信号中确定出该语音的起始点及终止点。

语音端点的检测在语音信号分析与特征提取中有着极其重要的意义,影响语音识别能力的一个重要因素就是端点检测的准确性。

据统计,在10个英语数字的识别系统中,60毫秒的端点误差就使识别率下降3%[3],而在更加广泛应用的系统中,各种干扰因素更加复杂,由于背景噪声或人为呼吸等原因产生的杂音,使得语音的端点比较模糊,使语音端点的精确检测问题更加困难,因此如何提高噪声环境下语音端点的精确检测,提高语音识别率就成为人们不断追求的目标。

[4]

就目前而言,语音端点的检测主要依赖于对清音和浊音的判断、对基音周期估计,这两者是语音端点检测的关键。

清浊音判断和提取基音周期常常是结合在一起的。

前面说过,清语音是没有周期性的,而浊语音有较强的周期性,如果能计算出短时语音的基音周期,就可以求出短时语音在此周期下的“周期程度”,如果对此“周期程度”设置一个判决阈值,大于此阈值的为浊语音,小于此阈值的为清语音。

此方法虽然看起来比较简单,但是在实际计算中会遇到不少问题。

例如清语音在偶然的情况下会有很相似的前后两帧语音,这样就把清语音误判为浊语音。

而在浊语音中,特别是在频率比较高或有噪音的情况下,有时计算出的周期性不是很好,就容易把浊语音判断为清语音。

2.3.2语音端点检测的方法

2.3.2.1基于信号的短时能量及过零数参数的语音端点检测法

由于语音信号的准平稳性,使得要对语音信号做数字处理必须先按短时段对语音信号分帧,这在判定语音信号开始后,对输入的每个语音帧实时进行特征提取。

语音中的浊语音成分过零率较低,而由于类似于白噪声,所以过零率较高。

但由于浊音是语音信号的主要成分,所以语音信号的短时过零率较低;

噪声的短时过零率较高。

这主要是因为语音信号的能量主要集中在较低的频率范围内,而噪声信号的能量主要集中于较高的频段,因此计算该帧语音的短时能量、短时过零率及短时低频(100Hz-400Hz)能量,可以对语音端点进行检测。

它的优点是简单、直观、容易实现,它的缺点是在实验室条件下能达到较高的识别率,但到了存在一定背景噪声,特别是强背景噪声的应用场合,性能将会急剧下降。

[6]

2.3.2.2基于信号的相关函数的语音端点检测法

相关函数被认是估计基音周期最有前途方法,特别是自相关函数在经常使用,因为它被认为可以提高在噪声环境下的鲁棒性。

基于信号的自相关函数的语音端点检测法是利用带噪信号帧中的噪声能量主要集中在该帧零次自相关值附近的特性,及信号与噪声、噪声与噪声可视为互不相关的特性,在自相关域中去除噪声成份。

自相关序列有几个重要性质:

序列总能在原点归一化为1,在自相关分析中,基音周期估算值通常是用某一特定范围内最大自相关值的位置来确定的。

由于发浊语音时语音波形序列具有短时周期性,因此,可以用自相关函数找出这个周期,这也就是基音周期,这样就可以以其自相关函数值为参数进行端点检测。

自相关序列中基音周期峰值的动态范围通常小于10分贝。

而直接从声波波形用模拟器件进行基音提取的装置,需要峰值检测能力大于30dB。

与基于信号的短时能量及过零数参数的语音端点检测法相比,它提高了在噪声环境下语音端点的检测准确性[5]。

2.3.2.3其它检测方法

除了上述检测方法,为了求基音周期和语音端点,还有其它多种方法,例如基于短时平均幅度差函数(AMDF)的基音周期估计;

基于协方差的语音端点检测法;

利用频谱特性中倒谱和复倒谱来对基音周期进行估计等许多检测方法,限于篇幅这里就不再赘述了。

第三章基于信号的极性相关函数的语音端点检测法

在语音/非语音检测中有多种的自相关函数计算方法,其中有循环相关等。

一般而言,自相关函数运算法需要乘积的累加处理,计算量是很大的。

例如,对于f=10kHz,基音周期希望从2-17ms(至少用340个样值的窗),为实现相关运算,每个分析帧约要进行25000次乘加运算,这就影响了它的速度和效率[5]。

为此我们建议采用极性相关法来改进自相关函数的性能。

在正、负极性相关函数方法中,用取小累加处理来代替乘积的累加处理,这可以明显提高自相关函数的计算速度。

[7]

3.1极性自相关函数

设一段语音信号xl(i),它可以用下列公式表示:

其中l表示语音的帧数,xl+(i)表示语音的正信号,xl-(i)表示语音的负信号。

则正、负极性相关函数可定义如下:

其中j是延迟帧的数量(j=0,1,…,N-1),N是语音长,

3.2正、负极性相关序列

对于同一语音帧,先将其分成正极性和负极性两种信号,利用极性自相关函数进行自相关处理后,可产生正极性、负极性两极性语音信号的自相关函数值序列,通过考察这两个正、负自相关序列在语音/非语音段过渡区的相关特征,可实现含噪语音/非语音段的检测。

下面提供了三个例子:

例一:

有发声语音信号时的正、负极性相关序列图

图1

图1显示了一正、负极性相关序列的例子,这是一段中国人说"

大学"

这个单词中元音/a/时的语音时域波形,它的帧长为20ms。

这里基音周期能通过在该语音时域波形在第三顶点微弱的增加被发现。

运用在正、负极性相关序列,我们能改善比如半音高以及双音高该音高在提取时的误差。

此外,也可通过使用这类正、负极性相关序列来检测浊语音/清语音(V/U)[4]。

例二:

不发声语音信号时的正、负极性相关序列图

图2

(a)中国人说"

这个单词中不发声的辅音/d/时的语音时域波形

(b)该语音的正极性相关序列

(c)该语音的负极性相关序列

图2显示了一个正、负极性相关序列的例子,这是一段中国人说"

这个单词中不发声的辅音/d/时的语音时域波形,它的长度为20ms。

例三:

背景噪声信号时的正、负极性相关序列图

图3

这个单词中元音/a/时的语音时域波形

图3显示的一个正、负极性相关序列的例子来自背景噪声片段。

3.3正、负极性相关序列间的相似性

叠加了背景噪声的语音输入信号可以划分为三个部分:

有发声的语音(浊语音),不发声的语音(清语音),以及背景噪声。

在这里,语音是指有发声的语音和不发声的语音,非语音是指不存在语音面而只有背景噪声的情况。

从例1以及例2的语音部分可以看到,有发声的语音的正相关序列Rl+(j)在外形上非常类似于负相关序列Rl-(j)。

不发声的语音部分比有发声的语音部分更值得注意,可以观察到,它有相当程度上的类似性。

然而,从例3可以看到,背景噪声部分没有类似性。

因此我们可以设想一个通过运用类似性来检测语音/非语音的新方法。

对于同一语音帧,我们先将其分成正极性和负极性两种信号,然后分别对它们进行自相关处理后就可得到两个子相关函数值的序列,即基于正极性信号的自相关函数值序列和基于负极性信号的自相关函数值序列。

这两个子相关函数值序列,在有声语音段时具有很高的相似性,而在非有声语音段时相似性很低,利用这个特点我们可以判断有声语音还是非有声语音,因为在语音段,非语音段和过渡段,类似度是不同的,所以能用有效地来判断语音/非语音段。

3.4类似度

为了测量正相关序列Rl+(j)以及负相关序列Rl-(j),我们使用了类似度这个概念,它的定义如下:

(采用皮尔森相关系数)

(10)

这里

类似度的阈值用来判断语音\非语音段。

3.5基于极性相关法的语音端点检测的探讨

在极性相关法中,类似度Sl和短时能量El的乘积被用来强调清语音部分特征的检测。

由于清语音有类似于噪音的统计特性,一些常用的方法对从噪音中区别清语音信号无能为力。

在低信噪比环境下,基于信号的短时能量的端点检测方法不能做得足够好,因为估计适当的阈值是困难的,同时这种方法也有一个趋向,它会切掉低能量清语音(磨擦声,比如/f/、/s/)。

在一些算法中,其他的特性参数,比如过零率等可以改进语音识别,但是这些算法在高噪音条件下仍然未有好的表现。

在本例中类似度Sl可以用短时能量El的值来定位,但是类似度Sl是一个主要的特性参数,短时能量El是一个补充的参数,这和传统的基于信号的短时能量及过零数参数方法不同。

一个运用类似度Sl和短时能量El的乘积的例子来自图4。

不言而喻,在与信号的短时能量参数相比,使用基于类似度的方法能更好显示语音信号特性。

(a)一段中文的原始的纯净语音信号

(b)一段添加了SNR=5dB白色噪声的混浊语音信号

(c)采用移动平均法所得的每帧参数Sl的平均值

(d)每帧能量El的值和乘积参数Sl*El

图4类似度Sl在检测语音/非语音方面的效果

3.6极性相关法算法的实现

在本检测算法,我们使用类似度Sl和记录-能量El作为SEl判断特性,通过用两个杠杆方法检测语音/非语音。

该语音/非语音检测算法通过两个阶段完成。

具体算法如下:

第一阶段:

寻找边界候选者

Step1j=1,l=0;

计算l=0时的短时能量El,类似度Sl,每个帧的参数SEl;

Step2

l=l+1,ifl=L+1thengotostep5;

else,计算得到l+1时SEl的值,if该值小于TH1的值,continuestep2;

else用i记录帧位置,gotostep3;

Step3

else,计算得到l+1时SEl的值,if该值大于TH2,then从帧位置i反方向移动,直至SEl曲线的谷底,将帧位置赋予b'

j

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 经管营销 > 经济市场

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2