语音识别技术优秀论文二稿陈哲.docx

资源描述

语音识别技术优秀论文二稿陈哲.docx

《语音识别技术优秀论文二稿陈哲.docx》由会员分享，可在线阅读，更多相关《语音识别技术优秀论文二稿陈哲.docx（22页珍藏版）》请在冰点文库上搜索。

语音识别技术优秀论文二稿陈哲.docx

语音识别技术优秀论文二稿陈哲

南阳师范学院2012届毕业生

毕业论文（设计）

题目：

语音识别技术及发展

完成人：

陈哲

班级：

软件工程20班

学制：

2年

专业：

软件工程

指导教师：

赵艳丽

完成日期：

2012-04-14

摘要

（1）

1绪论

（1）

1.1本课题研究的背景与意义

（1）

1.2国内外研究概况（3）

1.3目前仍存在的问题（5）

1.3.1语音识别的方言和口音问题（5）

1.3.2信道问题（5）

1.3.3背景噪音问题（5）

1.3.4自然语音理解领域（5）

1.3.5语音合成（5）

2语音识别技术概述（6）

2.1语音识别的类型（6）

2.1.1以所要识别的单位来分（6）

2.1.2以说话人来分（6）

2.1.3以识别方法来分（6）

2.2语音识别的原理（7）

2.3语音识别的基本过程（7）

3语音识别的基本方法（8）

3.1基于语音学和声学的方法（9）

3.2模版匹配的方法（9）

3.2.1动态时间规整（DTW）（9）

3.2.2隐马尔可夫法（HMM）（9）

3.2.3矢量量化（VQ）（9）

3.3神经网络的方法（10）

4语音识别系统的结构和所面临的问题（10）

4.1语音识别系统的结构（10）

4.1.1语音信号预处理与特征提取（10）

4.1.2声学模型与模式匹配（11）

4.1.3语音模型与语音处理（12）

4.2语音识别所面临的问题（12）

4.2.1算法模型方面（12）

4.2.2自适应方面（12）

4.2.3强健性方面（13）

4.2.4多语言混合识别已经无限词汇识别方面（13）

4.2.5多语种交流系统的应用（13）

5语音识别的应用（14）

5.1语音识别的应用简介（14）

5.2语音识别在公安工作中的应用（15）

5.2.1历史背景和现状（15）

5.2.2在侦查工作中的应用（15）

5.2.3在抓捕中的应用（16）

5.2.4在取证中的应用（16）

5.2.5在执行取保候审、监视居住等强制措施中的应用（17）

6总结（17）

参考文献（18）

Abstract（18）

语音识别技术及发展

作者：

陈哲

指导教师：

赵艳丽

摘要：

语音是人们相互之间交流最直接最有效的方式，作为一种人机界面，语音与键盘、鼠标输入相比是最自然的输入方式。

语音识别技术从上世纪50年代开始到现在已经有了巨大进展，促使人们迫切把它推向实用领域，而不满足于只是理论研究。

人们期望通过在移动通讯设备中引入语音识别系统使得语音识别技术真正从实验室走向日常生活。

关键词：

语音识别；低代价；实时；端点检测；说话人自适应

1绪论

1.1本课题研究的背景与意义

随着现代科学的发展，人们在与机器的信息交流中，需要一种更加方便、自然的方式，而语言是人类最重要、最有效、最常用和最方便的通信形式。

这就很容易让人想到能否用自然语言代替传统的人机交流方式（如键盘、鼠标等）。

人机自然语音对话就意味着机器应具有听觉，能“听懂”人类的口头语言，这就是语音识别（SpeechRecognition）的功能。

语音识别是语音信号处理的重要研究方向之一，它是一门涉及面很广的交叉学科，与计算机、通信、语音语言学、数理统计、信号处理、神经生理学、神经心理学、模式识别、声学和人工智能等学科都有密切的联系。

它还涉及到生理学、心理学以及人的体态语言（如人在说话时的表情、手势等行为动作可帮助对方理解）[1]。

语音识别技术以语言为研究对象，涉及生理学、语言学、计算机及信号处理等多个领域，是语言信号处理的一个重要研究方向，在智能控制、多媒体、人机对话等方面有着极其广泛的应用前景。

特别是在各种智能机器人领域，基于语音识别技术的导航控制为人机交流、合作提供了有效的途径，成为当前智能机器人的热点之一。

语音是语言信息的载体，语音识别的基本任务是将输入的语音转化为相应的语言代码。

这样，不仅使存储或传输这样的语言代码时的数码率比起存储或传输原来有语音信号来大幅度降低，而且还在于它把一种连续的语音信号变成了一种有限符号，这样的符号容易被计算机（或专用信息处理单元）理解其含义，并且便于与人进行交流，因而语音识别得到十分广泛的应用[2]。

随着计算机技术、模式识别和信号处理技术及声学技术等的发展，使得能满足各种需要的语音识别系统的实现成为可能。

近二三十年来，语音识别在工业、军事、交通、医学、民用诸方面，特别是在计算机、信息处理、通信与电子系统、自动控制等领域中有着广泛的应用。

当今，语音识别产品在人机交互应用中已经占到越来越大的比例[3]。

语音识别技术发展到今天，除了PC机的语音识别系统正趋于成熟外，随着语音算法的深入研究和集成电路技术的发展，出现了一些具有实用价值和市场前景的语音识别芯片。

近年来，随着消费类电子产品对低成本、高稳健性的语音识别芯片的需求快速增加，使得语音识别系统大量地从实验室的PC平台转移到嵌入式设备中。

通过研究者的不断努力，现在嵌入式非特定人语音识别系统识别精度已经达到98%以上，而对特定人语音识别系统的识别精度就更高了[4]。

嵌入式语音识别系统与PC机的语音识别系统相比，虽然其运算速度和存储容量有限，但它具有自己的一些特点。

首先，它是一个完整的语音识别系统。

除语音识别功能外，为了有一个友好的人机界面和对识别正确与否的验证，该系统还具备语音提示（语音合成）及语音回放（语音编码记录）功能。

其次，嵌入式语音识别系统多为实时系统。

即当用户说完待识别的词条后，系统立即完成识别功能并有所回应。

第三，嵌入式语音识别系统具有体积小、可靠性高、耗电省、投入少、价格低便携性好、可支持移动作业等优点。

这是嵌入式语音识别系统与PC机的语音识别系统相比最大的优势。

嵌入式语音识别系统的优点使得其应用的领域十分广泛[5]。

语音识别技术目前在嵌入式系统中的应用主要为语音命令控制，它使得原本需要手工操作的工作用语音就可以方便地完成。

语音命令控制可广泛用于家电语音遥控、玩具、智能仪器及移动电话等便携设备中。

使用语音作为人机交互的途径对于使用者来说是最自然的一种方式，同时设备的小型化也要求省略键盘以节省体积。

这样使用者就真正做到“君子动口不动手”。

在西方经济发达国家，大量的嵌入语音识别产品已经进入市场。

一些用户电话机、手机已经包含了语音识别拨号功能，还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。

可以预测在近五到十年内，嵌入式语音识别系统的应用将更加广泛。

各种各样的语音识别系统产品将出现在市场上。

据美国专家预测到2008年，具有语音识别功能的产品可达50亿美元，同时人们也将调整自己的说话方式以适应各种各样的识别系统。

但在短期内还不可能造出具有和人相比拟的语音识别系统，要建成这样一个系统仍然是人类面临的一个大的挑战，但我们正一步步朝着改进语音识别系统的方向迈进[6]。

1.2国内外研究概况

语音识别技术是语音处理技术的一个分支。

语音处理技术发展过程也就是语音识别技术的发展史。

由此可以将语音识别分为三个阶段。

第一个阶段是萌芽阶段，在这一阶段（20世纪30年代至50年代），人们对语音处理的研究主要是根据语音学知识，提取若干特征参数，并利用这些参数制作成模拟电路来模仿人的发音过程，实现简单的语音处理功能。

语音识别的研究工作始于50年代，它开始的标志是AT&TBell实验室实现了第一个可识别十个英文数字的语音识别系统—Audry系统。

第二个阶段是发展阶段，在这一阶段（20世纪60年代至80年代初），随着集成电路技术和计算机技术的发展，语音识别的理论和技术亦日趋完善和成熟。

60年代，提出了用动态规划（DP）方法来解决语音识别中不等长的问题。

70年代，出现了基于线性预测倒谱和动态时间规整技术（DTW）技术的特定人孤立语音识别系统。

80年代，最显著的特征是隐马尔可夫（HMM）模型和人工神经元网络（ANN）在语音识别中的成功应用。

第三个阶段是实用阶段，在这一阶段（20世纪90年代至今），随着遵循摩尔定律的超大规模集成电路技术的迅速发展，极大地促进了计算机多媒体技术和人工智能技术的迅猛发展，使人类社会进入到数字信息时代。

在此社会背景下，人们对语音识别技术的实际需求愈发迫切，这极大地促进了语音识别技术的不断深入和发展，使语音识别系统从实验室走向实用，从而不断出现利用现语音识别技术的产品[7]。

嵌入式语音是在20世纪六七十年代以来，科研人员一直致力于研究的热门课题。

但当时研究出来的嵌入式语音识别专用芯片大多数识别性能差，不能符合实用要求。

直到近10年来，随着语音识别算法的深入研究和集成电路技术的发展，才出现了一些具有实用价值和市场潜力巨大的语音识别专用芯片。

我国的语音识别系统的研究起步比较晚，但也取得了很好的成绩，研究水平也从实验室逐步走向实用。

从1987年开始执行国家863计划后，国家863智能计算机专家组为语音识别技术研究专门立项，每两年滚动一次。

我国PC机语音识别技术的研究水平己经基本上与国外同步，在汉语语音识别技术上还有自己的特点与优势，但独立开发的专用汉语语音识别芯片还是较少，多数都是与国外研究机构合作开发研制的[8]。

我国所研究的最有代表性的语音识别芯片有清华大学与华录集团合作研究开发的国内第一个具有自主知识产权的语音识别专用芯片。

该芯片能够识别20~30条特定人语音命令，同时具有语音合成（提示）与语音编码、解码（回放）功能，语音识别率为98%以上，由于优先考虑了语音识别技术在玩具业的应用，与国际上同类芯片相比，其语音识别在基于汉语的SI（不依靠说话者语音）技术的应用方面有明显的优势。

同时，它还增加了其他同类芯片没有的自带LCD驱动功能，更吸引人的是比其他的芯片的功耗低1~2倍[5]。

此外，清华大学还与Infineon公司合作开发了的语音芯片UniSpeech。

UniSpeech芯片是为语音信号处理开发的专用芯片，采用0.18um工艺生产。

它将双核（DSP+MCU）、存储器、模拟处理单元（ADC与DAC）集成在一个芯片中，构成了一种语音处理SoC芯片。

这种芯片的设计思想主要是为语音识别和语音压缩编码领域提供一个低成本、高可靠性的硬件平台。

UniSpeech芯片集成了2路8kHz采样12bit精度的ADC和2路8kHz采样11bit的DAC，采样后的数据在芯片内部均按16bit格式保存和处理。

对于语音识别领域，这样精度的ADC/DAC己经可以满足应用。

ADC/DAC既可以由MCU核控制，也可以由DSP核控制[6]。

1.3目前仍存在的问题

21世纪作为“语音的世纪”除了蕴含无限的商机以外，也表明了它们存在发展的空间。

概括地讲，有这样一些问题急需解决。

1.3.1语音识别的方言和口音问题

中文有八大方言区，现在很多语音识别系统，对标准普通话的识别性能很好，但是一旦有方言或者口音，性能就会马上下降。

解决这个问题有着非常重要的意义，这将极大地拓展该技术的使用空间，因此必须下力气解决好这个问题。

1.3.2信道问题

我们知道在无线互联应用中，涉及到的信道种类可能会很多，比如固定电话、手机、IP、网络、车载系统等等，各种各样的信道都有不同的特性。

语音识别、声纹识别和语音理解如何去适应不同信道的差异是一个不得不面对的问题。

1.3.3背景噪音问题

语音识别、声纹识别、语音理解等系统往往在有背景噪音时就不能正常工作了，这是由于背景噪音破坏了原始语音的频谱，或者说把原始语音部分或全部掩盖在噪音当中，因而无法准确地分离出来的缘故。

解决好背景噪音的问题也是技术上面临的挑战之一。

1.3.4自然语音理解领域

我们必须有很好的理论和技术去解决口语语言现象，比如口语中的重复、改正、强调、倒叙、省略、拖音、韵律等等。

1.3.5语音合成

应该说现在的语音合成技术做得很好，能够把给它的文本正确地发出声音来，但是其中存在着一个很大的问题，就是它的声音不够自然。

语音合成当中，怎样能够很好地把感情色彩、情绪等正确地表达出来，也需要进一步去研究。

首先要解决的一个问题就是必须先对这句话（甚至整个段落）进行理解，理解之后才能够知道如何把韵律加进去，如何表达感情和情绪等[9]。

2语音识别技术概述

近些年来，随着计算机、通讯技术的飞速发展，语音识别技术的重要性进一步得以体现。

语音识别技术就是让机器通过识别和理解把语音信号转变为相应的文本或命令的高技术。

现在，语音技术的应用已经成为一个具有竞争力的高新技术产业，语音识别正逐步成为信息技术中人机接口的关键技术。

将语音识别技术应用于机器人，使机器人能够按照人的语音命令进行操作，这就是机器人听觉。

机器人听觉是机器人智能水平的一个重要标志。

因此，学习语音识别技术的基本原理和方法，对进一步研究开发智能机器人的功能有重要作用。

2.1语音识别的类型

在语音识别系统中，主要有以下几种分类方法：

2.1.1以所要识别的单位来分

有孤立词识别、音素识别、音节识别、单句识别、连续语言识别和理解。

语音理解是在语音识别的基础上，用语言学知识来推断语音的含义。

语音理解系统是更高一级的语音识别系统。

这类语音识别的发展情况是先从最原始的单音节识别，到限定数量的单词识别，再到对内容进行某种程度限制的会话识别。

目前已进入实用的语音识别系统是单词语音的识别，以几百个限定单词为识别对象，现已有性能较好的产品在市场上出售。

2.1.2以说话人来分

有单个特定说话人、有限的说话人和无限的说话人。

特定说话人的语音识别比较简单，能得到较高的识别率，目前商品化的识别设备多属此种。

后两种为非特定说话人，这种识别系统不容易得到高的识别率。

研究人员正在为提高识别率而努力，这种系统如果能够实用化，将会有很高的经济价值和深远的社会意义。

2.1.3以识别方法来分

有模板匹配法、随机模型法和概率语法分析法。

这三种方法都属于统计模式识别方法。

其他的识别方法还有句法模式识别、用模糊数学的识别、用人工神经网络的识别等[10]。

2.2语音识别的原理

一般的语音识别系统都采用了模式匹配的原理。

从图2-1中可以看出语音识别一般分两个步骤。

第一步是系统“学习”或“训练”阶段。

这一阶段的任务是建立识别基本单元的声学模型以及进行文法分析的语言模型，即构建参考模式库。

第二是“识别”或“测试”阶段。

根据识别系统的类型选择能够满足要求的一种识别方法，采用语音分析方法分析出这种识别方法所需要的语音特征参数，按照一定的准则和测度与参考模式库中的模型进行比较，通过判决得出结果[1]。

图2-1语音识别系统的原理结构

2.3语音识别的基本过程

任何语音识别系统的基本识别过程如图2-2所示。

由图可见，语音识别的基本过程包括：

（1）采样，将模拟信号数字化；

（2）确定输人信号（单元或词）的起始端和终止端，通过语音检测器对语音信号的幅度值是否超过最低限值来判定；

（3）由数字滤波器直接地或由模拟滤波器间接地计算语音谱；

（4）音调轮廓图估价；

（5）分解输人信号，鉴定语音的特征；

（6）单词识别，既可利用“自底朝上”技术将输人的语音特征与所需要词汇的特征比较而确定，也可以利用“自顶朝下”技术在数据库的模式中确定全部输人单元代表的词语；

（7）对输人信息做出响应，即显示相应的词汇或字符串等[10]。

图2-2语音识别的基本过程

3.语音识别的几种基本方法

一般来说,语音识别的方法有三种：

基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。

3.1基于语音学和声学的方法

该方法起步较早，在语音识别技术提出的开始，就有了这方面的研究，但由于其模型及语音知识过于复杂，现阶段没有达到实用的阶段。

　　通常认为常用语言中有有限个不同的语音基元，而且可以通过其语音信号的频域或时域特性来区分。

这样该方法分为两步实现：

　　第一步，分段和标号

　　把语音信号按时间分成离散的段，每段对应一个或几个语音基元的声学特性。

然后根据相应声学特性对每个分段给出相近的语音标号。

　　第二步，得到词序列

　　根据第一步所得语音标号序列得到一个语音基元网格，从词典得到有效的词序列，也可结合句子的文法和语义同时进行。

3.2模版匹配的方法

模板匹配的方法发展比较成熟，目前已达到了实用阶段。

在模板匹配方法中，要经过四个步骤：

特征提取、模板训练、模板分类、判决。

常用的技术有三种：

动态时间规整（DTW）、隐马尔可夫（HMM）理论、矢量量化（VQ）技术。

3.2.1动态时间规整（DTW）

　　语音信号的端点检测是进行语音识别中的一个基本步骤，它是特征训练和识别的基础。

所谓端点检测就是在语音信号中的各种段落（如音素、音节、词素）的始点和终点的位置，从语音信号中排除无声段。

在早期，进行端点检测的主要依据是能量、振幅和过零率。

但效果往往不明显。

3.2.2隐马尔可夫法（HMM）

　　隐马尔可夫法（HMM）是70年代引入语音识别理论的，它的出现使得自然语音识别系统取得了实质性的突破。

HMM方法现已成为语音识别的主流技术，目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于HMM模型的。

HMM是对语音信号的时间序列结构建立统计模型，将之看作一个数学上的双重随机过程：

一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程，另一个是与Markov链的每一个状态相关联的观测序列的随机过程。

前者通过后者表现出来，但前者的具体参数是不可测的。

3.2.3矢量量化（VQ）

　　矢量量化（VectorQuantization）是一种重要的信号压缩方法。

与HMM相比,矢量量化主要适用于小词汇量、孤立词的语音识别中。

其过程是：

将语音信号波形的k个样点的每一帧，或有k个参数的每一参数帧，构成k维空间中的一个矢量，然后对矢量进行量化。

量化时，将k维无限空间划分为M个区域边界，然后将输入矢量与这些边界进行比较，并被量化为“距离”最小的区域边界的中心矢量值。

矢量量化器的设计就是从大量信号样本中训练出好的码书，从实际效果出发寻找到好的失真测度定义公式，设计出最佳的矢量量化系统，用最少的搜索和计算失真的运算量，实现最大可能的平均信噪比。

　　核心思想可以这样理解：

如果一个码书是为某一特定的信源而优化设计的，那么由这一信息源产生的信号与该码书的平均量化失真就应小于其他信息的信号与该码书的平均量化失真，也就是说编码器本身存在区分能力。

在实际的应用过程中，人们还研究了多种降低复杂度的方法，这些方法大致可以分为两类：

无记忆的矢量量化和有记忆的矢量量化。

无记忆的矢量量化包括树形搜索的矢量量化和多级矢量量化。

3.3神经网络的方法

利用人工神经网络的方法是80年代末期提出的一种新的语音识别方法。

人工神经网络（ANN）本质上是一个自适应非线性动力学系统，模拟了人类神经活动的原理，具有自适应性、并行性、鲁棒性、容错性和学习特性，其强的分类能力和输入-输出映射能力在语音识别中都很有吸引力。

但由于存在训练、识别时间太长的缺点，目前仍处于实验探索阶段。

　　由于ANN不能很好的描述语音信号的时间动态特性，所以常把ANN与传统识别方法结合，分别利用各自优点来进行语音识别。

4.语音识别系统的结构和所面临的问题

4.1语音识别系统的结构

一个完整的基于统计的语音识别系统可大致分为三部分：

（1）语音信号预处理与特征提取;

（2）声学模型与模式匹配;

　　（3）语言模型与语言处理。

4.1.1语音信号预处理与特征提取

选择识别单元是语音识别研究的第一步。

语音识别单元有单词（句）、音节和音素三种，具体选择哪一种，由具体的研究任务决定。

　　单词（句）单元广泛应用于中小词汇语音识别系统，但不适合大词汇系统，原因在于模型库太庞大，训练模型任务繁重，模型匹配算法复杂，难以满足实时性要求。

　　音节单元多见于汉语语音识别，主要因为汉语是单音节结构的语言，而英语是多音节，并且汉语虽然有大约1300个音节，但若不考虑声调，约有408个无调音节，数量相对较少。

因此，对于中、大词汇量汉语语音识别系统来说，以音节为识别单元基本是可行的。

　　音素单元以前多见于英语语音识别的研究中，但目前中、大词汇量汉语语音识别系统也在越来越多地采用。

原因在于汉语音节仅由声母（包括零声母有22个）和韵母（共有28个）构成，且声韵母声学特性相差很大。

实际应用中常把声母依后续韵母的不同而构成细化声母，这样虽然增加了模型数目，但提高了易混淆音节的区分能力。

由于协同发音的影响，音素单元不稳定，所以如何获得稳定的音素单元，还有待研究。

　　语音识别一个根本的问题是合理的选用特征。

特征参数提取的目的是对语音信号进行分析处理，去掉与语音识别无关的冗余信息，获得影响语音识别的重要信息，同时对语音信号进行压缩。

在实际应用中，语音信号的压缩率介于10-100之间。

语音信号包含了大量各种不同的信息，提取哪些信息，用哪种方式提取，需要综合考虑各方面的因素，如成本，性能，响应时间，计算量等。

非特定人语音识别系统一般侧重提取反映语义的特征参数，尽量去除说话人的个人信息；而特定人语音识别系统则希望在提取反映语义的特征参数的同时，尽量也包含说话人的个人信息。

　　线性预测（LP）分析技术是目前应用广泛的特征参数提取技术，许多成功的应用系统都采用基于LP技术提取的倒谱参数。

但线性预测模型是纯数学模型，没有考虑人类听觉系统对语音的处理特点。

　　Mel参数和基于感知线性预测（PLP）分析提取的感知线性预测倒谱，在一定程度上模拟了人耳对语音的处理特点，应用了人耳听觉感知方面的一些研究成果。

实验证明，采用这种技术，语音识别系统的性能有一定提高。

从目前使用的情况来看，梅尔刻度式倒频谱参数已逐渐取代原本常用的线性预测编码导出的倒频谱参数，原因是它考虑了人类发声与接收声音的特性，具有更好的鲁棒性（Robustness）。

　　也有研究者尝试把小波分析技术应用于特征提取，但目前性能难以与上述技术相比，有待进一步研究。

4.1.2声学模型与模式匹配

声学模型是识别系统的底层模型，并且是语音识别系统中最关键的一部分。

声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模板之间的距离。

声学模型的设计和语言发音特点密切相关。

声学模型单元大小（字发音模型、半音节模型或音素模型）对语音训练数据量大小、系统识别率，以及灵活性有较大的影响。

必须根据不同语言的特点、识别系统词汇量的大小决定识别单元的大小。

　　以汉语为例：

　　汉语按音素的发音特征分类分为辅音、单元音、复元音、复鼻尾音四种，按音节结构分类为声母和韵母。

并且由音素构成声母或韵母。

有时，将含有声调的韵母称为调母。

由单个调母或由声母与调母拼音成为音节。

汉语的一个音节就是汉语一个字的音，即音节字。

由音节字构成词，最后再由词构成句子。

　　目前常用的声学模型基元为声韵母、音节或词，根据实现目的不同来选取不同的基元。

汉语加上语气词共有412个音节，包括轻音字，共有1282个有调音节字，所以当在小词汇表孤立词语音识别时常选用词作为基元，在大词汇表语音识别时常采用音节或声韵母建模，而在连续语音识别时，由于协同发音的影响，常采用声韵母建模。

基于统计的语音识别模型常用的就是HMM模型λ（N,M,π,A,B），涉及到HMM模型的相关理论包括模型的结构选取、模型的初始化、模型参数的重估以及相应的识别算法等。

4.1.3语音模型与语音处理

语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型，语言处理可以进行语法、语义分析。

语言模型对中、大词汇量的语音识别系

展开阅读全文