语音识别技术文献综述.docx

资源描述

语音识别技术文献综述.docx

《语音识别技术文献综述.docx》由会员分享，可在线阅读，更多相关《语音识别技术文献综述.docx（9页珍藏版）》请在冰点文库上搜索。

语音识别技术文献综述.docx

语音识别技术文献综述

语音识别技术综述

Thesummarizationofspeechrecognition

张永双

苏州大学苏州江苏

摘要

本文回顾了语音识别技术的发展历史，综述了语音识别系统的结构、分类及基本方法，分析了语音识别技术面临的问题及发展方向。

关键词：

语音识别；特征；匹配

Abstact

Thisarticlereviewthecoursesofspeechrecognitiontechnologyprogress,summarizethestructure,classificationsandbasicmethodsofspeechrecognitionsystemandanalyzethedirectionandtheissueswhichspeechrecognitiontechnologydevelopmentmayconfrontwith.

Keywords:

speechrecognition;character;matching

引言

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。

语音识别是一门交叉学科，所涉及的领域有信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等，甚至还涉及到人的体态语言（如人民在说话时的表情手势等行为动作可帮助对方理解）。

其应用领域也非常广，例如相对于键盘输入方法的语音输入系统、可用于工业控制的语音控制系统及服务领域的智能对话查询系统，在信息高度化的今天，语音识别技术及其应用已成为信息社会不可或缺的重要组成部分。

1.语音识别技术的发展历史

语音识别技术的研究开始二十世纪50年代。

1952年，AT&Tbell实验室的Davis等人成功研制出了世界上第一个能识别十个英文数字发音的实验系统：

Audry系统。

60年代计算机的应用推动了语音识别技术的发展，提出两大重要研究成果：

动态规划（DynamicPlanning，DP）和线性预测分析（LinearPredict，LP），其中后者较好的解决了语音信号产生模型的问题，对语音识别技术的发展产生了深远影响。

70年代，语音识别领域取得突破性进展。

线性预测编码技术（LinearPredictCoding，LPC）被Itakura成功应用于语音识别；Sakoe和Chiba将动态规划的思想应用到语音识别并提出动态时间规整算法，有效的解决了语音信号的特征提取和不等长语音匹配问题；同时提出了矢量量化（VQ）和隐马尔可夫模型（HMM）理论。

在同一时期，统计方法开始被用来解决语音识别的关键问题，这为接下来的非特定人大词汇量连续语音识别技术走向成熟奠定了重要的基础。

80年代，连续语音识别成为语音识别的研究重点之一。

Meyers和Rabiner研究出多级动态规划语音识别算法（LevelBuilding，LB）这一连续语音识别算法。

80年代另一个重要的发展是概率统计方法成为语音识别研究方法的主流，其显著特征是HMM模型在语音识别中的成功应用。

1988年，美国卡内基－梅隆大学（CMU）用VQ/HMM方法实现了997词的非特定人连续语音识别系统SPHINX。

在这一时期，人工神经网络在语音识别中也得到成功应用。

进入90年代后，随着多媒体时代的来临，迫切要求语音识别系统从实验走向实用，许多发达国家如美国、日本、韩国以及IBM、Apple、AT&T、NTT等著名公司都为语音识别系统实用化的开发研究投以巨资。

最具代表性的是IBM的ViaVoice和Dragon公司的DragonDectate系统。

这些系统具有说话人自适应能力，新用户不需要对全部词汇进行训练便可在使用中不断提高识别率。

当前，美国在非特定人大词汇表连续语音隐马尔可夫模型识别方面起主导作用，而日本则在大词汇表连续语音神经网络识别、模拟人工智能进行语音后处理方面处于主导地位。

国在七十年代末就开始了语音技术的研究，但在很长一段时间内，都处于缓慢发展的阶段。

直到八十年代后期，国内许多单位纷纷投入到这项研究工作中去，其中有中科院声学所，自动化所，清华大学，四川大学和西北工业大学等科研机构和高等院校，大多数研究者致力于语音识别的基础理论研究工作、模型及算法的研究和改进。

但由于起步晚、基础薄弱，计算机水平不发达，导致在整个八十年代，我国在语音识别研究方面并没有形成自己的特色，更没有取得显著的成果和开发出大型性能优良的实验系统。

但进入九十年代后，我国语音识别研究的步伐就逐渐紧追国际先进水平了，在“八五”、“九五”国家科技攻关计划、国家自然科学基金、国家863计划的支持下，我国在中文语音技术的基础研究方面也取得了一系列成果。

在语音合成技术方面，中国科大讯飞公司已具有国际上最领先的核心技术；中科院声学所也在长期积累的基础上，研究开发出颇具特色的产品：

在语音识别技术方面，中科院自动化所具有相当的技术优势：

社科院语言所在汉语言学及实验语言科学方面同样具有深厚的积累。

但是，这些成果并没有得到很好的应用，没有转化成产业；相反，中文语音技术在技术、人才、市场等方面正面临着来自国际竞争环境中越来越严峻的挑战和压力。

2.语音识别系统的结构

主要包括语音信号的采样和预处理部分、特征参数提取部分、语音识别核心部分以及语音识别后处理部分，图2-1给出了语音识别系统的基本结构。

图2-1语音识别系统的基本结构图

语音识别的过程是一个模式识别匹配的过程。

在这个过程中，首先要根据人的语音特点建立语音模型，对输入的语音信号进行分析，并抽取所需的特征，在此基础上建立语音识别所需的模式。

而在识别过程中要根据语音识别的整体模型，将输入的语音信号的特征与已经存在的语音模式进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入的语音相匹配的模式。

然后，根据此模式号的定义，通过查表就可以给出计算机的识别结果。

3.语音识别系统的分类

根据识别的对象不同，语音识别任务大体可分为3类，即孤立词识别（isolatedwordrecognition），关键词识别（或称关键词检出，keywordspotting）和连续语音识别。

其中，孤立词识别的任务是识别事先已知的孤立的词，如“开机”、“关机”等；连续语音识别的任务则是识别任意的连续语音，如一个句子或一段话；连续语音流中的关键词检测针对的是连续语音，但它并不识别全部文字，而只是检测已知的若干关键词在何处出现，如在一段话中检测“计算机”、“世界”这两个词。

根据针对的发音人，可以把语音识别技术分为特定人语音识别和非特定人语音识别，前者只能识别一个或几个人的语音，而后者则可以被任何人使用。

显然，非特定人语音识别系统更符合实际需要，但它要比针对特定人的识别困难得多。

另外，根据语音设备和通道，可以分为桌面（PC）语音识别、电话语音识别和嵌入式设备（手机、PDA等）语音识别。

不同的采集通道会使人的发音的声学特性发生变形，因此需要构造各自的识别系统。

4.语音识别系统的基本识别方法

一般来说，语音识别的方法有三种：

基于声道模型和语音知识的方法、模式匹配的方法以及利用人工神经网络的方法。

4.1基于语音学和声学的方法

该方法起步较早，在语音识别技术提出的开始，就有了这方面的研究，但由于其模型及语音知识过于复杂，现阶段还没有达到实用的阶段。

4.2模式匹配的方法

模式匹配方法的发展比较成熟，目前已达到实用阶段。

在模式匹配方法中，需经过四个步骤：

特征提取、模式训练、模式识别和判决。

4.2.1特征提取

特征提取方法主要采用以下三种：

基于LPC的倒谱参数（LPCC）分析法，基于Mel系数的Mel频标倒谱系数（MPCC）分析法，基于现代处理技术的小波变换系数分析法。

在这些方法中，MFCC方法比LPCC方法的识别效果稍好一些，而且MFCC符合人们的听觉特性，在有信道噪声和频谱失真的情况下具有较好的稳健性，其不足之处是MFCC方法中多次用到FFT，故算法的复杂程度远大于LPCC方法。

因此，在安静的环境下，目前比较成熟和最常用的语音特征提取方法还是LPCC方法。

在条件不好的环境下，则宜选用MFCC方法。

而小波变换法则是一种新兴的理论工具，要获得较高的识别率还有许多问题有待研究，但与经典的方法相比，小波变换法有着计算量小、复杂程度低、识别效果好等许多优点，研究前景十分乐观，是研究发展的一个方向。

4.2.2模式识别

模式识别常用技术有三种：

动态时间规整（DTW）、隐马尔可夫模型（HMM）、矢量量化（VQ）。

（1）动态时间规整（DTW）

语音信号的端点检测是进行语音识别中的一个基本步骤，它是特征训练和识别的基础。

所谓端点检测就是在语音信号中的各种段落（如音素、音节、词素）的始点和终点的位置，从语音信号中排除无声段。

在早期，进行端点检测的主要依据是能量、振幅和过零率。

但效果往往不明显。

上世纪60年代日本学者Itakura提出了动态时间规整算法。

算法的思想就是把未知量均匀地伸长或缩短，直到与参考模式的长度一致。

在这一过程中，未知单词的时间轴要不均匀地扭曲或弯折，以使其特征与模型特征对正。

在连续语音识别中仍然是主流方法。

同时，在小词汇量、孤立字（词）识别系统中，也已有许多改进的DTW算法提出。

（2）隐马尔可夫模型（HMM）

隐马尔可夫模型是20世纪70年代引入语音识别理论的，它的出现使得自然语音识别系统取得了实质性的突破。

目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于HMM模型的。

HMM是对语音信号的时间序列结构建立统计模型，将之看作一个数学上的双重随机过程:

一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程，另一个是与Markov链的每一个状态相关联的观测序列的随机过程。

前者通过后者表现出来，但前者的具体参数是不可测的。

人的言语过程实际上就是一个双重随机过程，语音信号本身是一个可观测的时变序列，是由大脑根据语法知识和言语需要（不可观测的状态）发出的音素的参数流。

可见HMM合理地模仿了这一过程，很好地描述了语音信号的整体非平稳性和局部平稳性，是较为理想的一种语音模型。

（3）矢量量化（VQ）

矢量量化是一种重要的信号压缩方法。

与HMM相比，矢量量化主要适用于小词汇量、孤立词的语音识别中。

其过程是:

将语音信号波形的k个样点的每一帧，或有k个参数的每一参数帧，构成k维空间中的一个矢量，然后对矢量进行量化。

量化时，将k维无限空间划分为M个区域边界，然后将输入矢量与这些边界进行比较，并被量化为“距离”最小的区域边界的中心矢量值。

矢量量化器的设计就是从大量信号样本中训练出好的码书，从实际效果出发寻找到好的失真测度定义公式，设计出最佳的矢量量化系统，用最少的搜索和计算失真的运算量，实现最大可能的平均信噪比。

4.3人工神经网络的方法

利用人工神经网络的方法是80年代末期提出的一种新的语音识别方法。

人工神经网络（ANN）本质上是一个自适应非线性动力学系统，模拟了人类神经活动的原理，具有自适应性、并行性、鲁棒性、容错性和学习特性，其强的分类能力和输入-输出映射能力在语音识别中都很有吸引力。

但由于存在训练、识别时间太长的缺点，目前仍处于实验探索阶段。

由于ANN不能很好的描述语音信号的时间动态特性，所以常把ANN与传统识别方法结合，分别利用各自优点来进行语音识别。

5.语音识别所面临的问题

（1）就算法模型方面而言，需要有进一步的突破。

目前使用的语言模型只是一种概率模型，还没有用到以语言学为基础的文法模型，而要使计算机确实理解人类的语言，就必须在这一点上取得进展。

（2）就自适应方面而言，语音识别技术也有待进一步改进，做到不受特定人、口音或者方言的影响，这实际上也意味着对语言模型的进一步改进。

（3）就强健性方面而言，语音识别技术需要能排除各种环境因素的影响。

目前，对语音识别效果影响最大的就是环境杂音或嗓音，个人能有意识地摒弃环境嗓音并从中获取自己所需要的特定声音，如何让语音识别技术也能达成这一点是一个艰巨的任务。

（4）多语言混合识别以及无限词汇识别方面:

将来的语音和声学模型可能会做到将多种语言混合纳入，用户因此就可以不必在语种之间来回切换。

此外，对于声学模型的进一步改进，以及以语义学为基础的语言模型的改进，也能帮助用户尽可能少或不受词汇的影响，从而可实行无限词汇识别。

（5）多语种交流系统的应用:

是将语音识别技术、机器翻译技术以及语音合成技术的完美结合，全世界说不同语言的人都可以实时地自由地交流，不存在语言障碍。

可以想见，多语种自由交流系统将带给我们全新的生活空间。

（6）语音情感识别:

近年来随着人工智能的发展，情感智能跟计算机技术结合产生了情感计算这一研究课题，这将大大的促进计算机技术的发展。

情感自动识别是通向情感计算的第一步。

语音作为人类最重要的交流媒介，携带着丰富的情感信息。

如何从语音中自动识别说话者的情感状态近年来受到各领域研究者的广泛关注。

6.结论

以上介绍了实现语音识别系统的各个方面的技术。

这些技术在实际使用中达到了较好的效果，但如何克服影响语音的各种因素还需要更深入地分析。

目前听写机系统还不能完全实用化以取代键盘的输入，但识别技术的成熟同时推动了更高层次的语音理解技术的研究。

由于英语与汉语有着不同的特点，针对英语提出的技术在汉语中如何使用也是一个重要的研究课题，而四声等汉语本身特有的问题也有待解决。

7.参考文献

[1]柳春语音识别技术研究进展[J]甘肃科技2008/09

[2]杨尚国语音识别技术概述[J]福建电脑2006/08

[3]熊燕抗噪声语音识别技术研究[J]中国科技信息2006/07

[4]刘筠一种新型语音识别系统[J]成都大学学报（自然科学版）2008/03

[5]马斌基于小波变换的DSP语音识别系统[J]低压电器2008/14

[6]英锋基于SPCE061A的语音识别系统的设计[J]微计算机信息2008/17

[7]曾辉语音识别研究现代商贸工业2008/2

[8]袁里驰基于改进的隐马尔科夫模型的语音识别方法[J]

中南大学学报自然科学版2008/6

[9]钱盛友许慧燕基于动态时间规整和神经网络的方言辨识研究[J]

计算机工程与应用2008/10

[10]李宏言盛利元基于矢量量化和查找表的改进DTW语音识别方法[J]

计算机工程与设计2007/19

[11]张震南人工神经网络技术在语音识别中的应用[J]

甘肃科技纵横2008/4

[12]刘幺和语音识别与控制应用技术[M]北京科学出版社2008

展开阅读全文