基于虚拟仪器的语音识别算法研究精品Word文件下载.docx

资源描述

基于虚拟仪器的语音识别算法研究精品Word文件下载.docx

《基于虚拟仪器的语音识别算法研究精品Word文件下载.docx》由会员分享，可在线阅读，更多相关《基于虚拟仪器的语音识别算法研究精品Word文件下载.docx（53页珍藏版）》请在冰点文库上搜索。

基于虚拟仪器的语音识别算法研究精品Word文件下载.docx

利用笔记本自带的声卡进行语音信号的采集，接着对语音信号进行数字化的转换后再做进一步的处理。

利用MATLAB中的小波工具包对采集到的语音信号进行小波消噪处理，并借助LABVIEW中提供的ScriptNode子VI连接主流算法即仿真分析软件MATLAB，充分发挥MATLAB强大的数据处理能力，虽然LABVIEW中提供了一些信息处理功能函数，但其毕竟功能有限，仍然无法满足部分用户对数值进行各种各样的计算和分析的需求。

而MATLAB尤其擅长数值分析和图像处理。

在这里我们利用MATLAB中的小波工具包，实现了利用小波的方法对含有杂声的语音信号进行噪声消除的工作。

由于小波具有多尺度，多分辨的特点，应用小波进行信号消噪处理是小波分析的一项重要应用。

文中首先介绍了语音识别技术的基本原理，分析了经常使用的线性预测倒谱系数和美尔频率倒谱系数，并选定美尔频率倒谱系数作为本系统中采用的语音特征参数;

其次系统能够实现语音信号的自动采集；

然后针对语音特征参数提取，结合LABVIEW的编程特点，利用多线程对特征参数进行提取并运算，将计算时间缩短了1/4;

最后在分析语音识别系统主要需求的基础上，对识别系统的软硬件进行了设计，并对语音信号做噪声消除以及预处理后进行特征提取，利用不同语音独特的特征和模式匹配算法，实现说话人语音信号的最终识别。

关键词：

语音识别；

LABVIEW；

声卡；

小波消噪；

特征提取

Thespeechrecognitionalgorithmbasedonvirtualinstrument

Abstract

Withtherapiddevelopmentoftechnology,intelligenthumanandmachineinterfacesareusedinappliancesinpeople'

snormallife.Currently,alotofapplianceshavethefunctionthatcangivewarningmessagestotheuserinsoundwhichimprovestheefficiencyofhumanandmachineinteraction.

Thisdesignisauseofvirtualinstrumentanddospeechrecognitionsystemdesign.Willthevirtualinstrumenttechnologyusedinspeechrecognitionsystem,realizedtheinstrumentofthesoftware,andreflectthe"

softwareisinstrument"

thought.Usenotesitselfwithsoundcardforvoicesignalcollection,thespeechsignaldigitalconversionandfurtherprocessing.MATLABwaveletinthetoolkitofcollectedavoicesignalwaveletdenoisingtreatment,andwiththehelpofLABVIEWprovidedintheScriptNodesub.viconnectthemainstreamalgorithmsimulationanalysissoftwareMATLAB,makefulluseofMATLABpowerfuldataprocessingcapabilities,eventhoughtheLABVIEWprovidessomeinformationprocessingfunctions,butlimitedafterall,stillcan'

tmeetsomeuserdemandforvariouskindsofnumericalcalculationandanalysis.AndMATLABisespeciallygoodatnumericalanalysisandimageprocessing.HereweuseofMATLABwavelettoolkit,realizedbyusingwaveletmethodtocontaintheshortspeechsignalnoiseeliminationofwork.Duetothesmallwavehasmulti-scale,multi-resolutioncharacteristics,applicationofwaveletde-noisingsignalswhenprocessingofwaveletanalysisisakindofimportantapplications.

Thispaperintroducesthebasicprincipleofspeechrecognitiontechnology,andthenanalysessomefeatureparameterssuchasLinearPredictionCoefficients，LinearPredictionCepstralCoefficientsandMelFrequencyCepstralCoefficientsandchoosestheMFCCusedinthissystem;

Followed,thispaperrealizesautomaticallyspeechsignalacquisition,andusesmulti-threadofLABVIEWtocalculatethefeatureparametersinaparallelwayandshort1/4ofthecalculatingtimewhichimprovetheefficiencyofthefeaturefunctionaltesting;

Atlast,thispaperanalysesthemainrequirementsofthissystem,designsthehardwareandsoftwareindetailandchoosesthegraphicprogramminglanguageLABVIEWasthesoftwaredevelopmentplatformandthentheuseofdifferentspeechuniquefeatureandpatternmatchingalgorithm,realizevoicesignaltothefinalrecognition.

Keywords:

SpeechRecognition；

Virtualinstrument；

Soundcard；

WaveletDenoisingandfeatureextractio

摘要I

AbstractII

目录IV

第一章绪论1

1.1本文的应用背景和研究意义1

1.2语音识别发展历史及现状3

1.3虚拟仪器简介5

1.4MATLAB语言7

1.5论文的主要内容及其结构10

第二章语音识别基本技术11

2.1语音信号的采集11

2.1.1语音识别系统基本框架11

2.1.2语音信号的采集12

2.1.3语音信号的数字化13

2.2语音信号预处理14

2.2.1预加重处理14

2.2.2分帧、加窗16

2.2.3端点检测17

2.3语音信号的特征参数提取20

2.3.1美尔频率倒谱参数及提取方法21

2.3.2差分倒谱系数提取方法22

第三章语音识别算法24

3.1模板匹配的方法24

3.1.1动态时间规整算法DTW24

3.1.2隐马尔可夫模型法HMM25

3.1.3高斯混合模型法GMM26

3.1.4矢量量化VQ26

3.1.5混合型算法28

3.2基于声学和语音学的方法28

3.3神经网络的方法29

第四章非特定人连续语音识别系统的实现30

4.1概述30

4.2非特定人连续语音识别系统设计与实现30

4.2.1语音信号的实时采集与小波消噪处理30

4.2.2语音信号的预处理33

4.2.3语音信号的特征提取36

4.3模板的建立与读取38

4.3.1建立模板38

4.3.2读取模板40

第五章结论41

第六章总结与展望42

6.1总结42

6.2展望42

参考文献43

致谢46

第一章绪论

语言是人类进行信息交流的最常用、最重要的手段，人类的语言和人的心理活动密切相关，是人们进行思想交流的重要方式，既高效又便捷。

随着现代社会的不断发展，科学技术的日益成熟，全自动机器逐渐被运用于各个领域，取代了很多原本依靠人来完成的工作，人们对机器的智能要求也越来越高，人机进行信息交互的手段也越来越便捷和迅速，因此语言交流自然而然的成为了首选。

人与机器的语言交流总体可分为三部分，

（1）让机器听懂人的语言

（2）进行语言组织（3）文字转化为声音输出。

语音识别研究的就是如何让机器听懂人的语音内容，同时辨别是否是主人所发出的指令，执行相应的操作。

1.1本文的应用背景和研究意义

语音识别技术是现代高科技信息领域的研究热点，对于信号处理的研究，从理论的产生到专业产品的系统开发应用已经经历了数十年，终于获得了极大的突破。

经过二十年的研究探索，语音识别技术取得了很大的发展。

就目前来说，该技术从实验室的实验性设计开发，逐渐进入到工厂的应用，估计在不远的将来，语音识别技术将遍布通讯行业，家电行业，医疗保健行业，家庭服务行业，汽车电子行业，消费性电子产品等各大领域。

它与自动拨号，健康和福利，生命支持系统和其他实际应用相互衔接，直接控制商业，制造业，金融业，运输业，旅游业，公安消防等工业生产部门和应用领域，该技术的日益成熟有望成为下一代的操作系统和应用程序的用户界面。

以下介绍语音识别技术的几大应用领域：

（1）查询语言的语音识别应用

语音识别可用于查询航班时间表，电话号码，巴士时间查询，火车车次查询，自动导游，天气预报，股票行情系统等。

目前在国际上的各大旅游景区已经开始逐步采用语音识别查询系统，其中最具代表性的是日本丰桥大学设计研发的“富士山旅游咨询系统”，该系统是一个比较实用的语音查询系统，此外它还可以采用问卷调查等方式，集成了自动语言的语音导览系统。

只要游客对该系统说话，标示清楚他们当前的所在位置和感兴趣的风景名称，系统会自动显示出最佳路线，实物图片和旅游计划等人性化的信息。

该系统不仅能提供英语和汉语查询，而且可以用其它语言来查询。

另一个例子是，利用语音识别的自动订票系统，只要站在预订系统前，说出搭乘的时间和地点，系统便会自动显示出符合要求的车费、班次和车票销售的记录，根据实际情况，用户可以做出最佳的选择。

1996年，美国卡内基梅隆大学计算机科学系开发的语言语音机票预订系统，在实践方面，就做出了有益的尝试[6]。

（2）语音识别技术在工业生产上的应用

在一些对人身有极大伤害（如地下，水深，辐射，高温环境下）、环境比较恶劣的地方，还有无人时难以实现工作的地方都可以运用相应的语音命令加以控制，通过远程，使用专门的语言，也就是语音控制系统，控制设备去完成工作，这就能用各种指令和命令，对作业现场进行实时控制和处理。

（3）语音识别技术在扶残扶弱方面的应用

为了帮助残疾人士由于肢体功能方面的缺陷而引起的动作不便，运用语音识别系统，则能对其给予一定的方便。

例如：

对于身体残疾的人或盲人，能够既准确又灵活地使用现代化设备是比较困难的，但是，如果有了语音控制系统，便能为其提供一些很好的生活辅助设施，给他们带来方便。

一些带有语音功能的办公设备，甚至可以帮助残疾人士在家里或在工作岗位上，开辟出一个新的生存空间。

（4）语音识别技术对各生产领域的应用

汽车工业带来的经济收入对一个国家来说是至关重要的，最新的语音识别技术已经应用到汽车领域，并且仍在不断开发和添加新的功能。

一些国内外知名的汽车制造公司，很早就预见了语音技术在汽车行业的发展前景，他们已经提出了无需操控的、在后座说话就可以驾驶的智能汽车，完全告别了手动驾驶车辆的模式。

当车在开启时，只要告诉它继续行驶和目前的位置，就能够顺利地行使到目的地。

目前，这种智能汽车已经进入了研究阶段，相信过不了多久，这个构想将很快成为现实。

（5）语音识别技术在辅助教学方面的应用

在教育领域，已经运用了多媒体语音识别应用类双向教学软件，客户包含清华大学复旦大学等在内的多个高等院校，此语音识别教学系统用来帮助学生在语言学习的过程中，引导学生正确发音，及时的纠正外语口语的发音。

该系统也可称为家庭幼儿辅导老师及中小学教育不可或缺的辅助工具。

（6）语言语音玩具

在对孩子进行启蒙教育的时候，你可以用带有语音说话功能的娃娃与孩子交谈，让孩子操作服从语音命令的玩具，在孩子们幼小的心灵就播下科学的种子，让这些玩具引导孩子们探索科技，发现科学的伟大力量。

据外国有关媒体报道，语音玩具的销售远远超出了预期水平[7]。

（7）语音识别技术在军事方面，刑事调查方面的应用

由于每个人的发音都有其独特的特点，就像人的指纹一样，具有独特性和唯一性，是非常有特点的识别标志，科学上可以运用它来判断一个特定的人。

比如，在外国科幻电影中，我们经常会看到高精密发射的核设施发射系统，它除了一般的发射检测程序外，总统声音命令也成为了核发射系统的重要密匙，在最终确认发射时，需要通过总统的特定语音命令，才可进行程序释放，核发射才进入相应倒计时阶段。

再有，在司法刑侦检测时，犯罪嫌疑人的声音也可以作为破案的重要线索，因为每个人说话的声音是不一样的，语音数据将会和DNA测试结果一起作为证据，这种方法已经得到了法律上的认可。

在国外这方面的例子数不胜数，特别在近些年来，此技术已经作为语音识别技术在应用领域的一大主题，该应用对军事和司法调查、刑事侦查具有巨大的实用价值。

1.2语音识别发展历史及现状

语音识别技术的研究历史可以追溯到上个世纪三十年代初，1947年，贝尔（Bell）实验室发明了语谱图分析仪，意味着语音识别技术研究的萌芽。

起初，语音识别是通过人工分析语谱图而进行识别的。

50年代初期，研究人员大部分致力于声学—语音学的基本概念进行探索。

1952年贝尔实验室的Davis等人首次采用识别方法是根据语音第一、二共振峰位置提取若干特征的方法研制出能识别十个英语数字的语音识别系统，实现了用模拟电路实现未知语音与参考语音之间的相关度运算[1]。

60年代初期，语音识别系统的构成基本上是用硬件实现的，通过滤波器组提取频谱特征，用计算机进行匹配、计算和判决。

计算机的使用在很大程度上加快了语音识别方法的研究。

这期间出现了语音识别的几个重要的思想，前苏联研究人员Vintsyuk提出使用动态规划来对齐两个长度不同的语音音段。

尽管动态时间弯折（DynamicTimeWrapping,DTW）概念的实质和用于连接词识别的算法雏形已经包含在Vintsyuk的研究工作中[1，2]，但这十年之中并没有取得令人鼓舞的突破性进展。

70年代初，日本学者板仓（Itakura）提出了动态时间规整（DTW）技术[4]，使语音识别技术研究在匹配算法方面开辟了新思路；

中期的线性预测技术[5]（LinearPrediction,LP）被应用于语音信号处理，然后隐马尔可夫模型法[6]（HiddenMarkovModel,HMM）也获得初步的成果，该技术在语音信号处理的多个方面获得了巨大成果；

70年代末，Linda、Buzo、Gray和Markel等人首次解决了矢量量化[7，11]（VectorQuantization,VQ）码书生成的方法，并首先将矢量量化技术用于语音编码并且获得了成功。

这使得孤立词发音和孤立词发音的识别技术成为可行的生活实用技术。

另外，70年代的里程碑是在IBM进行了一个长期持续的、颇有成效的大词汇量连续语音识别研究的集体努力的成果。

在这期间，贝尔实验室开展了用于建立真正的非特定人语音识别系统的实验研究，提出了范围较广泛的一类复杂的聚类算法，用来确定能够表示大量人群的不同词语的所有声学变化的不同模式。

这些研究为后来非特定人模式聚类技术的研究奠定了基础，现在已经得到了广泛的应用。

继70年代的孤立词语音识别研究后，80年代主要研究的是连接词语音识别的问题，由单个词的模式串接在一起的短连接词语音进行匹配识别。

识别的方法也逐渐从最初的模板匹配方法转变到了统计模型方法，其中典型的统计方法代表是隐马尔可夫模型，由于这种方法在结构、参数和训练方法的选择上有很大的灵活性，逐渐成为了语音识别技术的主流。

HMM的理论基础在1970年前后由Baum等人建立起来，随后由CMU的Baker和IBM的Jelinek等人应用于语音识别之中，HMM模型的广泛应用归功于贝尔实验室Rabiner等研究者的努力，他们把原来艰涩的纯数学化的HMM模型工程化，让从事语音处理的研究者更了解和熟悉，进而成为公认的一个研究热点[1，4,6,7]。

随着HMM模型和人工神经网络等技术在语音识别中的广泛应用，科学家们已经在实验室突破了单个词汇量的识别，并且对大词汇量、连续语音和非特定人的语音识别技术也取得了显著

进展。

90年代以前，语音识别系统主要是在实验室中进行的。

90年代后，随着IT技术的迅速发展，多媒体时代的来临，迫切需要语音识别系统走出实验室，走向人们的日常生活乃至工厂。

发达国家如日本、美国等著名大公司（IBM、Apple、AT&

T、NTT）都为语音识别系统的实用化研究开发投入巨大资金和人力，研制出大词汇量语音识别系统[1，4,8]。

如IBM的ViaVoice系统、剑桥大学的HTK系统、DARGON系统、Microsoft的Whisper系统等，这些语音识别系统代表着当时语音识别的最高水平，同时结合自然语音处理技术，发展到基于自然口语识别、理解的人机对话系统和不同语种的直接语音翻译设备。

国内的语音识别研究开始于50年代后期，中科院声学所利用频谱分析的方法成功研究出汉语的10个元音的语音识别，70年代后期，研究出了基于模板匹配的孤立词语音识别系统。

80年代后期，从1987年起国家“863”智能计算机的主题专家组委对语音识别技术立项，经过二十多年的发展，汉语语音识别取得了国内前所未有的成果，研究水平已经与国际同步，在汉语语音识别的技术上还有自己的特点和优势。

越来越多的大学和科研院所纷纷作出响应，加大投资，加入到语音识别的研究行列，大大推动了汉语语音识别技术的发展。

清华大学电子工程系研究的语音识别系统以1183个单音节词作为识别单元，它采用的是分段概率的模型，对词的组成音节进行仔细的分解，最后用搜索匹配算法来计算整体的识别率，使二字词和三字词的识别率达到97.5%。

北京中科院自动化系研究所的模式识别实验室将汉语的音节切分成韵母和声母，并结合声调信息，然后进行识别。

其中声母识别采用CHMM模型，声调识别采用感知神经网络模型，整个系统识别率高达89.5%，声调识别率为99.5%，词的识别率为95%[1，4,8]。

鉴于中国庞大的市场，国外也非常重视汉语语音识别的研究。

但汉语数字语音识别技术由于汉语数字语音存在高混淆的问题，使得其进展相当缓慢，再加上汉语独特的单音节特征和多方言语种等问题使得汉语数字识别系统在噪声环境下仍然具有很大难度，任务艰巨。

1.3虚拟仪器简介

虚拟仪器（VirtualInstrument，简称VI）是现代计算机技术和仪器技术相结合的产物，是目前计算机辅助测试（CAT）领域的一项重要技术。

虚拟仪器是计算机硬件资源、虚拟仪器软件资源和仪器与测控系统硬件资源三者的有效结合。

所谓虚拟仪器，就是以通用计算机为核心，借助这个硬件平台，由用户自己设计定义，其具有虚拟面板并且测试功能由测试软件实现的一种计算机仪器系统。

使用者只要用鼠标点击虚拟面板，就可以操作这台计算机系统硬件平台，就如同使用一台专用的测量仪器。

虚拟仪器的特点可归纳为：

（1）在通用硬件平台确定后，由软件取代传统仪器中的硬件来完成仪器的功能。

（2）仪器的功能是由用户根据需要由软件来定义的，而不是事先由厂家定义好的。

（3）仪器性能的改进和功能扩展只需进行相关软件的设计更新，而不需购买新的仪器。

（4）研制周期较传统仪器大为缩短。

（5）虚拟仪器开放、灵活，可与计算机同步发展，可与网络及其它周边设备互联。

决定虚拟仪器具备传统仪器不可能具备的上述特点的根本原因在于：

“虚拟仪器的关键是软件”。

LABVIEW（LaboratoryVirtualInstrumentEngineeringWorkbench，实验室虚拟仪器工程平台）是美国NI公司（NationalInstrumentCompany）推出的一种基于G语言（GraphicsLanguage，图形化编程语言）的虚拟仪器软件开发工具。

虚拟仪器的构成，如图1.1所示：

图1.1虚拟仪器的构成

LABVIEW软件工具的特点可归纳为：

（1）图形化的编程方式，无须写任何文本格式的代码，是真正的工程师语言。

（2）提供了丰富的数据采集、分析及存储的库函数。

（3）既提供了传统的程序调试手段，如设置断点、单步运行，同时又提供了独到的高亮执行工具，使程序动画式运行，利于设计者观察程序运行的细节，使程序的调试和开发更为便捷。

（4）32bit的编译器编译生成32bit的编译程序，保证数据采集、测试和测量方案的高速执行。

（5）囊括了DAQ、GPIB、PXI、VXI在内的各种仪器通信总线标准的所有功能函数，使得不懂总线标准的开发者也能够驱动不同总线标准接口设备与仪器。

（6）提供大量与外部代码或软件进行连接的机制，诸如DLLs（动态连接库）、DDE（共享库）、ActiveX等。

用LABVIEW设计的虚拟仪器控制系统主要包括三个部分：

（1）仪器前面板的设计

仪器前面板的设计是指在虚拟仪器的开发平台上，利用各类子模板图标创建用户界面，即虚拟仪器的前面板。

展开阅读全文

基于虚拟仪器的语音识别算法研究 精品Word文件下载.docx

基于虚拟仪器的语音识别算法研究精品Word文件下载.docx