基于MATLAB的特定人语音识别算法设计本科毕业设计论文.docx
《基于MATLAB的特定人语音识别算法设计本科毕业设计论文.docx》由会员分享,可在线阅读,更多相关《基于MATLAB的特定人语音识别算法设计本科毕业设计论文.docx(58页珍藏版)》请在冰点文库上搜索。
基于MATLAB的特定人语音识别算法设计本科毕业设计论文
本科毕业设计
基于MATLAB的特定人语音识别算法设计
毕业设计(论文)原创性声明和使用授权说明
原创性声明
本人郑重承诺:
所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。
尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得及其它教育机构的学位或学历而使用过的材料。
对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。
作者签名:
日 期:
指导教师签名:
日 期:
使用授权说明
本人完全了解大学关于收集、保存、使用毕业设计(论文)的规定,即:
按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。
作者签名:
日 期:
学位论文原创性声明
本人郑重声明:
所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。
除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。
对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。
本人完全意识到本声明的法律后果由本人承担。
作者签名:
日期:
年月日
学位论文版权使用授权书
本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。
本人授权 大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。
涉密论文按学校规定处理。
作者签名:
日期:
年月日
导师签名:
日期:
年月日
注意事项
1.设计(论文)的内容包括:
1)封面(按教务处制定的标准封面格式制作)
2)原创性声明
3)中文摘要(300字左右)、关键词
4)外文摘要、关键词
5)目次页(附件不统一编入)
6)论文主体部分:
引言(或绪论)、正文、结论
7)参考文献
8)致谢
9)附录(对论文支持必要时)
2.论文字数要求:
理工类设计(论文)正文字数不少于1万字(不包括图纸、程序清单等),文科类论文正文字数不少于1.2万字。
3.附件包括:
任务书、开题报告、外文译文、译文原文(复印件)。
4.文字、图表要求:
1)文字通顺,语言流畅,书写字迹工整,打印字体及大小符合要求,无错别字,不准请他人代写
2)工程设计类题目的图纸,要求部分用尺规绘制,部分用计算机绘制,所有图纸应符合国家技术标准规范。
图表整洁,布局合理,文字注释必须使用工程字书写,不准用徒手画
3)毕业论文须用A4单面打印,论文50页以上的双面打印
4)图表应绘制于无格子的页面上
5)软件工程类课题应有程序清单,并提供电子文档
5.装订顺序
1)设计(论文)
2)附件:
按照任务书、开题报告、外文译文、译文原文(复印件)次序装订
指导教师评阅书
指导教师评价:
一、撰写(设计)过程
1、学生在论文(设计)过程中的治学态度、工作精神
□优□良□中□及格□不及格
2、学生掌握专业知识、技能的扎实程度
□优□良□中□及格□不及格
3、学生综合运用所学知识和专业技能分析和解决问题的能力
□优□良□中□及格□不及格
4、研究方法的科学性;技术线路的可行性;设计方案的合理性
□优□良□中□及格□不及格
5、完成毕业论文(设计)期间的出勤情况
□优□良□中□及格□不及格
二、论文(设计)质量
1、论文(设计)的整体结构是否符合撰写规范?
□优□良□中□及格□不及格
2、是否完成指定的论文(设计)任务(包括装订及附件)?
□优□良□中□及格□不及格
三、论文(设计)水平
1、论文(设计)的理论意义或对解决实际问题的指导意义
□优□良□中□及格□不及格
2、论文的观念是否有新意?
设计是否有创意?
□优□良□中□及格□不及格
3、论文(设计说明书)所体现的整体水平
□优□良□中□及格□不及格
建议成绩:
□优□良□中□及格□不及格
(在所选等级前的□内画“√”)
指导教师:
(签名)单位:
(盖章)
年月日
评阅教师评阅书
评阅教师评价:
一、论文(设计)质量
1、论文(设计)的整体结构是否符合撰写规范?
□优□良□中□及格□不及格
2、是否完成指定的论文(设计)任务(包括装订及附件)?
□优□良□中□及格□不及格
二、论文(设计)水平
1、论文(设计)的理论意义或对解决实际问题的指导意义
□优□良□中□及格□不及格
2、论文的观念是否有新意?
设计是否有创意?
□优□良□中□及格□不及格
3、论文(设计说明书)所体现的整体水平
□优□良□中□及格□不及格
建议成绩:
□优□良□中□及格□不及格
(在所选等级前的□内画“√”)
评阅教师:
(签名)单位:
(盖章)
年月日
教研室(或答辩小组)及教学系意见
教研室(或答辩小组)评价:
一、答辩过程
1、毕业论文(设计)的基本要点和见解的叙述情况
□优□良□中□及格□不及格
2、对答辩问题的反应、理解、表达情况
□优□良□中□及格□不及格
3、学生答辩过程中的精神状态
□优□良□中□及格□不及格
二、论文(设计)质量
1、论文(设计)的整体结构是否符合撰写规范?
□优□良□中□及格□不及格
2、是否完成指定的论文(设计)任务(包括装订及附件)?
□优□良□中□及格□不及格
三、论文(设计)水平
1、论文(设计)的理论意义或对解决实际问题的指导意义
□优□良□中□及格□不及格
2、论文的观念是否有新意?
设计是否有创意?
□优□良□中□及格□不及格
3、论文(设计说明书)所体现的整体水平
□优□良□中□及格□不及格
评定成绩:
□优□良□中□及格□不及格
教研室主任(或答辩小组组长):
(签名)
年月日
教学系意见:
系主任:
(签名)
年月日
摘要
语言是人类交换信息最方便、最快捷的一种方式,在高度发达的信息社会中,用数字化的方法进行语音的传送、存储、识别、合成和增强等是整个数字化通信网中最重要、最基本的组成部分之一。
而在随着科技技术的发展的今天,除了人与人之间的自然语言通信之外,人与机或机器与机器之间也开始使用语言。
也就是因为如此,需要涉及到语音识别技术。
为了解决机器能“听懂”人类的语言,在科技如此迅猛发展的今天,语音识别技术一直受到各国科学界的关注,其对计算机发展和社会生活的重要性也日益凸显出来。
在孤立字语音识别中,如语音密码锁,汽车控制等领域,都运用到了特定人语音识别技术,也就是DTW算法,相对于HMM算法,DTW算法具有简单操作。
在相同环境下,两者识别效果相差不大,但是HMM算法要复杂得多,主要体现在HMM算法在训练阶段需要提供大量的语音数据,而DTW算法则不需要额外的计算。
所以在特定人语音识别当中,DTW算法被广泛使用。
在本次设计中,将运用到MATLAB平台来对语音信号进行处理及识别。
相对于C语言而言,MATLAB平台更能给用户提供一个简单易懂的代码分析窗口。
而且在个性化设计中,MATLAB可以为用户提供一个人性化界面--GUI。
所以,此次设计,通过MATLAB平台建立一个GUI界面,接着对一组语音信号的输入进行预处理及端点检测,提取特征参数(MFCC),形成参考模块。
然后再对一组相同的语音信号输入进行同样的操作作为测试模块,与参考模块进行DTW算法进行匹配,输出匹配后的识别结果。
关键词:
MATLABGUI端点检测MFCCDTW
DesignofSpeechRecognitionAlgorithmBasedonSpecificMATLAB
CaiJingzuo
(CollegeofEngineering,SouthChinaAgriculturalUniversity,Guangzhou510642,China)
Abstract:
Languageisawayofhumanexchangeofinformationthemostconvenient,quick,highlydevelopedintheinformationsociety,forvoicetransmission,byusingthedigitalmethodofstorage,recognition,synthesisandenhancementisoneofthemostimportantpartsofthewhole,themostbasicdigitalcommunicationnetwork.Whilewiththedevelopmentofscienceandtechnologytoday,inadditiontonaturallanguagecommunicationbetweenpeople,betweenpeopleandmachineormachineandmachinearealsostartingtousethelanguage.Itisbecauseofthis,needtoinvolvethespeechrecognitiontechnology.Inordertosolvethemachinecan"hear"thehumanlanguage,thetechnologyissorapiddevelopmenttoday,thespeechrecognitiontechnologyhasbeenthesubjectofscientificattentionofallcountries,theimportanceofcomputerdevelopmentandsociallifeisincreasinglyprominent.
Intheisolatedwordspeechrecognition,suchasvoicepasswordlock,autocontrolfield,areappliedtothespeechrecognitiontechnology,whichisrelativetotheDTWalgorithm,HMMalgorithm,DTWalgorithmhastheadvantagesofsimpleoperation.Inthesameenvironment,boththerecognitioneffectissimilar,butHMMalgorithmismuchmorecomplex,mainlyreflectedintheHMMalgorithmneedtoprovidealargeamountofspeechdatainthetrainingphase,whiletheDTWalgorithmdoesnotneedtheextracomputation.Sointhespeaker-independentrecognition,DTWalgorithmiswidelyused.
Inthisdesign,willapplytotheMATLABplatformtocarryontheprocessingandrecognitionofspeechsignal.ComparedwiththeClanguage,MATLABplatformcanprovideuserswithasimplecodeanalysiswindow.Butinthepersonalizeddesign,MATLABcanprovideahumanuserinterface--GUI.So,thedesign,theestablishmentofaGUIinterfacethroughtheMATLABplatform,andthenasetoftheinputspeechsignalpretreatment,endpointdetection,featureparameterextraction(MFCC),theformationofthereferencemodule.Thenagroupofthesamespeechsignalinputtothesameoperationasatestmodule,matchingwithreferencetoDTWalgorithmmodule,outputmatchingrecognitionresults.
Keywords:
DTWGUIEndpointdetectionMFCCDTW
本科生毕业设计成绩评定表
1前言
语言是人类交换信息最方便、最快捷的一种方式,在高度发达的信息社会中,用数字化的方法进行语音的传送、存储、识别、合成和增强等是整个数字化通信网中最重要、最基本的组成部分之一。
随着人类步入信息社会步伐的加快,越来越多的地方需要用到语音信号处理的知识。
而MATLAB作为一个语音信号处理的平台,是一个高性能的科学计算软件,广泛应用于数学计算、算法开发、数学建模、系统仿真、数据分析处理及可视化、科学和工程绘图、应用系统开发(包括建立用户界面)等。
其语言是一种简单、高效、功能极强的高级语言,具有强大的矩阵运算能力和极高的编程效率,这一方面使得MATLAB程序可以被高度向量化,另一方面使得程序易读易写。
本设计主要围绕着MATLAB平台进行语音信号的录制及预处理,提取特征参数,建立两种模块,一组为参考模块,一组为测试模块,然后通过DTW算法进行匹配,算出匹配结果。
主要通过用户开发界面直观地呈现出来。
1.1语音识别的历史背景
早在计算机发明之前,自动语音识别的设想就已经被提上了议事日程,早期的声码器可被视作语音识别及合成的雏形。
而1920年代生产的"Radio Rex"玩具狗可能是最早的语音识别器,当这只狗的名字被呼唤的时候,它能够从底座上弹出来。
最早的基于电子计算机的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字。
其识别方法是跟踪语音中的共振峰。
该系统得到了98%的正确率。
到1950年代末,伦敦学院(Colledge of London)的Denes已经将语法概率加入语音识别中。
1960年代,人工神经网络被引入了语音识别。
这一时代的两大突破是线性预测编码Linear Predictive Coding (LPC),及动态时间弯折Dynamic Time Warp(DTW)技术。
语音识别技术的最重大突破是隐含马尔科夫模型Hidden Markov Model(HMM)的应用。
从Baum提出相关数学推理,经过Labiner等人的研究,卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。
此后严格来说语音识别技术并没有脱离HMM框架。
尽管多年来研究人员一直尝试将“听写机”推广,但是语音识别技术在目前还无法支持无限领域,无限说话人的听写机应用。
1.1.1国外研究历史及现状
国外的语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统,它是第一个可以识别十个英文数字的语音识别系统。
但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在60年代末70年代初。
这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能,更重要的是语音信号线性预测编码(LPC)技术和动态时间规整(DTW)技术的提出,有效的解决了语音信号的特征提取和不等长匹配问题。
这一时期的语音识别主要基于模板匹配原理,研究的领域局限在特定人,小词汇表的孤立词识别,实现了基于线性预测倒谱和DTW技术的特定人孤立词语音识别系统;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。
实验室语音识别研究的巨大突破产生于20世纪80年代末:
人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特性都集成在一个系统中,比较典型的是卡耐基梅隆大学(CarnegieMellonUniversity)的Sphinx系统,它是第一个高性能的非特定人、大词汇量连续语音识别系统。
这一时期,语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。
HMM模型的广泛应用应归功于AT&TBell实验室Rabiner等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识,从而使统计方法成为了语音识别技术的主流。
统计方法将研究者的视线从微观转向宏观,不再刻意追求语音特征的细化,而是更多地从整体平均(统计)的角度来建立最佳的语音识别系统。
在声学模型方面,以Markov链为基础的语音序列建模方法HMM(隐式Markov链)比较有效地解决了语音信号短时稳定、长时时变的特性,并且能根据一些基本建模单元构造成连续语音的句子模型,达到了比较高的建模精度和建模灵活性。
在语言层面上,通过统计真实大规模语料的词之间同现概率即N元统计模型来区分识别带来的模糊音和同音词。
另外,人工神经网络方法、基于文法规则的语言处理机制等也在语音识别中得到了应用。
20世纪90年代前期,许多著名的大公司如IBM、苹果、AT&T和NTT都对语音识别系统的实用化研究投以巨资。
语音识别技术有一个很好的评估机制,那就是识别的准确率,而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。
比较有代表性的系统有:
IBM公司推出的ViaVoice和DragonSystem公司的NaturallySpeaking,Nuance公司的NuanceVoicePlatform语音平台,Microsoft的Whisper,Sun的VoiceTone等。
其中IBM公司于1997年开发出汉语ViaVoice语音识别系统,次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统ViaVoice'98。
它带有一个32,000词的基本词汇表,可以扩展到65,000词,还包括办公常用词条,具有“纠错机制”,其平均识别率可以达到95%。
该系统对新闻语音识别具有较高的精度,是目前具有代表性的汉语连续语音识别系统。
1.1.2国内研究历史及现状
我国语音识别研究工作起步于五十年代,但近年来发展很快。
研究水平也从实验室逐步走向实用。
从1987年开始执行国家863计划后,国家863智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。
我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。
中科院自动化所、声学所、清华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究,其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。
清华大学电子工程系语音技术与专用芯片设计课题组,研发的非特定人汉语数码串连续语音识别系统的识别精度,达到94.8%(不定长数字串)和96.8%(定长数字串)。
在有5%的拒识率情况下,系统识别率可以达到96.9%(不定长数字串)和98.7%(定长数字串),这是目前国际最好的识别结果之一,其性能已经接近实用水平。
研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%,前三选识别率达99.96%;并且可以识别普通话与四川话两种语言,达到实用要求。
中科院自动化所及其所属模式科技(Pattek)公司2002年发布了他们共同推出的面向不同计算平台和应用的“天语”中文语音系列产品——PattekASR,结束了中文语音识别产品自1998年以来一直由国外公司垄断的历史。
如果从识别系统的词汇量大小考虑,也可以将识别系统分为3类:
(1)小词汇量语音识别系统。
通常包括几十个词的语音识别系统。
(2)中等词汇量的语音识别系统。
通常包括几百个词到上千个词的识别系统。
(3)大词汇量语音识别系统。
通常包括几千到几万个词的语音识别系统。
随着计算机与数字信号处理器运算能力以及识别系统精度的提高,识别系统根据词汇量大小进行分类也不断进行变化。
目前是中等词汇量的识别系统到将来可能就是小词汇量的语音识别系统。
这些不同的限制也确定了语音识别系统的困难度。
1.2语音识别技术的应用及研究方向
语音识别技术是计算机智能接口与人机交互的重要手段之一。
从目前及整个社会的发展来看,已经诞生了全球首套多语种交谈式语音识别系统E-talk。
这是全球唯一拥有中英混合语言的识别系统,可以识别出普通话、粤语和英语,还可以适应不同的地方口音。
由于E-talk可以提高工作效率,降低运营成本,并为用户提供便捷的增值服务,它将成为电信、证券、金融等重视客户服务的行业争相引用的电子商务应用系统。
目前,飞利浦推出的语音识别自然会话平台SpeechPearl和SpeechMania已成功地应用于国内呼叫中心,SpeechPearl中的每个识别引擎可提供高达20万字的超大容量词库,尤其在具有大词汇量、识别准确性和灵活性等要求的各种电信增值服务中有着广泛的应用。
对于语音编码而言,长期以来,在通信网的发展中,解决信息传输效率是一个极其重要的关键问题。
目前科研人员已通过两个途径研究这一课题,其一是研究新的调制方法与技术,来提高信道传输信息的比特率,指标是每赫兹带宽所传送的比特数;其二是压缩信源编码的比特率。
这对任何频率资源有限的传输环境来说,无疑是极为重要的,尤其是在无线通信技术决定今后通信发展命运的今天更显得重要。
实际上,压缩语音编码比特率与话音存储、语音识别及语音合成等技术都直接相关。
数字语音编码技术从1938年提出PCM开始,其编码方法已有了很大的发展,如1968年提出的线性预测编码技术(LPC)、20世纪70年代末出现的隐马尔科夫技术(HMM)以及矢量量化(VQ)等。
随着技术的不断发展及网络技术的日益完善和普及,语音识别技术也出现了一些新的研究方向。
①连续自然语音的识别。
目的是能让计算机更好的理解人说的话,能让计算机更好的处理人类流畅的自然发音,