语音识别.pdf
《语音识别.pdf》由会员分享,可在线阅读,更多相关《语音识别.pdf(55页珍藏版)》请在冰点文库上搜索。
第第第第1111讲讲讲讲语音识别技术语音识别技术语音识别技术语音识别技术主要内容主要内容1.语音识别的概述语音识别的概述2.语音识别的应用语音识别的应用3.基于基于DTW的语音识别技术的语音识别技术4.基于基于HMM的语音识别技术的语音识别技术5.说话人识别与语种辨识说话人识别与语种辨识语音信号中的情感信息处理语音信号中的情感信息处理信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity第第11讲讲语音识别技术语音识别技术?
11-1语音识别的概述语音识别的概述语音识别技术语音识别技术就是让机器通过识别和理解过程,把语音就是让机器通过识别和理解过程,把语音信号转变为相应的文本或命令的技术。
信号转变为相应的文本或命令的技术。
语音识别语音识别是一门交叉学科,涉及计算机、通信、语音语是一门交叉学科,涉及计算机、通信、语音语言学、数理统计、信号处理、神经生理学、和人工智能言学、数理统计、信号处理、神经生理学、和人工智能等学科。
等学科。
语音识别按任务的不同可以分为四个方面:
语音识别按任务的不同可以分为四个方面:
说话人识别说话人识别关键词检出关键词检出语言辨识语言辨识连续语音识别连续语音识别语音识别技术的语音识别技术的困难困难:
(1)语音信号具有时变性;
(2)目:
(1)语音信号具有时变性;
(2)目前没有模型能完全描述发音模型;(3)方言或口音会降低前没有模型能完全描述发音模型;(3)方言或口音会降低语音识别率、背景噪音、口语等问题。
语音识别率、背景噪音、口语等问题。
信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity第第11讲讲语音识别技术语音识别技术语音识别原理框图语音识别原理框图预处理与预处理与数字化数字化模式匹配模式匹配特征提取特征提取参考模参考模式库式库后处理后处理结果结果识别识别训练训练语音输入语音输入信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity第第11讲讲语音识别技术语音识别技术一个完整的语音识别系统可大致分为四部分:
一个完整的语音识别系统可大致分为四部分:
(1)语音信号的预处理语音信号的预处理
(2)语音特征提取语音特征提取(3)声学模型与模式匹配(识别算法声学模型与模式匹配(识别算法)(4)语言模型与语言处理语言模型与语言处理语音识别系统的分类(见下表):
语音识别系统的分类(见下表):
按发音方式分按发音方式分按词汇量大小分按词汇量大小分按说话人分按说话人分从识别方法分从识别方法分信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity第第11讲讲语音识别技术语音识别技术分类依分类依据据语音的语音的发音方发音方式式说话说话人人词汇量词汇量的大小的大小识别的方法识别的方法应用场应用场合合动态时间规整动态时间规整(DTW)孤立词孤立词语音识语音识别系统别系统特定人特定人语音识语音识别系统别系统小词汇量小词汇量(10-100)矢量量化矢量量化(VQ)命令识别命令识别等等连接字连接字语音识语音识别系统别系统中词汇量中词汇量(100-500)隐马尔可夫模型隐马尔可夫模型(HMM)文字记录文字记录等等连续语连续语音识别音识别系统系统大词汇量大词汇量(500以上以上)隐马尔可夫模型隐马尔可夫模型(HMM)、人工、人工神经网络神经网络(ANN)语音理解语音理解等等非特定非特定人语音人语音识别系识别系统统类别类别语音识别系统的分类语音识别系统的分类信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity第第11讲讲语音识别技术语音识别技术?
11-2语音识别的应用语音识别的应用未来未来10年内,语音识别技术将进入年内,语音识别技术将进入工业工业、家电家电、通信通信、汽车电子汽车电子、医疗医疗、家庭服务家庭服务、消费电子产消费电子产品品等各个领域。
等各个领域。
-语音打字机语音打字机-数据库检索数据库检索-特定的环境所需的语音命令特定的环境所需的语音命令信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity第第11讲讲语音识别技术语音识别技术Sony于于2005年发布年发布PSP语音识别器语音识别器TALKMAN信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity第第11讲讲语音识别技术语音识别技术可通过语音命令控制菜单操作可通过语音命令控制菜单操作紫光听写大师紫光听写大师信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity第第11讲讲语音识别技术语音识别技术?
11-3基于基于DTW的语音识别的语音识别基于基于DTW的识别系统的识别系统-适用于孤立词的识别适用于孤立词的识别优点优点:
系统比较稳定:
系统比较稳定应用场合应用场合:
命令识别:
命令识别实际应用实际应用:
语音控制玩具,语音控制门锁:
语音控制玩具,语音控制门锁信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity第第11讲讲语音识别技术语音识别技术算法的提出算法的提出:
简单的讲,输入模板与相应的参考:
简单的讲,输入模板与相应的参考模板直接做比较存在缺点。
模板直接做比较存在缺点。
假设参考模板的特征序列假设参考模板的特征序列,输入语输入语音特征矢量音特征矢量,IJ实际:
实际:
把时间规整和距离测度的计算结合起来的把时间规整和距离测度的计算结合起来的一种非线性规整技术,是一种匹配算法。
一种非线性规整技术,是一种匹配算法。
12,IXxxx=L12,JYyyy=L信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity第第11讲讲语音识别技术语音识别技术设时间规整函数为:
设时间规整函数为:
C=c
(1),c
(2),c(N)c(n)=(i(n),j(n)表示第表示第n个匹配点对,是由参考模个匹配点对,是由参考模板的第板的第i(n)个特征矢量与待测模板的第个特征矢量与待测模板的第j(n)个特征个特征矢量构成的匹配点对。
矢量构成的匹配点对。
信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity第第11讲讲语音识别技术语音识别技术DTW算法通过局部优化的方法实现算法通过局部优化的方法实现加权距离和最加权距离和最小小,即,即为为加权函数加权函数,需考虑两个因素:
,需考虑两个因素:
根根据据第第n对对匹配点前一步局部路径的走向来选取匹配点前一步局部路径的走向来选取;考考虑虑语音各部分给予不同权值语音各部分给予不同权值,以加强某些区别,以加强某些区别特征。
特征。
()()()()1,minnjnNCnnyWDijW=?
Ninn=1dxnW信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity第第11讲讲语音识别技术语音识别技术动态时间规整过程动态时间规整过程(Wn=1)J14121086422468101214161820I信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity第第11讲讲语音识别技术语音识别技术需对时间规整函数需对时间规整函数C作某些限定,以保证不违背语音作某些限定,以保证不违背语音信号各部分特征的时间顺序。
信号各部分特征的时间顺序。
单调性单调性:
起点和终点约束起点和终点约束:
一般要求:
一般要求连续性连续性:
一般规定不允许跳过任何一点,即:
一般规定不允许跳过任何一点,即最大规整量不超过某一极限值最大规整量不超过某一极限值,最简单情形:
,最简单情形:
还需设计局部路径的约束还需设计局部路径的约束()()()()1,1njnjnini()()()()JNjINiji=,111()()()()11,11njnjnini()()为窗宽MMnjni,信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity第第11讲讲语音识别技术语音识别技术三种典型的局部约束路径三种典型的局部约束路径(a)(c)(b)信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity第第11讲讲语音识别技术语音识别技术定义一种最小定义一种最小累计失真函数累计失真函数,表示到匹配,表示到匹配点对(点对(i,j)为止的前面所有路径中最佳路径的)为止的前面所有路径中最佳路径的累计匹配距离。
累计匹配距离。
DTW算法的具体步骤:
(约束路径算法的具体步骤:
(约束路径a,区域为平,区域为平行四边为例)行四边为例)(),gij()()()()(),min,ijnijijgijgijdxyW=+信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity第第11讲讲语音识别技术语音识别技术初始化:
令初始化:
令,则,则递推求累计距离:
递推求累计距离:
()()()()11111,1,12,ijgdxy=()()()0,Re,Reijggijijg=()()()()()()()()()(),min1,1;1,1,2;,1,3;ijnijnijngijgijdxyWgijdxyWgijdxyW=+?
(i,j)(i,j-1)(i-1,j)(i-1,j-1)信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity第第11讲讲语音识别技术语音识别技术一般取一般取而而规整函数的点由规整函数的点由I,J决定决定回溯回溯求出所有的匹配点对:
根据每步上一步的最佳局求出所有的匹配点对:
根据每步上一步的最佳局部路径,由匹配点对(部路径,由匹配点对(I,J)向前回溯一直到)向前回溯一直到(1,1)()()()131,22nnnWWW=信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity第第11讲讲语音识别技术语音识别技术以上属于以上属于DTW算法的模式匹配过程,模板建立算法的模式匹配过程,模板建立的好坏直接影响匹配结果。
的好坏直接影响匹配结果。
DTW算法中的算法中的模板训练模板训练方法:
方法:
偶偶然模板训练法然模板训练法当识别词不太大,且系统为特定人设计时,可当识别词不太大,且系统为特定人设计时,可以采用一种简单的多模板训练方法。
以采用一种简单的多模板训练方法。
信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity第第11讲讲语音识别技术语音识别技术将每个词的每一遍语音形成一个模板将每个词的每一遍语音形成一个模板在识别时,待识矢量序列用在识别时,待识矢量序列用DTW算法分别求得算法分别求得与每个模板的累计失真,判别属于哪一类与每个模板的累计失真,判别属于哪一类优点优点:
建立模板简单:
建立模板简单缺点缺点:
顽健性不好:
顽健性不好信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity第第11讲讲语音识别技术语音识别技术顽健模板训练法:
顽健模板训练法:
每个词每个词重复说多遍重复说多遍,直到得到一对一致性较好的,直到得到一对一致性较好的特征矢量序列,在沿特征矢量序列,在沿DTW路径上求平均。
路径上求平均。
训练过程:
只考虑某个特定词训练过程:
只考虑某个特定词用用DTW求这两个模板的失真得分求这两个模板的失真得分12111121221222,TTXxxxXxxx=LLtestdtw正在计算参考模板的参数正在计算参考模板的参数.正在计算测试模板的参数正在计算测试模板的参数.正在进行模板匹配正在进行模板匹配.正在计算匹配结果正在计算匹配结果.测试模板测试模板1的识别结果为:
的识别结果为:
1测试模板测试模板2的识别结果为:
的识别结果为:
2测试模板测试模板3的识别结果为:
的识别结果为:
3测试模板测试模板4的识别结果为:
的识别结果为:
4测试模板测试模板5的识别结果为:
的识别结果为:
5测试模板测试模板6的识别结果为:
的识别结果为:
6测试模板测试模板7的识别结果为:
的识别结果为:
7测试模板测试模板8的识别结果为:
的识别结果为:
8测试模板测试模板9的识别结果为:
的识别结果为:
9测试模板测试模板10的识别结果为:
的识别结果为:
10信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity第第11讲讲语音识别技术语音识别技术基于基于matlab的的DTW识别算法实现识别算法实现信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity第第11讲讲语音识别技术语音识别技术基于基于matlab的的DTW识别算法实现识别算法实现distdist=1.0e+004*0.57411.85753.71642.75673.27322.49462.12081.85653.45301.77831.61830.62015.47114.00244.51693.84223.02561.43985.56603.40903.58795.27630.41471.44352.49243.15202.53713.50351.00292.96922.26573.62501.05110.54872.12232.25731.84052.56381.03032.07882.40523.91302.14181.80480.42342.96292.62612.56002.11392.25892.28963.24253.09962.78533.05290.50022.22293.23172.78731.97192.16923.83113.19972.61732.93062.44120.62072.96752.64891.55911.94282.24704.03262.69343.13623.66823.49820.75674.30602.67863.20844.73741.03191.47392.29922.91042.25093.84640.49462.59452.22314.43862.91132.57312.79942.28831.37793.65572.24120.3803信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity第第11讲讲语音识别技术语音识别技术基于基于matlab的的DTW识别算法实现识别算法实现不足:
不足:
-模板过于简单模板过于简单-非实时识别非实时识别-端点检测只适用连续发音端点检测只适用连续发音信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity第第11讲讲语音识别技术语音识别技术?
11-4基于基于HMM的语音识别技术的语音识别技术隐马尔可夫模型的基本概念在第隐马尔可夫模型的基本概念在第10讲中已作介绍讲中已作介绍当前基于当前基于HMM的语音识别研究重点:
的语音识别研究重点:
HMM的进一步细化;的进一步细化;HMM与与ANN结合;结合;特征提取的新技术;特征提取的新技术;信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity第第11讲讲语音识别技术语音识别技术基于HMM的语音识别流程图基于HMM的语音识别流程图训练数据训练数据根据状态序列估根据状态序列估计输出分布参数计输出分布参数用用Viterbi算法求算法求状态序列状态序列模型初始化模型初始化模型参数重估模型参数重估收敛?
收敛?
模型参数模型参数NY_信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity第第11讲讲语音识别技术语音识别技术HMM的缺陷:
的缺陷:
基于基于HMM理论的语音识别系统虽然取得了可理论的语音识别系统虽然取得了可喜的成绩,但并不是完美的,在识别率和系统鲁喜的成绩,但并不是完美的,在识别率和系统鲁棒性上仍有很多不足,目前最成功的语音识别软棒性上仍有很多不足,目前最成功的语音识别软件仍无法满足广大用户的需要。
件仍无法满足广大用户的需要。
信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity第第11讲讲语音识别技术语音识别技术主要原因:
主要原因:
语语音信号处理部分没有能从原始语音信号中提音信号处理部分没有能从原始语音信号中提取抗干扰能力强的语音特征;取抗干扰能力强的语音特征;HMM并没有准确地对语音信号进行描述;并没有准确地对语音信号进行描述;语语言环境复杂使语言模型的建立变得困难言环境复杂使语言模型的建立变得困难信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity第第11讲讲语音识别技术语音识别技术HMM本身的缺陷:
本身的缺陷:
对状态持续时间建模不力对状态持续时间建模不力在状态序列给定的条件下,观测符号之间条件独立在状态序列给定的条件下,观测符号之间条件独立基于帧的观测符号在特征提取上的限制基于帧的观测符号在特征提取上的限制Markov链理论,在本质上并非语音信号的完美解链理论,在本质上并非语音信号的完美解释释信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学NingboUniversityNingboUniversity第第11讲讲语音识别技术语音识别技术实验:
实验:
实验模板:
实验模板:
”1,