e改进的隐马尔科夫模型的语音识别方法.docx-资源下载

e改进的隐马尔科夫模型的语音识别方法.docx

1、e改进的隐马尔科夫模型的语音识别方法第卷第期年月中南大学学报（自然科学版）（）、，基于改进的隐马尔科夫模型的语音识别方法袁里驰，（中南大学信息科学与工程学院，湖南长沙，；江西财经大学信息管理学院，江西南昌，）摘要：针对隐马尔可夫（）语音识别模型状态输出独立同分布等与语音实际特性不够协调的假设以及在使用段长信息时存在的缺陷，对隐马尔可夫模型进行改进，提出马尔可夫族模型。马尔可夫族模型可看作一个数学上由多个马尔可夫链构成的多重随机过程，模型则是双重随机过程，因而，模型可视为马尔可夫族模型的特例。马尔可夫族模型用条件独立性假设取代了模型的独立性假设。相对条件独立性假设，独立性假设是过强假设，因而，基

2、于马尔可夫族模型的语音模型更符合语音实际物理过程。在马尔可夫族语音识别模型中引入状态段长信息，能自动根据语速对语音单元段长进行调整。非特定人连续语音实验结果表明，利用状态段长信息的改进语音识别模型比经典模型的性能明显提高。关键词：隐马尔可夫模型；马尔可夫族模型；段长；语音识别中图分类号：文献标识码：文章编号：（），（，；，）：（），（），；：；收稿日期：修回日期：基金项目：国家自然科学基金资助项目（）：中南大学博士后科学基金资助项目（）通信作者：袁里驰（一），男，湖南邵阳人，博士后，副教授，从事信息检索与语音识别研究；电话：；：万方数据中南大学学报（自然科学版）第卷隐马尔可夫模型（，即）被认为

3、是语音识别领域中最成功的统计模型之一。对语音信号的时间序列结构建立统计模型，将之看作一个数学上的双重随机过程：一个是用具有有限状态数的链来模拟语音信号统计特性变化的隐含随机过程，另一个是与链的每一个状态相关联的观测序列随机过程。模型可分为离散隐马尔可夫模型（采用离散概率密度函数，简称）和连续隐马尔可夫模型（采用连续概率密度函数，简称）以及半连续隐马尔可夫模型（，集中了和的特点）。近几十年来，有关语音识别的研究取得了许多进展，尤其是在出现了隐马尔可夫模型以后，大词汇量连续语音识别【取得了重大突破，但其识别性能仍有待提高，体现在：首先，经典的是齐次的马尔可夫模型，其状态转移概率为常数，状态驻留长度

4、服从指数分布】，这与语音的实际物理过程不符；其次，由于人在自然发音过程中发音器官的运动惯性，相邻帧的语音特征之间有很强的时间相关性。而在现有应用中，为了处理方便，引入了一个重要的状态输出特征矢量独立分布的假设。针对语音识别模型现有的一些缺陷，本文作者提出马尔可夫族模型（，即）。马尔可夫族模型（）是由多个马尔可夫连构成的多重随机过程，随机过程相互之间有一定的概率关系，该模型用条件独立性假设取代隐马尔可夫模型的独立性假设。隐马尔可夫模型与马尔可夫族模型隐马尔可夫模型定义（隐马尔可夫模型）隐马尔可夫模型是一个五元组（，万）。其中：一，），是状态集；，是输出符号集合；，万），（）是初始状态概率分布；（

5、口，）。，是状态转移概率分布矩阵；，其墨墨），（）是从状态毋转移到状态的概率；（，）。，万方数据是状态符号发射的概率分布矩阵：女（，），后，（）表示在状态，时输出符号的概率。从隐马尔可夫模型的定义可以看出，模型是一个数学上的双重随机过程；建立在以下个基本假设的基础上：马尔可夫性假设；不动性假设；输出独立性假设。马尔可夫族模型定义马尔可夫族模型（）令，恐，如）表示维随机向量，其中分量（）构成马尔可夫族模型，若它们满足下列条件：每一个分量（）都是一个，阶马尔可夫链：（，）（，吨，）。（）分量在时刻出现某一个状态的概率只与该分量在时刻以前状态和时刻其他分量的状态有关：（，州）（，一吩，一，）。（）条

6、件独立性假设：（，一，一，）（，）（，）（州，）。（）条件表明马尔可夫族模型是多重随机过程，而隐马尔可夫模型可看作一个数学上的双重随机过程。从这个意义说，隐马尔可夫模型可视为马尔可夫族模型的特例：条件明确了马尔可夫族模型的多重随机过程相互之间的关系，利用该特性能简化马尔可夫族模型的计算。根据条件，某分量在时刻的值已知的条件下，该变量在时刻以前的；个取值，与其他分量在时刻取值是相互独立的，即马尔可夫族模型用条件独立性假设取代了隐马尔可夫模型中的独立性假设。从统计学的角度来说，相对条件独立性假设，独立性假设是过强假设，与语音、语言现象也不尽符合。因而，可以说，基于马尔可夫族模型的语音、语言模型比基

7、于隐马尔可夫模型的语音、语言模型更符合语音、语言的实际物理过程。（）取值于有限状态集（所）。分量第期袁里驰：基于改进的隐马尔科夫模型的语音识别方法基于段长分布的语音识别模型在连续语音中，不同说话者在不同语境下说话的速度差异是很大的。偏离正常语速过大往往会造成识另错误，过快的语速会使删除错误增加，过慢的语速会造成插入错误增加，从而使识别性能下降。目前，人们对这个问题的研究主要是先按照某种方法得到识别语料的语速度量，然后，根据语速的快慢更新转移概率，将慢速情况下的状态自转移概率增大，离开转移概率变小，快速时则反之，从而调整每个语音单元的持续时间以适应语速【引。基于段长的语音识别模型，】，直接从段长

8、出发，说话速度的变化直接反映为段长的变化，同时，语速变化对段长的影响是同步增长或同步下降的，即在慢速情况下，前一个语音单元长于平均段长，后一个语音单元也会以相同的趋势长于其平均段长，而在快速下情况正好相反。并且在一个较短的时间段内，个说话者的说话速度会比较稳定，即一个短时间段内这种语速对段长的影响可以认为是基本一致的。这样，就可以用前一个语音单元段长对其均值的偏差来预测后一个语音单元段长的变化趋势】。语音识别统计模型通常以音子【】为最基本的识别单位】。假设音子模型允许出现的状态有种，记为（，三），在时刻玎）所处的状态用如表示，表示状态的观察特征，系统在状态连续驻留的时问长度（简称为段长）用靠表

9、示。记有关概率为：口（”），；，口岛，（），；（。）。（。）（。），。假设识别系统的词汇表容量为以其中每一个词条表示为，设每一词条。中包含。个状态，记为，正。现假定一个完整的句子所相应的特征序列，即观察序列为。，待识别句子的词序列为肛，词序列中的第（）个词对应的第（功个状态记为：，系统在状态：连续驻留的时间长度（段长）记为，则系统所经历的状态序列为：万方数据，乳，。二、，墨，“）。、一，个个学。，令语音识别的任务就是由观察序列。，来求最佳的状态序列，进而求得最佳的词序列肛，），即搜索最可能的词序列：（，）！兰兰铲）（）（）。（）其中：尸（彬）兀（，），。当为，时，分别称为双词文法、三词文法。设

10、厂表示对应于词序列矽的可能状态序列的集合，则有（）（，）（，形）（矽）。（）设正，正州，乃，乃咖，勺，表示段的分割点，并假定，）是一个阶马尔可夫链，则有陟兀瑚岛兀卢盯兀料巧岫“，一，）兀汹岛兀芦妒兀料听七。五，女一）。而式（）中概翠（叨的计算如：（）（，）、。、，。一个户了芦（，；一，一，）？，：鬲琢一斗。，斗。，），。一，、户了彳兀（，；川，）。（）中南大学学报（自然科学版）第卷其中：（；，；、，工，）？冷，（”；，；一，“，一，）（肘“；，；一，一，）（。；。；一，）。（）条件概率（；。，）可取近似值（州，。，一），由马尔可夫族模型的条件独立性假设，有（。：，。：；，。：；一，。：，卜，）

11、：（月，一，）（月；，一，）（，）（州，一）璺垒！三生！垒：！三量：兰！璺垒三垒：！垒！三量：兰！璺鱼！三曼！兰！。（，一）（）由贝叶斯定理，有（，）（。，；，）（。；（肿，）坠丑鼍（等篙掣刈，（，一，）、。肿，）将式（）和（）代入式（）可得：（，；，一，）竺！：！三：！：！兰！：！三！：！：竺！：！三：！：！三！：！：！：兰！。（，）式（）中的其他参数也可通过类似的计算得到。条件概率万方数据（”，一，）的计算利用了相邻个语音单元间的段长相关信息，称这样实现的系统为段长二元概率系统。当然，也可利用相邻个语音单元间的段长相关信息，则相应的系统称为段长元概率系统。由于数据稀疏，（。，。，一，）可取

12、近似值（川，一）或用平滑方法得到：（，一，）（一五）（肿，卜），（，）（）其中：兄。为平滑参数，。；为状态段长，但也可以是描写半音节（声母和韵母）或音节的段长。因此，这里提供的模型和算法具有很大的灵活性。在经典的语音识别模型中，状态的驻留概率；为常数，系统进入状态后在该状态连续驻留的时间即段长服从几何分布【】：（）口。（，），。（）实验统计结果表明，经典模型这种段长的几何分布形式不能很好地描述语音的段长特征。为此，许多研究者对模型进行改进，将状态段长概率直接引入统计模型中。常用的段长分布形式有分布、高斯分布、泊松分布和均匀分布等。实验结果为了验证本文提出的语音识别方法，对连续语音进行试验。大词

13、汇量连续语音试验所采用的语音数据是“”计划提供的男女声各人的连续语音录音数据。每个说话人对应一个句话到句话不等的文件，其中个文件用于识别（慢速，适中语速，快速类各个文件），另外个文件用于训练。采用的特征是维特征及其一阶差分和二阶差分，归一化能量及其一阶差分和二阶差分，共维特征，结果见表。第期袁里驰：基于改进的隐马尔科夫模型的语音识别方法表非特定人连续语音识别的实验结果模型替釜黔插全黔删肇黔总繁率表中的语音识别实验基于连续的隐模型，利用英国剑桥大学提供的（）工具包中编码、训练、识别等相关工具。从表可以看出：替代错误率从下降到，插入错误率从下降到，删除错误率从下降到，总错误率从下降到，相对下降近。

14、对大词汇量连续语音的试验结果表明：基于段长分布的马尔可夫族语音识别模型（）克服了传统不合理的独立性假设，对识别性能有明显的改善。该模型同时对偏离正常语速的语料进行识别时，能自动根据语速对语音单元段长进行调整，从而降低由语速带来的插入错误和删除错误，获得了更精确的分割点，并因此减少了替代错误，从而提高了系统的性能。结论在隐马尔可夫模型的基础上，提出了一种新的统计模型即马尔可夫族模型。马尔可夫族模型是多重随机过程，而隐马尔可夫模型可看作一个数学上的双重随机过程，因而隐马尔可夫模型可视为马尔可夫族模型的特例。马尔可夫族模型用条件独立性假设取代隐马尔可夫模型中的独立性假设，从统计学的角度来说，相对条件

15、独立性假设，独立性假设是过强假设，与语音、语言现象也不尽符合。因而，基于马尔可夫族模型的语音、语言模型比基于隐马尔可夫模型的语音、语言模型更符合语音、语言的实际物理过程。将马尔可夫族模型应用于语音识别，同时在语音识别模型中直接引入状态段长信息。基于段长的语音识别模型直接从段长出发，说话速度的变化直接反万方数据映为段长的变化，能自动根据语速进行语音单元段长的调整。结果表明，利用状态段长信息的语音识别模型比经典模型的性能明显提高。马尔可夫族模型是一种新的统计模型，有关马尔可夫族模型的理论及其在语音识别和自然语言处理等领域中的应用有待进一步研究。参考文献：，：，（）：，：】，（）：，【】，（）：，（）：，（）：，：，（）：【】，（）：，：【明

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？