e改进的隐马尔科夫模型的语音识别方法.docx

资源描述

e改进的隐马尔科夫模型的语音识别方法.docx

《e改进的隐马尔科夫模型的语音识别方法.docx》由会员分享，可在线阅读，更多相关《e改进的隐马尔科夫模型的语音识别方法.docx（23页珍藏版）》请在冰点文库上搜索。

e改进的隐马尔科夫模型的语音识别方法.docx

e改进的隐马尔科夫模型的语音识别方法

第３９卷第６期

２００８年１２月中南大学学报（自然科学版）Ｊ．Ｃｅｎｔ．ＳｏｕｔｈＵｎｉｖ．（ＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ）、，０１．３９Ｎｏ．６Ｄｅｃ．２００８

基于改进的隐马尔科夫模型的语音识别方法

袁里驰１，２

（１．中南大学信息科学与工程学院，湖南长沙，４１００８３；

２．江西财经大学信息管理学院，江西南昌，３３００１３）

摘要：

针对隐马尔可夫（ＨＭＭ）语音识别模型状态输出独立同分布等与语音实际特性不够协调的假设以及在使用

段长信息时存在的缺陷，对隐马尔可夫模型进行改进，提出马尔可夫族模型。

马尔可夫族模型可看作一个数学上

由多个马尔可夫链构成的多重随机过程，ＨＭＭ模型则是双重随机过程，因而，ＨＭＭ模型可视为马尔可夫族模

型的特例。

马尔可夫族模型用条件独立性假设取代了ＨＭＭ模型的独立性假设。

相对条件独立性假设，独立性假设是过强假设，因而，基于马尔可夫族模型的语音模型更符合语音实际物理过程。

在马尔可夫族语音识别模型中

引入状态段长信息，能自动根据语速对语音单元段长进行调整。

非特定人连续语音实验结果表明，利用状态段长信息的改进语音识别模型比经典ＨＭＭ模型的性能明显提高。

关键词：

隐马尔可夫模型；马尔可夫族模型；段长；语音识别

中图分类号：

ＴＮ９１２．３４文献标识码：

Ａ文章编号：

１６７２—７２０７（２００８）０６—１３０３—０６

Ａｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｍｅｔｈｏｄｂａｓｅｄｏｎ

ｉｍｐｒｏｖｅｄｈｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌ

ＹＵＡＮＬｉ．ｃｈｉｌ，２

（１．ＳｃｈｏｏｌｏｆＩｎｆｏｒｍａｔｉｏｎ

２．ＳｃｈｏｏｌＳｃｉｅｎｃｅａｎｄＥｎｇｉｎｅｅｒｉｎｇ，ＣｅｎｔｒａｌＳｏｕｔｈＵｎｉｖｅｒｓｉｔｙ，Ｃｈａｎｇｓｈａ４１００８３，Ｃｈｉｎａ；ｏｆＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ，ＪｉａｎｇｘｉＵｎｉｖｅｒｓｉｔｙｏｆＦｉｎａｎｃｅ＆Ｅｃｏｎｏｍｉｃｓ，Ｎａｎｃｈａｎｇ３３００１３，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：

Ｉｎｏｒｄｅｒ

ｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｔｏｏｖｅｒｃｏｍｅｔｈｅｄｅｆｅｃｔｓｏｆｔｈｅｄｕｒａｔｉｏｎｍｏｄｅｌｉｎｇｏｆｈｏｍｏｇｅｎｅｏｕｓｈｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌ（ＨＭＭ）ｉｎａｎｄｔｈｅｕｎｒｅａｌｉｓｔｉｃａｓｓｕｍｐｔｉｏｎｔｈａｔｓｕｃｃｅｓｓｉｖｅｏｂｓｅｒｖａｔｉｏｎｓａｒｅｉｎｄｅｐｅｎｄｅｎｔａｎｄｉｄｅｎｔｉｃａｌｌｙ

ｏｎｄｉｓｔｒｉｂｕｔｉｏｎｗｉｔｈｉｎａｓｔａｔｅ，Ｍａｒｋｏｖｆａｍｉｌｙｍｏｄｅｌ（ＭＦＭ）ｗａｓｐｒｏｐｏｓｅｄ．Ｉｎｔｈｅｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｍｏｄｅｌｂａｓｅｄ

ａＨＭＭ，ｔｈｅｔｉｍｅ－ｓｅｑｕｅｎｃｅｓｔｒｕｃｔｕｒｅｏｆｓｐｅｅｃｈｓｉｇｎａｌｗａｓｃｏｎｓｉｄｅｒｅｄｔｏｂｅ

ｍｏｄｅｌｗａｓ

ｓｐｅｃｉａｌ

ｉｎｃａｓｅａｄｏｕｂｌｅｓｔｏｃｈａｓｔｉｃｐｒｏｃｅｓｓ，ｗｈｉｌｅＭａｒｋｏｖｆａｍｉｌｙｔｏｍｕｌｔｉｐｌｅｓｔｏｃｈａｓｔｉｃｐｒｏｃｅｓｓｗｈｉｃｈｃｏｎｓｉｓｔｓｏｆａｆｅｗＭａｒｋｏｖｃｈａｉｎｓ，ＳＯＨＭＭｃｏｕｌｄｂｅｃｏｎｓｉｄｅｒｅｄｗａｓｐｌａｃｅｄｂｙｃｏｎｄｉｔｉｏｎａｌｉｎｄｅｐｅｎｄｅｎｃｅｂｅａｏｆＭＦＭ．Ｍｏｒｅｏｖｅｒ，ｉｎｄｅｐｅｎｄｅｎｃｅａｓｓｕｍｐｔｉｏｎｉｎＨＭＭａｓｓｕｍｐｔｉｏｎＭＦＭ，ａｎｄｆｒｏｍｔｈｅｖｉｅｗｏｆｔｈｅｓｔａｔｉｓｔｉｃｓ，ｔｈｅａｓｓｕｍｐｔｉｏｎｏｆｉｎｄｅｐｅｎｄｅｎｃｅｉｓｓｔｒｏｎｇｅｒｔｈａｎｔｈａｔｏｆｃｏｎｄｉｔｉｏｎａｌ

ｓｐｅｅｃｈｉｎｄｅｐｅｎｄｅｎｃｅ，ＳＯｒｅｃｏｇｎｉｔｉｏｎｍｏｄｅｌ

ｔｏｂａｓｅｄｏｎＭＦＭｉｓｍｏｒｅｒｅａｌｉｓｔｉｃｔｈａｎＨＭＭｒｅｃｏｇｎｉｔｉｏｎｍｏｄｅ．ＭａｒｋｏｖｄｉｓｔｒｉｂｕｔｉｏｎｂａｓｅｄＦａｍｉｌｙｍｏｄｅｌｗａｓａｐｐｌｉｅｄｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ，ａｎｄｄｕｒａｔｉｏｎ

ｔｈｅＭＦＭｒｅｃｏｇｎｉｔｉｏｎｍｏｄｅｗｈｉｃｈｔａｋｅｓｄｕｒａｔｉｏｎｄｉｓｔｒｉｂｕｔｉｏｎｉｎｔｏａｃｃｏｕｎｔａｎｄｉｎｔｅｇｒａｔｅｓｆｒａｍｅａｎｄｓｅｇｍｅｎｔｂａｓｅｄａｃｏｕｓｔｉｃｍｏｄｅｌｉｎｇｔｅｃｈｎｉｑｕｅｓ，ｗａｓ

ｐｒｏｐｏｓｅｄ．Ｔｈｅｓｐｅａｋｅｒｉｎｄｅｐｅｎｄｅｎｔｃｏｎｔｉｎｕｏｕｓｓｐｅｅｃｈ

ｂｅｔｔｅｒｒｅｃｏｇｎｉｔｉｏｎｅｘｐｅｒｉｍｅｎｔｓｓｈｏｗｔｈａｔｔｈｉｓｎｅｗｒｅｃｏｇｎｉｔｉｏｎｍｏｄｅｌｈａｓｐｅｒｆｏｒｍａｎｃｅｔｈａｎｓｔａｎｄａｒｄＨＭＭｒｅｃｏｇｎｉｔｉｏｎｍｏｄｅｌｓ．

ｍｏｄｅｌ；ｄｕｒａｔｉｏｎ；ｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎＫｅｙｗｏｒｄｓ：

ｈｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌ；Ｍａｒｋｏｖｆａｍｉｌｙ

收稿日期：

２００８－０６－０５：

修回日期：

２００８－０７－２８

基金项目：

国家自然科学基金资助项目（６０６６３００７）：

中南大学博士后科学基金资助项Ｉ目（２００７）通信作者：

袁里驰（１９７３一），男，湖南邵阳人，博士后，副教授，从事信息检索与语音识别研究；电话：

０７９１—３０７６７６８；Ｅ－ｍａｉｌ：

ｙｕａｎ＿ｌｉｃｈｉ＠ｈｏｔｍａｉｌ．ｔｏｍ万方数据

１３０４

中南大学学报（自然科学版）

第３９卷

隐马尔可夫模型［１］（ｈｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌ，即ＨＭＭ）被认为是语音识别领域中最成功的统计模型之一。

ＨＭＭ对语音信号的时间序列结构建立统计模型，将之看作一个数学上的双重随机过程：

一个是用具有有限状态数的Ｍａｒｋｏｖ链来模拟语音信号统计特性变化的隐含随机过程，另一个是与Ｍａｒｋｏｖ链的每一个状态相关联的观测序列随机过程。

ＨＭＭ模型可分为离散隐马尔可夫模型…（采用离散概率密度函数，简称

ＤＨＭＭ）和连续隐马尔可夫模型¨（采用连续概率密度

函数，简称ＣＤＨＭＭ）以及半连续隐马尔可夫模型［１Ｉ（ＳＣＨＭＭ，集中了ＤＨＭＭ和ＣＤＨＭＭ的特点）。

近几十年来，有关语音识别的研究取得了许多进展，尤其是在出现了隐马尔可夫模型以后，大词汇量连续语音识别【２１取得了重大突破，但其识别性能仍有待提高，体现在：

首先，经典的ＨＭＭ是齐次的马尔可夫模型，其状态转移概率为常数，状态驻留长度服从指数分布［３】，这与语音的实际物理过程不符；其次，由于人在自然发音过程中发音器官的运动惯性，相邻帧的语音特征之间有很强的时间相关性。

而在现有ＨＭＭ应用中，为了处理方便，引入了一个重要的状态输出特征矢量独立分布的假设。

针对ＨＭＭ语音识别模型现有的一些缺陷，本文作者提出马尔可夫族模

型（Ｍａｒｋｏｖｆａｍｉｌｙｍｏｄｅｌ，即ＭＦＭ）。

马尔可夫族模型

（ＭＦＭ）是由多个马尔可夫连构成的多重随机过程，随机过程相互之间有一定的概率关系，该模型用条件独立性假设取代隐马尔可夫模型的独立性假设。

１隐马尔可夫模型与马尔可夫族模型

１．１隐马尔可夫模型

定义１（隐马尔可夫模型）

隐马尔可夫模型‘１１是

一个五元组（Ｓ，Ａ，ＫＢ，万）。

其中：

Ｓ＝｛Ｓ１’．一，ＳⅣ），是状态集；Ｖ＝｛Ｖ１，…，ｖＭ｝，是输出符号集合；

７１＂＝｛７／＂１，…，万｜ｖ），１≤ｆ≤Ⅳ，

（１）

是初始状态概率分布；Ａ＝（口ｉ，ｊ）Ⅳ。

Ⅳ，是状态转移概率分布矩阵；

ａｉ，，＝其墨＋１＝ｓｊ『墨＝Ｓｉ），

（２）

是从状态毋转移到状态ｓｊ的概率；Ｂ＝（６Ｊ，≈）Ⅳ。

Ｍ，

万方数据

是状态符号发射的概率分布矩阵：

ｂ１．女＝Ｐ（ｏ，＝‰ＩＸｆ＝Ｓｆ），１≤后≤Ｍ

１≤ｆ≤Ⅳ，

（３）

表示在状态Ｓ，时输出符号Ⅶ的概率。

从隐马尔可夫模型的定义可以看出，ＨＭＭ模型是一个数学上的双重随机过程；建立在以下３个基本假设的基础上：

马尔可夫性假设；不动性假设；输出独立性假设。

１．２马尔可夫族模型

定义２马尔可夫族模型（Ｍａｒｋｏｖｆａｍｉｌｙｍｏｄｅｌ）

令Ｘ＝｛ｘｔ，恐，…，如）表示ｍ维随机向量，其中分量

（１≤ｉ≤ｍ）构成马尔可夫族模型，若它们满足下列条件：

ａ．每一个分量Ⅸ（１≤ｆ≤ｍ）都是一个ｎ，阶马尔可夫链：

Ｐ（ｘｉ，ｒＩＸｉ，１，…，Ｘｉ，ｆ－１）＝Ｐ（ｘｉ，ｆｌＸｉ，，吨＋１，…，Ｘｉ’ｒ．１）。

（４）

ｂ．分量在时刻ｔ出现某一个状态的概率只与该分量在时刻ｔ以前状态和时刻ｔ其他分量的状态有关：

Ｐ（ｘｉ，ｆ

Ｘ１，１，…，Ｘ１’ｆ，…，Ｘｉ，１，…，Ｘｉ，ｔ－１，…，Ｘｍ，ｌ，…，ｘ州）＝

Ｐ（ｘｉ，，ＩＸｉ，ｆ一吩＋１，…，Ｘｉ，ｔ－Ｉ，Ｘ１，ｆ…，Ｘｉ一１，ｆ，Ｘｉ＋１，ｆ…，ｘⅢ，ｆ）。

（５）

ｃ．条件独立性假设：

Ｐ（ｘｉ，ｔ－ｎｉ＋ｌ，…，Ｘｉ，，＿１，Ｘ１，，…，Ｘｉ一１＇ｆ’Ｘｉ＋１，ｆ．一，ｘｍ，ｆ『Ｘｉ，ｆ）２Ｐ（ｘｆ，㈣，＋１，…，Ｘｉ’ｆ＿１ＸＩ，ｆ）・Ｐ（Ｘｌ，ｆ

Ｘｉ，ｆ）…Ｐ（ｘ州ｌＸｉ，ｆ）。

（６）

条件ａ表明马尔可夫族模型是多重随机过程，而隐马尔可夫模型可看作一个数学上的双重随机过程。

从这个意义说，隐马尔可夫模型可视为马尔可夫族模

型的特例：

条件ｂ明确了马尔可夫族模型的多重随机过程相互之间的关系，利用该特性能简化马尔可夫族模型的计算。

根据条件Ｃ，某分量在时刻ｔ的值已知的条件下，该变量在时刻ｆ以前的ｎ；－１个取值，与其他

分量在时刻ｔ取值是相互独立的，即马尔可夫族模型用条件独立性假设取代了隐马尔可夫模型中的独立性

假设。

从统计学的角度来说，相对条件独立性假设，独立性假设是过强假设，与语音、语言现象也不尽符

合。

因而，可以说，基于马尔可夫族模型的语音、语言模型比基于隐马尔可夫模型的语音、语言模型更符合语音、语言的实际物理过程。

Ⅸ（１≤ｆ≤ｍ）取值于有限状态集Ｓｉ（１≤ｆ≤所）。

分量Ⅸ

第６期

袁里驰：

基于改进的隐马尔科夫模型的语音识别方法１３０５

２基于段长分布的ＭＦＭ语音识别

模型

在连续语音中，不同说话者在不同语境下说话的速度差异是很大的。

偏离正常语速过大往往会造成识另Ｕ错误，过快的语速会使删除错误增加，过慢的语速会造成插入错误增加，从而使识别性能下降。

目前，人们对这个问题的研究主要是先按照某种方法得到识别语料的语速度量，然后，根据语速的快慢更新转移概率，将慢速情况下的状态自转移概率增大，离开转移概率变小，快速时则反之，从而调整每个语音单元的持续时间以适应语速【引。

基于段长的语音识别模型‘３，５＿８】，直接从段长出发，说话速度的变化直接反映为段长的变化，同时，语速变化对段长的影响是同步增长或同步下降的，即在慢速情况下，前一个语音单元长于平均段长，后一个语音单元也会以相同的趋势长于其平均段长，而在快速下情况正好相反。

并且在一个较短的时间段内，１个说话者的说话速度会比较稳定，即一个短时间段内这种语速对段长的影响可以认为是基本一致的。

这样，就可以用前一个语音单元段长对其均值的偏差来预测后一个语音单元段长的变化趋势［９－１３】。

语音识别统计模型通常以音子【ｌ】为最基本的识别单位［１４】。

假设音子模型允许出现的状态有￡种，记为ｓｔ（１＝ｌ，…，三），在时刻玎０≥１）所处的状态用如表示，ｈ表示状态％的观察特征，系统在状态％连续驻留的时问长度（简称为段长）用靠表示。

记有关概率为：

ａｌ＝口ｍ＝Ｐ（ｘ”２ｓｔ），１＝１，…，￡；

ＣＩｉ，，２口岛，％３Ｐ（ｘｎ＋１

２

ｓｊ

Ｉｚ＂＝ｓｆ），ｆ，ｊ＝ｌ，…，￡；

ｂｌ（ｙ。

）＝ｂ。

（ｙ。

）＝Ｐ（ｙ。

ｌｘ。

＝ｓ１），ｌ＝１，…，Ｌ。

假设识别系统的词汇表容量为以其中每一个词条表示为Ｗｖ，ｖ＝ｌ～Ｖ，设每一词条Ｗ。

中包含￡。

个状态，记为ｓ，，，＿１—正。

。

现假定一个完整的句子所相应的特征序列，即观察序列为Ｏｂ｛Ｄ。

，０ｚ，…，０ｒ｝，待识别句

子的词序列为肛｛ｗ１，Ｗ２，…，ＷＮ｝，词序列中的第ｉ

（１≤《Ⅳ）个词Ｗｉ对应的第ｊ（１≤≯≤功个状态记为Ｓ：

，

系统在状态Ｓ：

连续驻留的时间长度（段长）记为ｒ，，，则系统所经历的状态序列为：

万方数据

Ｓ＝∞…，乳，，…，ｓ≯・，ｓ≯。

———ｒ——。

ｋ—二—、，—ｊ

・，ｓ墨，…，ｓ“Ｎ）。

、－－－－－－－－－—√—－－－－－－一

ｒｌ，１个

『ｌ‘个

学

。

Ｎ，ＬＮ令

语音识别的任务就是由观察序列Ｄ＝｛Ｄ。

，０ｚ，…，ＯＴ｝来求最佳的状态序列Ｓ，进而求得最佳的词序列

肛｛ｗｌ，Ｗ２，…，ＷＮ），即搜索最可能的词序列：

ａｒｇ∥ｍａｘＰ（ｓ，∥Ｉ

∥

Ｏ）＝ａｒｇＷｍａｘ！

兰兰铲ｔ＝

ｆ／Ｌ

）

ａｒｇｍａｘＰ（ＯＩ∥）・Ｐ（∥）。

（７）

其中：

尸（彬）＝兀ｐ（ｗｆ

Ｗｉ－Ｋ＋Ｉ，ｗｆ—Ｋ＋２，…，Ｗｆ＿１），Ｋ≥２。

当Ｋ为２，３时，分别称为双词文法、三词文法。

设厂表示对应于词序列矽的可能状态序列Ｓ的集合，则有Ｐ（Ｏ

Ｉ∥）＝∑Ｐ（Ｏ，ＳＩ∥）＝∑Ｐ（Ｏ

ｓ，形）・Ｐ（Ｓｌ矽）。

（８）

设

正＝１，正＝∑∑ｆ州＋１，２≤ｆ≤Ⅳ，

ｕ＝ｌｖ＝ｌ

／－１

乃，ｌ＝Ｉ，Ｉ√＝乃＋∑ｒ咖，２勺≤￡ｆ，

表示段的分割点，并假定Ｄ＝｛０１，０２，…，０ｒ）是一个Ｍ阶马尔可夫链，则有

ＰＤＳ陟

≈

ＰⅣ兀瑚岛兀卢盯兀料

ｐ

巧

岫

Ｉ“ＩＴｉ，ｊ＋＋＾ｋ一－ＭＩ＋ｌ，ＪＪｉ，Ｗｉ）≈

Ⅳ兀汹岛兀芦妒兀料

Ⅸ听

七

。

五Ｔ‘，ｊ＋女ｋ一－ＭＩ＋１’ｓｊ）。

而式（８）中概翠Ｐ（ＳＪ叨的计算如Ｆ：

Ｐ（Ｓ

ｌ∥）＝Ｐ（ｓ｝，…，Ｓ㈠Ｗ１）．

、。

。

’’、，。

。

一

‰个

户２了—芦

ｎＰ（ｓ≯・，Ｊ；｜ｓ一１，…，ｓ一１，ｗ１）・

１－ＩｔＰ＜？

ｉ，…，ｓｉ

ｉ＝２■：

鬲＿—■～琢一

ｓ斗ｉ－Ｉ。

，…，ｓ斗ｉ－１。

，Ｗｉ－１，ｗｉ）・

‘１，１。

ｒｌ一１，￡Ｐ１１、

户２了—ｉ彳＿

兀Ｐ（ｓ≯・，Ｊ；ＩＪ川ｉ，…，ｓ／ｉ＿１’Ｗｆ）］。

（１０）

１３０６中南大学学报（自然科学版）

第３９卷

其中：

Ｐ（ｓ；，…，ｓ；Ｉ、－－－—－ｖ—－－—√、—－—————ｖ—————Ｊ

Ｓ—Ｉ．，…，ｓ工１，Ｗｉ）＝ｔｔ？

冷

ｒｆ，１－１＋

Ｐ（ｘ”＋１＝ｓ；，ｆＨ＋１＝Ｆｉ，』ｌｈ＝Ｊ；一１，“＝ｆｆ，，一１，ｗｉ）≈Ｐ（ｒ肘Ｉ＝ｆ“ＩＸｎ＋ｌ＝ｓ；，ｚＨ＝ｊ；一１，ｆＨ＝７ｉ，，一１，ｗＪ）・

Ｐ（ｘ。

＋１＝ｓ；Ｉｘ。

＝ｓ；一ｌ，ｗｉ）。

（１１）

条件概率Ｐ（ｘ¨＝ｓ；ｌ＿］ｃ。

＝３，ｉ＿ｌ，ｗｆ）可取近似值

Ｐ（ｘ州２Ｊ，ｉ

ｘ。

２

ｓ，ｉ一１）＝ａｓ‰《，由马尔可夫族模型的

条件独立性假设，有Ｐ（ｆ。

＋ｌ：

ｆｆ，，Ｉｘ。

＋ｌ：

Ｊ；，ｘ。

：

ｓ；一ｌ，ｒ。

：

『ｆ，卜ｌ，ｗｊ）：

Ｐ（ｒ月＋１＝７ｉ，，Ｉ

Ｘｎ＋ｌ＝ｓｊ，ｆｎ＝ｆｊ，／一Ｉ，ｗｉ）＝

Ｐ（ｘ月＋１＝Ｊ；，ｒＨ＝ｆｆ，』一１ｌ＇ｎ＋１＝ｆｆ，，，ｗｉ）Ｐ（ｒｎ＋１＝ｆｆ，Ｊ

ｗｉ）

Ｐ（ｘ州＝ｓｊ，Ｚ＂ｎ＝Ｆｉ，／一１ＩⅥ）

璺垒！

！

三生！

垒：

！

三量：

』：

兰！

璺垒三垒：

』：

！

垒！

！

三量：

ｚ：

兰！

璺鱼！

！

三曼』！

兰！

。

Ｐ（ｈ＋ｌ＝０ｉ，＂Ｃｎ＝Ｆｉ，』一ｌ

ｗｊ）

（１２）

由贝叶斯定理，有

Ｐ（ｘ¨１＝ｓｊ

７ｎ＋ｌ＝Ｆｉ，ｊ，ｗｉ）＝

Ｐ（ｒ。

＋１＝ｆｆ，，Ｉ

Ｘｎ＋ｌ＝ｓ；，ｗｉ）・Ｐ（ｘ。

＋１＝ｓ；Ｉ

Ｐ（ｒ肿１＝Ｆｉ，ＪＩＷｉ）

坠丑鼍Ｐ（ｒ等１篙Ｗ掣刈４，

Ｐ（ｒＨ＝Ｆｉ，，一１

ｌ＇ｎ＋１＝ｆｆ，Ｊ，ｗｆ）＝

、。

肿＝ｑ，，ｌｆ）

将式（１３）和（１４）代入式（１２）可得：

Ｐ（ｒｎ＋１＝Ｙｉ，，ｆ

Ｘｎ＋１＝Ｊ；，ｚＩｎ＝ｌ＂ｉ，Ｊ一１，ｗｉ）≈

竺！

！

：

！

三：

！

：

！

兰！

：

！

三！

ｉ：

！

：

竺！

！

：

！

三：

！

：

！

三！

！

：

！

：

！

：

兰！

。

Ｐ（ｒＨ＋Ｉ＝７ｆ，Ｊｆｗ／）

０５）

式（１０）中的其他参数也可通过类似的计算得到。

条件概率

万方数据

Ｐ（ｒ”＋１＝＂Ｃｉ，／ＩｆＨ＝ｆｊ，，一１，Ｗｉ）

的计算利用了相邻２个语音单元间的段长相关信息，称这样实现的系统为段长二元概率系统。

当然，也可

利用相邻ｒ个语音单元间的段长相关信息，则相应的系统称为段长ｒ元概率系统。

由于数据稀疏，Ｐ（ｒ。

＋ｌ＝ｆｆ，，Ｉｒ。

＝ｆｆ，，一ｌ，Ｗｆ）可取近似值Ｐ（ｆ川＝ｆｆ，，ｌｆｎ＝ｆｊ，，一１）或用平滑方法得到：

Ｐ（ｒｎ＋１＝ｑ，Ｊｌｆ＂＝ｒｆ，Ｊ一１，ｗｆ）≈（１一五ｗｊ）

Ｐ（ｒ肿１

２

ｌ＂ｉ，，Ｉ

ｒ＂２

ｑ，卜１ｆ）＋

２ｗ，Ｐ（ｒ．＋ｌ

２

ｆｆ√［Ｔｎ－－－－－Ｔｉ，ｊ＿Ｉ，Ｗｉ）ｏ

（１６）

其中：

兄。

为平滑参数，０＜Ａ。

＜１；ｆｆ．ｆ为状态段长，

但也可以是描写半音节（声母和韵母）或音节的段长。

因此，这里提供的模型和算法具有很大的灵活性。

在经典的ＨＭＭ语音识别模型中，状态ｆ的驻留概率ａ；ｉ为常数，系统进入状态ｉ后在该状态连续驻留的时间ｆ即段长服从几何分布【ｌ】：

Ｐ（ｆ）＝口ｆＦ。

ｆ－１（１－ａｊ，ｊ），ｆ≥１。

（１７）

实验统计结果表明，经典ＨＭＭ模型这种段长的

几何分布形式不能很好地描述语音的段长特征。

为此，许多研究者对模型进行改进，将状态段长概率直接引入统计模型中。

常用的段长分布形式有Ｇａｍｍａ分布、高斯分布、泊松分布和均匀分布等。

３实验结果

为了验证本文提出的语音识别方法，对连续语音进行试验。

大词汇量连续语音试验所采用的语音数据

是“８６３”计划提供的男女声各８３人的连续语音录音数据。

每个说话人对应一个５２０句话到６５０句话不等

的文件，其中９个文件用于识别（慢速，适中语速，快速３类各３个文件），另外７４个文件用于训练。

采用的特征［１５－１７１是１４维ＭＦＣＣ特征及其一阶差分和二阶

差分，归一化能量及其一阶差分和二阶差分，共４５维特征，结果见表１。

第６期

袁里驰：

基于改进的隐马尔科夫模型的语音识别方法１３０７

表１

非特定人连续语音识别的实验结果

Ｔａｂｌｅ１

Ｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｏｆｓｐｅａｋｅｒ－ｉｎｄｅｐｅｎｄｅｎｔ

ｃｏｎｔｉｎｕｏｕｓｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ

模型

替釜黔插全黔删肇黔总繁率

表１中的ＨＭＭ语音识别实验基于连续的隐Ｍａｒｋｏｖ模型，利用英国剑桥大学提供的ＨＴＫ（ＨＭＭ

Ｔｏｏｌ

Ｋｉｔ）工具包中编码、训练、识别等相关工具。

从

表１可以看出：

替代错误率从２２．８３％下降到２０．２２％，

插入错误率从３．３５％下降到２．１４％，删除错误率从０．７８％下降到０．５７％，总错误率从２６．９６％下降到２２．９３％，相对下降近１５％。

对大词汇量连续语音的试验结果表明：

基于段长分布的马尔可夫族语音识别模型（ＤＤＢＭＦＭ）克服了传统ＨＭＭ不合理的独立性假设，对识别性能有明显的改善。

该模型同时对偏离正常语速的语料进行识别时，能自动根据语速对语音单元段长进行调整，从而降低由语速带来的插入错误和删除错误，获得了更精确的分割点，并因此减少了替

代错误，从而提高了系统的性能。

４结论

ａ．在隐马尔可夫模型的基础上，提出了一种新的统计模型即马尔可夫族模型。

马尔可夫族模型是多重随机过程，而隐马尔可夫模型可看作一个数学上的双重随机过程，因而隐马尔可夫模型可视为马尔可夫族模型的特例。

马尔可夫族模型用条件独立性假设取代隐马尔可夫模型中的独立性假设，从统计学的角度来说，相对条件独立性假设，独立性假设是过强假设，与语音、语言现象也不尽符合。

因而，基于马尔可夫族模型的语音、语言模型比基于隐马尔可夫模型的语音、语言模型更符合语音、语言的实际物理过程。

ｂ．将马尔可夫族模型应用于语音识别，同时在语音识别模型中直接引入状态段长信息。

基于段长的语音识别模型直接从段长出发，说话速度的变化直接反

万方数据

映为段长的变化，能自动根据语速进行语音单元段长的调整。

结果表明，利用状态段长信息的ＭＦＭ语音识别模型比经典ＨＭＭ模型的性能明显提高。

Ｃ．马尔可夫族模型是一种新的统计模型，有关马尔可夫族模型的理论及其在语音识别和自然语言处理等领域中的应用有待进一步研究。

参考文献：

［１］ＲａｂｉｎｅｒＬ，ＪｕａｎｇＢＨ．Ｆｕｎｄａｍｅｎｔａｌｓ

ｏｆ

ｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ［Ｍ］．

Ｎｅｗ

Ｊｅｒｓｅｙ：

ＰｒｅｎｔｉｃｅＨａｌｌ，１９９３．

［２］ＣｈａｎｇＥ，ＺＨＯＵＪｉａｎ－ｌａｉ，ＳＨＯＵＤｉ，ｅｔａ１．Ｌａｒｇｅｖｏｃａｂｕｌａｒｙｍａｎｄａｒｉｎ

ｓｐｅｅｃｈ

ｒｅｃｏｇｎｉｔｉｏｎ

ｗｉｔｈ

ｄｉｆｆｅｒｅｎｔａｐｐｒｏａｃｈｅｓ

ｉｎ

ｍｏｄｅｌｉｎｇ

ｔｏｎｅｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ

ｏｆ

ｔｈｅ

６ｔｈ

Ｉｎｔｅｒｎａｔｉｏｎａｌ

Ｃｏｎｆｅｒｅｎｃｅ

ｏｎ

ＳｐｏｋｅｎＬａｎｇｕａｇｅ

Ｐｒｏｃｅｓｓｉｎｇ（ＩＣＳＬＰ２０００）．Ｓａｎ

Ｊｏｓｅ：

ＩＥＥＥＰｒｅｓｓ，２０００：

９８３—９８６．［３】

Ｍｉｔｃｈｅｌｌ

ＣＤ，ＪａｍｉｅｓｏｎＬＨ．Ｍｏｄｅｌｉｎｇｄｕｒａｔｉｏｎｉｎ

ａ

ｈｉｄｄｅｎ

Ｍａｒｋｏｖｍｏｄｅｌｗｉｔｈｔｈｅｅｘｐｏｎｅｎｔｉａｌｆａｍｉｌｙ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ

ｔｈｅＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌ

ｃｏｎｆｅｒｅｎｃｅ

ｏｎ

Ａｃｏｕｓｔｉｃ，Ｓｐｅｅｃｈ，Ｓｉｇｎａｌ

Ｐｒｏｃｅｓｓ（ＩＣＡＳＳＰ

１９９３）．

Ｓａｎ

Ｊｏｓｅ：

ＩＥＥＥ

Ｐｒｅｓｓ，１９９３

３３１－３３４．

【４】ＳｈｉｎｏｄａＫ，ＬｅｅＣ．Ａ

ｓｔｒｕｃｔｕｒａｌ

Ｂａｙｅｓａｐｐｒｏａｃｈ

ｔｏ

ｓｐｅａｋｅｒ

ａｄａｐｔａｔｉｏｎ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｏｎＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃｅｓｓｉｎｇ，２００１，９（３）：

２７６—２８７．

［５］Ｖａｓｅｈｇｉ

Ｓ

ＶＳｔａｔｅ

ｄｕｒａｔｉｏｎ

ｍｏｄｅｌｉｎｇ

ｉｎ

ｈｉｄｄｅｎ

Ｍａｒｋｏｖ

ｍｏｄｅｌｓ［Ｊ］．ＪｏｕｒｎａｌｏｆＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，１９９５，４１（１）：

３１－４１．［６］ＬａｉＷＨ，ＣｈｅｎＳＨ．Ａｎａｌｙｓｉｓｏｆｓｙｌｌａｂｉｃｄｕｒａｔｉｏｎｍｏｄｅｌｓｆｏｒ

ｍａｎｄａｒｉｎ

ｓｐｅｅｃｈ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥ

Ｉｎｔｅｒｎａｔｉｏｎａｌ

ｃｏｎｆｅｒｅｎｃｅ

ｏｎ

Ａｃｏｕｓｔｉｃ，Ｓｐｅｅｃｈ，Ｓｉｇｎａｌ

Ｐｒｏｃｅｓｓ（ＩＣＡＳＳＰ２００２）．

ＳａｎＪｏｓｅ：

ＩＥＥＥＰｒｅｓｓ，２００２：

４９７—５００．

［７］

ＷＡＮＧＺｕｏ—ｙｉｎｇ，ＸＩＡＯＸｉ．ＤｕｒａｔｉｏｎｄｉｓｔｒｉｂｕｔｉｏｎｂａｓｅｄＨＭＭ

ｓｐｅｅｃｈ

ｒｅｃｏｇｎｉｔｉｏｎ

ｍｏｄｅｌｓ［Ｊ］．ＣｈｉｎｅｓｅＪｏｕｒｎａｌｏｆＥｌｅｃｔｒｏｎｉｃｓ，

２００４，３２（１）：

４６－４９．【８】Ｈｏｎ

Ｈ

ｗ＇ＷａｎｇＫＳ．Ｕｎｉｆｉｅｄｆｒａｍｅａｎｄｓｅｇｍｅｎｔｂａｓｅｄｍｏｄｅｌｓ

ｆｏｒａｕｔｏｍａｔｉｃｓｐｅｅｃｈ

ｒｅｅｏｇｎｉｔｉｏｎ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥ

Ｉｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅ

ｏｎ

Ａｃｏｕｓｔｉｃ，Ｓｐｅｅｃｈ，Ｓｉｇｎａｌ

Ｐｒｏｃｅｓｓ

（ＩＣＡＳＳＰ２０００）．ＳａｎＪｏｓｅ：

ＩＥＥＥＰｒｅｓｓ，２０００：

１０１７－１０２０．

【９］

ＧＯＮＧ

Ｙｉ－ｆａｎ．Ｓｔｏｃｈａｓｔｉｃｔｒａｊｅｃｔｏｒｙｍｏｄｅｌｉｎｇａｎｄ

ｓｅｎｔｅｎｃｅ

ｓｅａｒｃｈｉｎｇｆｏｒ

ｃｏｎｔｉｎｕｏｕｓｓｐｅｅｃｈ

ｒｅｃｏｇｎｉｔｉｏｎ明．

ＩＥＥＥ

Ｔｒａｎｓａｃｔｉｏｎｓ

ｏｎ

ＳｐｅｅｃｈＡｕｄｉｏ

展开阅读全文