基于MFCC和GMM的异常声音识别算法研究精Word文档下载推荐.docx

资源描述

基于MFCC和GMM的异常声音识别算法研究精Word文档下载推荐.docx

《基于MFCC和GMM的异常声音识别算法研究精Word文档下载推荐.docx》由会员分享，可在线阅读，更多相关《基于MFCC和GMM的异常声音识别算法研究精Word文档下载推荐.docx（79页珍藏版）》请在冰点文库上搜索。

基于MFCC和GMM的异常声音识别算法研究精Word文档下载推荐.docx

关键词：

异常声音识别；

梅尔倒谱系数；

短时能量；

高斯混合模型；

识别率

西南交通大学硕士研究生论文

第１Ｉ页

Ａｂｓｔｒａｃｔ

Ａｓ

ｏｎｅ

ｏｆｔｈｅａｕｄｉｏｓｕｒｖｅｉｌｌａｎｃｅｓｙｓｔｅｍ，ａｂｎｏｒｍａｌａｕｄｉｏｒｅｃｏｇｎｉｔｉｏｎｉｓｔｈｅ

ｐｒｏｃｅｓｓｏｆ

ｏｎ

ａｕｔｏｍａｔｉｃａｌｌｙｒｅｃｏｇｎｉｚｉｎｇｗｈｉｃｈｉＳｂａｓｅｄｔｈｅｆｅａｔｕｒｅｓｉｎｃｌｕｄｅｄｉｎ

ａｂｎｏｒｍａｌ

ｓｏｕｎｄ

ｗａｖｅｆｏｒｍ．Ｂｅｃａｕｓｅｏｆｉｔｓｐａｒｔｉｃｕｌａｒｌｙａｄｖａｎｔａｇｅ

ｈｉ曲ｅｆｆｉｃｉｅｎｃｙ，ｅｃｏｎｏｍｙ，ｓｍａｌｌ

ｃｏｍｐｌｅｘｉｔｙａｎｄｐｒｏｔｅｃｔｉｏｎｏｆｐｅｏｐｌｅ’Ｓｐｒｉｖａｃｙ，ｔｈｉｓｔｅｃｈｎｉｑｕｅＣａｎｂｅｃｏｍｂｉｎｅｄｗｉｔｈｖｉｄｅｏ

ｓｕｒｖｅｉｌｌａｎｃｅｓｙｓｔｅｍ．Ｔｈｅｒｅｆｏｒｅ，ｔｈｅ

ｉｓｗｏｒｔｈ

ａ

ａｕｄｉｏ

ｓｕｒｖｅｉｌｌａｎｃｅ

ｔｅｃｈｎｏｌｏｇｙｉｓｖｅｒｙｐｒｏｍｉｓｉｎｇ，ａｎｄｉｔ

ｌｏｔｏｆｓｃｉｅｎｔｉｆｉｃｒｅｓｅａｒｃｈｅｒｓｔｏｅｎｇａｇｅｉｎｔｈｅｉｒｓｔｕｄｉｅｓ．

Ｔｏｏｖｅｒｃｏｍｅｔｈｅ

ｐｒｏｂｌｅｍ

ｏｆｌｏｗｒａｔｅｒａｔｅ

ａｎｄｈｉ．曲ｃｏｍｐｌｅｘｉｔｙｂａｓｅｄ

ｉｎａｂｎｏｒｍａｌａｕｄｉｏ

ｒｅｃｏｇｎｉｔｉｏｎ，ｔｈｅ

ｒｅｃｏｇｎｉｔｉｏｎ

ｉｓ

ｓｙｓｔｅｍ

ｔｈｅＭｅｌｆｒｅｑｕｅｎｃｙｃｅｐｓｔｎｍａ

ｖｅｃｔｏｒ

ｃｏｅｆｆｉｃｉｅｎｔｓａｎｄｓｈｏｒｔ・ｔｅｍｌｅｎｅｒｇｙ

ｐｒｏｐｏｓｅｄ．Ｔｈｉｓｆｅａｔｕｒｅ

ｍａｋｅｓｔｈｅＧａｕｓｓｉａｎ

ｍｉｘｔｕｒｅｍｏｄｅｌｃｌａｓｓｉｆｉｅｒａｖａｉｌａｂｌｅｔｈａｎｔｈｅｕｓｅｏｆＭＦＣＣａｎｄＤｉｆｆｅｒｅｎｔｉａｌＭＦＣＣｆｅａｔｕｒｅｓ

ｆｏｒｂｅｔｔｅｒｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｍｏｒｅ

ｐｅｒｆｏｒｍａｎｃｅ．Ｔｈｅ

ｔｈｅｓｍａｌｌ

ｐｒｏｖｅｄｔｈｅ

ｃｌａｓｓｉｆｉｅｒ

Ｃａｌｌ

ａｃｈｉｅｖｅ

ａｎａｖｅｒａｇｅｒｅｃｏｇｎｉｔｉｏｎｓｈｏｗｅｄ

ｒａｔｅ

ｔｈａｎ９０％，ａｎｄ

ｃｏｍｐｕｔａｔｉｏｎａｌｃｏｍｐｌｅｘｉｔｙ．Ｉｔ

ｅｆｆｅｃｔｉｖｅｎｅｓｓ

ｔｈｅｅｌａｂｏｒａｔｅｓｔｅｐｓ

ｏｆｓｙｓｔｅｍｉｍｐｌｅｍｅｎｔｉｏｎ，ａｎｄｏｆｔｈｅａｌｇｏｒｉｔｈｍｗｉｔｈｒｅｓｕｌｔｓｆｒｏｍ

ｓｉｍｕｌａｔｉｏｎｅｖｉｒｏｎｍｅｎｔ．

Ｉｎｔｈｅａｓｐｅｃｔｏｆ

ｐｅｒｆｏｒｍａｎｃｅｒｅｓｅａｒｃｈ，Ｔｈｅ

ａｕｔｈｏｒ

ａｎａｌｙｚｅｓｔｈｅｒｅｃｏｇｎｉｔｉｏｎ

ｔｏｔｈｅｆｅａｔｕｒｅｓ

ｒａｔｅｏｆ

ｄｉｆｆｅｒｅｎｔｆｅａｔｕｒｅｓ，ｉｎｗｈｉｃｈｔｈｅｒｅｃｏｇｎｉｔｉｏｎａｕｔｈｏｒａｌｓｏ

ｃｈｏｉｃｅｏｆｔｈｅＥＭ

ｔｅｓｔｓ

ｒｅｌａｔｅｄ

ａｎａｌｙｚｅｓ

ｔｈｅｐｅｒｆｏｒｍａｎｃｅｏｆｄｉｆｆｅｒｅｎｔｎｕｍｂｅｒｓｏｆＧａｕｓｓｉａｎｍｉｘｔｕｒｅｓ，ｉｎｗｈｉｃｈｔｈｅｎｕｍｂｅｒｓｒｅｌａｔｅｄ

ｔｏ

ｍｉｘｔｕｒｅ

ｔｈｅｔｒａｉｎｉｎｇｄａｔａ

ａｒｅ

ｃｏｎｃｌｕｄｅｄ．Ｔｈｅａｕｔｈｏｒ

ａｎｄＭＤＬａｌｇｏｒｉｔｈｍｉｎ

ｗｈｉｃｈｔｈｅ

ＭＤＬａｌｇｏｒｉｔｈｍ

ｈａｓｂｅｔｔｅｒ

ｕｓｅ

ｏｆｓｐａｃｅ．

ｏｆｆｕｌｌ

Ｉｎａｓｐｅｃｔｏｆｓｙｓｔｅｍ

ｃｏｎｓｔｒｕｃｔｉｏｎ，ｔｈｉｓａｕｔｈｏｒｄｅｓｃｒｉｂｅｓｔｈｅ

ｉｍｐｌｅｍｅｎｔａｔｉｏｎ

ａｂｎｏｒｍａｌａｕｄｉｏｒｅｃｏｇｎｉｔｉｏｎｓｙｓｔｅｍｂｙＭＡＴＬＡＢ，ｉｎｃｌｕｄｉｎｇａｕｄｉｏｓｉｇｎａｌｐｒｅｐｒｏｃｅｓｓｉｎｇ，

ｆｅａｔｕｒｅｅｘｔｒａｃｔｉｎｇｏｒｉｇｉｎａｌａｕｄｉｏｉｓ

ａｎｄｃｌａｓｓｉｆｉｅｒ

ｔｒａｉｎｉｎｇ

ａｎｄ

ｒｅｃｏｇｎｉｔｉｏｎ．Ｉｎｔｈｅｐｒｅｐｒｏｃｅｓｓｉｎｇｍｏｄｕｌｅ，ｔｈｅ

ｎｏｒｍａｌｉｚｅｄ，ｐｒｅ—ｅｍｐｈａｓｉｓ，ｏｖｅｒｌａｐｐｉｎｇ

ａｓ

ｄｉｖｉｄｅ；

Ｉｎｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎ

ｍｏｄｕｌｅ，Ｉｔ

ｕｓｅｓ

ＭＦＣＣ，ＺＣＲ，Ｅｎｅｒｇｙ，ＬＦＣＣｆｅａｔｕｒｅｐａｒａｍｅｔｅｒｓ．Ｉｎｔｈｅｍｏｄｅｌｔｒａｉｎｉｎｇ

ａｎｄｒｅｃｏｇｎｉｔｉｏｎｍｏｄｕｌｅ，ａｕｔｈｏｒｃｏｍｐａｒｉｓｏｎｗｉｔｈ

ｏｔｈｅｒ

ｔｈｅＧａｕｓｓｉａｎｍｉｘｔｕｒｅｍｏｄｅｌａｓ

ｉｄｅｎｔｉｆｙａｂｎｏｒｍａｌａｕｄｉｏ

ｃｌａｓｓｉｆｉｅｒ，ｗｈｉｃｈｉｎ

ｃｌａｓｓｉｆｉｅｒｓ，Ｃａｎｂｅｔｔｅｒ

ｄｉｆｆｅｒｅｎｃｅ．Ｔｈｅ

ｓｙｓｔｅｍｃｌａｓｓｉｆｙａｎｄｄｉｓｃｒｉｍｉｎａｔｅｅｉ曲ｔａｂｎｏｒｍａｌａｕｄｉｏ．Ｔｈｅ

ｉｓｏｎｅｏｆｔｈｅｂｅｓｔｓｙｓｔｅｍｂｅｃａｕｓｅｏｆｉｔｓ

ｈｉ曲ｒｅｃｏｇｎｉｔｉｏｎｒａｔｅａｎｄｇｏｏｄｐｅｒｆｏｒｍａｎｃｅ，

ａｕｄｉｏｒｅｃｏｇｎｉｔｉｏｎａｎｄ

ｓｉｍｐｌｅｎｅｓｓ

ｋｅｙ

ｈｉ曲ｅｆｆｉｃｉｅｎｃｙ，ｐｒｉｖａｃｙ．

ｍｉｘｔｕｒｅｍｏｄｅｌ；

Ａｃｃｕｒａｃｙ

ｗｏｒｄｓ：

Ａｂｎｏｒｍａｌａｕｄｉｏｒｅｃｏｇｎｉｔｉｏｎ；

ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔｓ；

ｓｈｏｒｔ—ｔｅｒｍ

ｅｎｅｒｇｙ；

Ｇａｕｓｓｉａｎ

西南交通大学曲南父逋大罕

学位论文版权使用授权书

本学位论文作者完全了解学校有关保留、使用学位论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。

本人授权西南交通大学可以将本论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复印手段保存和汇编本学位论文。

本学位论文属于

Ⅺ，保密口，在莎保密口，使用本授权书。

（请在以上方框内打“寸’）年解密后适用本授权书；

学位论文作者签名：

日期：

训ｒｐ．６、牛指导老师签名：

ｚ旁往日期：

杪，７．／・７

西南交通大学硕士学位论文主要工作（贡献）声明

本人在学位论文中所做的主要工作或贡献如下：

（１）针对音频信号的短时平稳性，对音频信号进行预处理，以此来提高特征提取及识别算法的准确度。

（２）对预处理以后的音频文件进行合理的分帧，依次分析音频信号的时域和频域特征参数，并给出每个特征的计算方法，最终得到单特征和多特征的矢量空间。

（３）深刻理解高斯混合模型，将提取到的特征参数应用于高斯混合模型中，并给出了两种训练算法的计算过程，最后用实验得到了平均识别率和系统复杂度这两个评价指标。

本人郑重声明：

所呈交的学位论文，是在导师指导下独立进行研究工作所得的成果。

除文中已经注明引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。

对本文的研究做出贡献的个人和集体，均己在文中作了明确说明。

本人完全了解违反上述声明所引起的一切法律责任将由本人承担。

ｇ荡云

≯ｏｚ汐．６．４

西南交通大学硕士研究生学位论文第１页

第１章绪论

随着社会的不断发展，传统的视频监控系统已经不能满足社会的需要，基于音频的监控技术为我们提供了一个更方便，更容易被人们接受的方法。

其中异常声音识别技术是音频监控系统中的一个重要分支。

本章系统的描述了异常声音识别系统的组成和评价标准以及国内外的研究动态。

本章在总结了异常声音识别技术的主要发展现状及所存在的一些问题后，针对这些问题，简要的阐述了本论文的主要工作。

１．１课题的研究背景和意义

随着全球化，网络化，数字化，信息化时代的到来，计算机已经成为人们生活中不可缺少的一部分。

国内外监控系统在技术水平和实际应用等方面都取得了长足的进步，在社会众多领域得到了广泛的应用。

监控系统是安防系统中应用最多的系统之一，监控系统一般是由前端设备和后端软件系统组成。

长期以来，监控系统主要用于对重要区域或远程地点的监视和控制，监控技术在电力系统、电信机房、工厂、城市交通、水利系统、小区治安等领域也得到了越来越广泛的应用。

监控系统将监控点实时采集到的信息实时地传输给监控中心，便于监控中心进行监控，对突发事件及时指挥处置。

在过去的二十几年研究人员主要是研究视频监控系统，使得视频监控系统从最早模拟监控到前些年数字监控再到现在方兴未艾网络视频监控，发生了翻天覆地变化【ｌ】。

由于音频信号是一维信号，存储量相对较小，计算效率较高，弥补了视频监控系统高成本，高复杂度的缺点。

因此，近年来，一些研究人员已提出用音频分析进行监视的应用【２】。

相对于视频监控系统，基于声音识别技术的音频监控具有以下优点：

．

（１）音频监控系统比视频监控系统计算效率高，复杂度小。

（２）音频监控系统可以和视频监控系统进行协作，使得监控系统更加完备。

例如音频监控可以辅助移动机器人监视和监测摄像头看不见的环境【３】。

（３）音频监控系统能比视频监控更大程度的保护人们的隐私。

因为使用音频监控系统麦克风代替了摄像头作为监控设备，更好的保护了病人和老人的隐私权，更容易被人们接受。

（４）音频监控系统的采集设备简单易行，而且成本远低于视频监控的采集设备。

因此，音频监控技术是具有广泛应用前景，值得深入研究的音频监控技术。

其中异常声音识别技术是音频监控系统中一个重要的分支，很多场合对异常声音识别技术得到了广泛的应用。

在异常声音识别系统中，采集到的声音既包含被监控环境中存在的正常事件产生

曼曼皇皇＝．－…Ｉ！

ｉｉ————ｉ！

曼曼曼！

曼曼曼曼西南交通大学硕士研究生学位论文第２页

的声音，我们将其定义为正常声音，也包含被监测环境中，由一些异常事件，比如尖叫、枪声等声音，这些不经常出现的声音通常被定义为可疑的异常声音。

异常声音识别系统的目的是寻找异常声音，通过异常声音来监测异常事件的发生，从而报告给用户，让用户及时处理异常事件的发生。

但是目前对异常声音识别技术的研究刚刚起步，还没有大规模的展开。

识别算法还停留在借鉴其说话人识别算法的阶段。

本文研究的目的是深入分析异常声音自身的特点，充分利用异常声音的特征参数，选择适合的异常声音识别算法，开发异常声音识别系统，以便在未来的应用中不仅能打击犯罪份子而且能更好的保护人们的隐私。

１．２异常声音识别技术

１．２．１异常声音识别系统组成

异常声音识别系统的流程图如图１－１所示。

扎‘＞爿模刿ｌ练斟模板库Ｊ训练阶段／ｔ

；

。

特征提取’：

本。

／／驯油＼＼／◆

测试阶段识别结果／，———＼

图１．１异常声音系统流程图

异常声音识别系统主要分为两个阶段：

训练阶段和测试阶段。

在训练阶段，设计人员将采集到的音频样本进行预处理，并提取特征参数，根据提取的特征参数模型训练异常声音模板，系统对同一种声音建立一个统计模型，在本文中采用ＧＭＭ来对声音特征进行建模。

并将训练得到的模板存入模板库中。

此时，用作训练的样本数目直接决定了统计模型的精度。

在测试阶段，用户将待识别的音频信号经过与训练阶段相同的预处理和特征提取后将其与模板库中的模板进行匹配，并找到与之最相近的模板作为识别结果输出。

在训练和识别阶段包括预处理，特征提取，分类决策这三个部分。

下面简单介绍一下各个模块的内容。

１、预处理

西南交通大学硕士研究生学位论文第３页

对异常声音能否做出正确识别，与原始音频文件的预处理是密不可分的。

正确的对音频文件进行预处理操作，可以提高特征提取及识别算法的精度。

音频信号的预处理是整个系统的基础，主要包括对音频信号进行预加重、加窗、滤波，分帧等操作。

输入音频流

图１．２预处理模块框图

预处理单元的过程如图１．２所示。

因为特征参数是基于短时音频帧的分析，在音频信号进入特征提取模块前，必须把音频信号由连续音频流段开为重叠的音频帧，同时对每帧音频信号进行预加重、加窗、滤波等操作，提高信号的信噪比，进一步增强特征提取的精度【４１。

（１）带通滤波

滤波器的目的是把信号中的不包含音频的频率成分滤除，最大限度的提高后续单元输入信号的信噪比。

通过比较各种滤波器我们选择ＦＩＲ滤波器，其设计为：

ＦＩＲ的基本形式如式（１．１）所示：

Ｎ—ｌ

ｙ（胛）＝∑ｈ（ｋ）ｘ（ｎ一后）函（１．１）

式中，Ⅳ为采样点总个数，ｈ（ｋ）为冲击响应，ｘ（ｎ）为输入信号，为ｙ（ｎ）滤波器响应。

（２）预加重

预加重是在音频信号数字化之后，用具有６ｄＢ／倍频程的提升高频特性的预加重数字滤波器来实现，目的是提升高频部分，使信号变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱。

它一般是一阶的数字滤波器如式（１－２）所示：

疗（ｚ）＝１一∥ｚｑ

式中，∥为预加重系数，Ｈ（ｚ）为滤波器响应，∥的取值范围如式（１—３）所示：

０．９＜∥＜１（１－２）（１－３）

有时要恢复原信号，需要从做过预加重的信号频谱来求实际的频谱时，要对测量・值进行去加重处理，即加上６ｄＢ／倍频程的下降的频率特性来还原成原来的特性。

（３）加窗和分帧

进行过预加重数字信号处理后，接下来就要进行加窗分帧处理。

分帧虽然可以采用连续分段的方法，但～般使用交叠分段的方法，这是为了使帧与帧之间平滑过渡，

曼曼曼曼曼曼皇曼曼曼皇！

曼！

蔓曼蔓曼曼曼曼曼曼曼皇曼！

！

曼曼曼曼曼曼！

曼曼！

皇！

曼曼曼曼曼曼苎曼曼ＩＩ西南交通大学硕士研究生学位论文第４页

ＩＩＩ曼曼曼曼！

保持其连续性，前一帧和后一帧的交叠部分称为帧移。

帧移与帧长的比值一般取为Ｏ．１／２。

分帧是用可移动的有限长度窗口进行加权的方法来实现的，这就是用一定的窗函数。

本文才采用２５６个点为帧长，１２８个点为重叠帧长。

２、特征提取

经过预处理的信息数据往往十分庞大。

因此需要对信息数据进行特征提取和选择，即用某种方法把数据从模式空间转换到特征子空间。

使得在特征空间中，数据具有很好的区分能力。

特征提取就是指从声音信号中提取出表示声音特性的基本特征。

一般情况要满足下述准则【５１：

（１）特征易于从音频信号中提取；

（２）能够有效地区分不同的声音；

（３）尽量不随时间和空间变化；

（４）不易模仿；

（５）不受背景噪声及传输信道的影响；

音频信号具有随机性和短时平稳性，因此在对其处理之前首先要进行分帧处理，然后对每一帧计算其特征来表征该短时帧的特征，目前应用较多的特征参数是Ｍｅｌ频率倒谱参数。

在大多数的音频识别系统中，一般选取ＭＦＣＣ低阶系数作为系统的特征矢量，并且在识别系统中低阶系数也能获得比较好的效果。

目前大多数的音频特征提取方法都利用了音频信号的短时平稳特性，并认为音频信号的相邻帧间相互独立。

这样的特征提取方法丢失了音频信号的动态特征，随着时频分析、小波分析等信号处理方法的出现，人们研究了利用音频动态特性的音频特征提取方法。

其它的音频特征提取方法也有研究，如用混沌分维数来作为音频的辅助特征等。

虽然音频特征提取已由简单统计特征的提取发展到涉及倒谱分析、时频分析、小波分析、遗传算法等现代信号处理方法、但音频特征的提取仍是一个有待解决的重要问题。

常用的特征参数包括：

时域的简单参数如短时能量，过零率，以及同态倒谱分析得到的线性预测参数及派生参数和基于听觉模型的Ｍｅｌ倒谱参数，线性预测倒谱系数，小波子带能量等参数。

特征提取这个模块是为了训练后面的分类器做准备，通过将各个特征参数进行分类训练，才能最终得到识别模型，因此好的特征参数能够提高识别算法的性能。

３、分类决策

分类是将样本的特征空间划分为类型空间。

对于给定的未知模式，确定其为类型空间的某种模型。

特征提取和选择在很大程度上影响了分类效果，而好的分类器设计和方法也会提高系统分类性能。

由于异常声音识别还不太成熟，对于分类器的选择，我们更多的是借鉴语音识别方面的知识。

而对于语音识别的主要方法可以分为：

基于模板匹配模型的方法、基于

西南交通大学硕士研究生学位论文第５页

概率模型的方法、基于判决模型的方法和基于混合模型的方法。

这些方法各有优缺点

’

【６】，根据不同的应用环境而采用相应的方法。

１）基于模板匹配的方法

基于模板匹配的方法主要包括动态时间规整和矢量量化两种方法。

动态时间规整（ＤＴｗ）

【７】是一种典型的基于模板匹配模型的方法，ＤＴＷ采用动态规划（Ｄｙｎａｍｉｃｐｒｏｇｒａｍｍｉｎｇ）思，想成功解决了音频信号特征参数序列比对时，时长不等的难题。

说话人信息不仅有相对稳定信息，而且有时变因素，如语速、语调、重音和韵律等。

即使是同一个人同样内容的两次发音，其长度和幅度也不可能相同，从而得到的特征参数序列的长度也不可能～致，因此需要对测试音频的特征参数序列进行非线性放缩，使其于参考模板的长度～致，然后进行比对，并按照某种距离测度得出模板间的相似程度。

ＤＴＷ算法作为一种有效的时间归正和语音测度计算方法，广泛应用于说话人识别和语音识别中，取得了很好的识别效果。

尽管如此，ＤＴＷ也存在着下列问题：

首先，由于要找到最佳匹配点因此要考虑多种可能的情况，运算量相对大些；

其次，语音识别性能过分依赖于端点检测，端点检测的精度随着不同的语音而有所不同，有些语音的端点检测精度较低，由此影响识别率的提高；

最后这种算法没有充分利用语音信号的时序动态信息。

矢量量化是一种极其重要的信号压缩方法，它广泛应用于音频编码、音频识别与合成、说话人识别等领域。

由于矢量量化技术可以有效的压缩和提取说话人的个性特征，其码本可以在最佳意义上代表说话人特征空间的所有训练矢量，因而可以作为有效的说话人模型，用于说话人识别【８‘１０１。

用矢量量化方法建立识别模型，既可以大大减少数据存储量，特别是当取的码本数量较少时，无论是训练还是测试，速度都很快。

同时又可避开困难的语音分段问题和时间规整问题。

但是每一个说话人的码本只是描述了这一说话人的语音特征在空间中聚类中心的统计分布情况，却没有描述语音信号特征的时序性。

因为其对各个类的区分性的刻画能力有限，当系统中说话人的人数增加时，识别性能下降的很快。

２）基于概率模型韵方法

基于概率模型的方法主要包括隐马尔卡夫模型和高斯混合模型，其中高斯混合模型的应用更加广泛。

音频中说话人信息在短时间内较为平稳，通过对稳态特征如基音、声门增益、低阶反射系数的统计分析，然后可以利用均值、方差等统计量和概率密度函数进行分类判决。

与模板匹配模型相比，概率统计模型具有更大的灵活性，说话人识别的问题可以表示为给定说话人模型，然后利用该模型计算产生一个可观察的特征矢量的似然概率，某一说话人的条件概率密度可以由训练矢量估计得出，给定概率密度函数，则该说话人产生特征矢量的概率即被确定。

这类方法优点是不用对特征参数在时域上进行归整，适用于文本无关的说话人识别，但准确的概率统计模型需要长时间的训练才能

西南交通大学硕士研究生学位论文

获得，而且训练和识别的计算量都比较大。

第６页

隐马尔可夫模型是一种用参数表示的，用于描述随机过程统计特性的概率模型，它是由马尔可夫链演变而来的。

ＨＭＭ即解决了短时模型描述平稳段的信号，又解决了每一个短时平稳段是如何转变到下一短时平稳段的问题。

它利用概率及统计理论成功的解决了如何辨识具有不同参数的短时平稳的信号段以及如何跟踪它们之间的转化等问题［１１。

”】。

ＨＭＭ既能用短时模型．状态解决声学特性相对稳定段的描述，又能用状态转移规律刻画平稳段之间的时变过程，所以能统计的吸收发音的声学特性和时间上的变动。

目前，ＨＭＭ在说话人识别和语音识别方面应用广泛。

ＨＭＭ能很好的描述语音信号的平稳性和可变性，这是ＶＱ模板匹配方法所欠缺的。

ＶＱ只能描述说话人特征的静态变化，而ＨＭＭ能反映语音信号的动态变化。

值得注意的是离散ＨＭＭ说话人识别正确率和系统的鲁棒性与ＶＱ方法比较没有明显的提高，而且充分训练需要更多的语料，连续ＨＭＭ在经过充分训练后，系统的鲁棒性和识别正确率比ＶＱ要好。

ＨＭＭ实现方法比ＶＱ复杂，而且系统训练较ＶＱ要求高，ＨＭＭ模型的好坏和系统的状态分割数与观测符号序列的乘积大小有关，并且在符号序列长度一定的情况下，状态数的增加对改善系统的性能不明显。

高斯混合模型本质上是一种多维概率密度函数，在说话人识别中，不同说话人的差异主要表现在其短时音频谱的差异，而这又可以用每个说话人的短时谱特征矢量所具有的概率密度函数来衡量。

我们可以用高斯混合模型ＧＭＭ来表示这一概率密度函数。

典型的单峰高斯说话人模型代表了一个以均值矢量和协方差矩阵表示的说话人特征分布，而矢量量化模型代表了说话人特征模板的离散分布。

通过高斯函数的离散组合，每一个高斯函数用其均值和协方差矩阵表示，即得到高斯混合模型。

在某种意义上，高斯混合模型是单峰高斯模型和矢量量化模型的混合，它的一个强有力的属性是能够形成任意分布的光滑近似，可以更好的表示模型的概率密度。

高斯混合模型本质上是一种基于参数估计的多维概率统计模型，ＧＭＭ［１４‘１７】模型认为每一说话人的音频特征在特征空间中都形成特定的分布，并且可以用多个高斯分布组合对每个说话人的音频特征分布进行拟合，不同参数的高斯分布组合可以用来表征不同的说话人，即每个说话人特征参数对应一个ＧＭＭ模型。

基于

展开阅读全文