语音信号特征参数提取方法设计与实现毕业设计.docx

资源描述

语音信号特征参数提取方法设计与实现毕业设计.docx

《语音信号特征参数提取方法设计与实现毕业设计.docx》由会员分享，可在线阅读，更多相关《语音信号特征参数提取方法设计与实现毕业设计.docx（83页珍藏版）》请在冰点文库上搜索。

语音信号特征参数提取方法设计与实现毕业设计.docx

语音信号特征参数提取方法设计与实现毕业设计

毕业设计

题目语音信号特征参数提取方法设计与实现

DesignandImplementationofSpeechSignalFeatureParameterExtractionMethod

毕业设计（论文）原创性声明和使用授权说明

原创性声明

本人郑重承诺：

所呈交的毕业设计（论文），是我个人在指导教师的指导下进行的研究工作及取得的成果。

尽我所知，除文中特别加以标注和致谢的地方外，不包含其他人或组织已经发表或公布过的研究成果，也不包含我为获得及其它教育机构的学位或学历而使用过的材料。

对本研究提供过帮助和做出过贡献的个人或集体，均已在文中作了明确的说明并表示了谢意。

作者签名：

　　　　　日　期：

指导教师签名：

　　　　　日　　期：

使用授权说明

本人完全了解大学关于收集、保存、使用毕业设计（论文）的规定，即：

按照学校要求提交毕业设计（论文）的印刷本和电子版本；学校有权保存毕业设计（论文）的印刷本和电子版，并提供目录检索与阅览服务；学校可以采用影印、缩印、数字化或其它复制手段保存论文；在不以赢利为目的前提下，学校可以公布论文的部分或全部内容。

作者签名：

　　　　　日　期：

学位论文原创性声明

本人郑重声明：

所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。

除了文中特别加以标注引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写的成果作品。

对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。

本人完全意识到本声明的法律后果由本人承担。

作者签名：

日期：

年月日

学位论文版权使用授权书

本学位论文作者完全了解学校有关保留、使用学位论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。

本人授权　　　　大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。

涉密论文按学校规定处理。

作者签名：

日期：

年月日

导师签名：

日期：

年月日

注意事项

1.设计（论文）的内容包括：

1）封面（按教务处制定的标准封面格式制作）

2）原创性声明

3）中文摘要（300字左右）、关键词

4）外文摘要、关键词

5）目次页（附件不统一编入）

6）论文主体部分：

引言（或绪论）、正文、结论

7）参考文献

8）致谢

9）附录（对论文支持必要时）

2.论文字数要求：

理工类设计（论文）正文字数不少于1万字（不包括图纸、程序清单等），文科类论文正文字数不少于1.2万字。

3.附件包括：

任务书、开题报告、外文译文、译文原文（复印件）。

4.文字、图表要求：

1）文字通顺，语言流畅，书写字迹工整，打印字体及大小符合要求，无错别字，不准请他人代写

2）工程设计类题目的图纸，要求部分用尺规绘制，部分用计算机绘制，所有图纸应符合国家技术标准规范。

图表整洁，布局合理，文字注释必须使用工程字书写，不准用徒手画

3）毕业论文须用A4单面打印，论文50页以上的双面打印

4）图表应绘制于无格子的页面上

5）软件工程类课题应有程序清单，并提供电子文档

5.装订顺序

1）设计（论文）

2）附件：

按照任务书、开题报告、外文译文、译文原文（复印件）次序装订

指导教师评阅书

指导教师评价：

一、撰写（设计）过程

1、学生在论文（设计）过程中的治学态度、工作精神

□优□良□中□及格□不及格

2、学生掌握专业知识、技能的扎实程度

□优□良□中□及格□不及格

3、学生综合运用所学知识和专业技能分析和解决问题的能力

□优□良□中□及格□不及格

4、研究方法的科学性；技术线路的可行性；设计方案的合理性

□优□良□中□及格□不及格

5、完成毕业论文（设计）期间的出勤情况

□优□良□中□及格□不及格

二、论文（设计）质量

1、论文（设计）的整体结构是否符合撰写规范？

□优□良□中□及格□不及格

2、是否完成指定的论文（设计）任务（包括装订及附件）？

□优□良□中□及格□不及格

三、论文（设计）水平

1、论文（设计）的理论意义或对解决实际问题的指导意义

□优□良□中□及格□不及格

2、论文的观念是否有新意？

设计是否有创意？

□优□良□中□及格□不及格

3、论文（设计说明书）所体现的整体水平

□优□良□中□及格□不及格

建议成绩：

□优□良□中□及格□不及格

（在所选等级前的□内画“√”）

指导教师：

（签名）单位：

（盖章）

年月日

评阅教师评阅书

评阅教师评价：

一、论文（设计）质量

1、论文（设计）的整体结构是否符合撰写规范？

□优□良□中□及格□不及格

2、是否完成指定的论文（设计）任务（包括装订及附件）？

□优□良□中□及格□不及格

二、论文（设计）水平

1、论文（设计）的理论意义或对解决实际问题的指导意义

□优□良□中□及格□不及格

2、论文的观念是否有新意？

设计是否有创意？

□优□良□中□及格□不及格

3、论文（设计说明书）所体现的整体水平

□优□良□中□及格□不及格

建议成绩：

□优□良□中□及格□不及格

（在所选等级前的□内画“√”）

评阅教师：

（签名）单位：

（盖章）

年月日

教研室（或答辩小组）及教学系意见

教研室（或答辩小组）评价：

一、答辩过程

1、毕业论文（设计）的基本要点和见解的叙述情况

□优□良□中□及格□不及格

2、对答辩问题的反应、理解、表达情况

□优□良□中□及格□不及格

3、学生答辩过程中的精神状态

□优□良□中□及格□不及格

二、论文（设计）质量

1、论文（设计）的整体结构是否符合撰写规范？

□优□良□中□及格□不及格

2、是否完成指定的论文（设计）任务（包括装订及附件）？

□优□良□中□及格□不及格

三、论文（设计）水平

1、论文（设计）的理论意义或对解决实际问题的指导意义

□优□良□中□及格□不及格

2、论文的观念是否有新意？

设计是否有创意？

□优□良□中□及格□不及格

3、论文（设计说明书）所体现的整体水平

□优□良□中□及格□不及格

评定成绩：

□优□良□中□及格□不及格

教研室主任（或答辩小组组长）：

（签名）

年月日

教学系意见：

系主任：

（签名）

年月日

摘要

随着计算机技术的发展，语音交互已经成为了人机交互的必要手段。

语音特征参数的精确度直接影响着语音合成的音质和语音识别的准确率。

因此语音信号参数提取是语音信号处理研究中一项非常有意义的工作。

本文采用Matlab软件提取语音信号特征参数，首先对语音信号进行数字化处理，其次，进行预处理，包括预加重、加窗和分帧，本文讨论了预处理中各种参数的选择，以使信号特征提取更加准确。

再次，讨论了各种时域特征参数的算法，包括短时能量、短时过零率等。

实验结果表明，通过对语音信号进行短时能量及短时过零率的分析与提取，可以初步从一段语音信号中分辨出有音还是无音，在有音状态下还可以分辨出轻音与浊音。

关键词：

语音信号；特征参数的提取；短时能量；短时过零率

Abstract

Withthedevelopmentofcomputertechnology,voiceinteractionhasbecomeanecessarymeansofhuman-computerinteraction,theaccuracyofthespeechfeatureparametersdirectlyaffectsthequalityofspeechsynthesisandspeechrecognitionaccuracy.Sothespeechsignalparametersextractionofspeechsignalprocessingresearchisaverymeaningfulwork.

First，Thispaperextractsspeechsignalcharacteristicparameters,anddigitalprocessingthespeechsignalbytheMatlabsoftware.second,preprocessesthesignal,includingpreemphasis,addwindowandframing,thispaperdiscussedtheselectionofvariousparametersinpretreatment,inordertomakeamoreaccuratesignalfeatureextraction.Third,discussesthevariouscharacteristicparametersoftimedomainalgorithms,includingshort-timeenergyandshort-timezerocrossingratio,etc.Experimentalresultsshowthatbyshort-timeenergyandshort-timeaveragepowerofspeechsignal,andshort-timezerocrossingratioanalysisandextractionfromthepreliminaryperiodofspeechsignaldistinguishwithorwithout,andinsoundconditioncandiscernthelighttoneanddullness.

Keywords:

speechsignal;Theextractionoffeatureparameters.Short-timeenergy;Short-timezerocrossingrate

TOC\o"1-3"\f\h\u

第1章绪论

1.1语音信号特征提取概况

1.1.1研究意义

通过语音传递信息是人类最重要、最有效、最常用的和最方便的交换信息的形式。

语言是人类特有的功能，声音是人类常用的工具，是相互传递信息的最主要的手段。

而当前计算机技术飞速发展，让计算机能听懂人类的语言，，是人类自计算机诞生以来梦寐以求的想法。

于是语音信号处理技术应运而生，作为高科技应用领域的研究热点，语音信号处理技术从理论的研究到产品的开发已经走过了几十个春秋并且取得了长足的进步。

语音信号特征参数的提取和研究是语音信号处理的基础，只有分析出了可以表示语音信号本质的特征参数，才有可能利用这些参数进行搞笑的通信和更加准确的识别，才能简历语音合成的数据库。

因此语音信号特征参数的提取是语音信号处理中一个重要的课题，也是一项非常有必要的研究[1]。

1.1.2发展现状

语音信号处理是以语音语言学和数字信号处理为基础而形成的一门涉及面很广的综合性学科，与心理学、生理学、计算机科学、通信与信息科学等有密切关系。

作为一个重要的研究领域，语音信号处理有很长的研究历史。

它的发展有过两次飞跃。

分别是1907年电子管的发明和1920年无线电广播的出现，电子管放大器使很微弱的声音放大很多倍，从而使电声学和语音信号处理有了机密的联系；第二次飞跃是20世纪70年代，电子计算机和数字信号处理的发展，让语音信号可以通过模数转换技术进行采样和量化从而转换为数字信号，这样能够应用数字计算的方法对语音信号进行加工处理，极大提高了语音信号处理的准确性[2]。

语音信号处理是目前发展最为迅速的信息科学技术之一，其研究设计一系列前沿课题，它的研究不断的有新的方法和新的问题出现，目前仍然有许多需要我们去探索和研究的新问题，比如说语音增强的技术理论和听觉器官的物理模型等等。

1.2Matlab简介

MATLAB是国际上仿真领域最权威、最实用的计算机工具。

它是MathWork公司于1984年推出，它以强大的科学计算与可视化功能、简单易用、开放式可扩展环境，特别是所附带的30多种面向不同领域的工具箱支持，使得它在许多科学领域中成为计算机辅助设计和分析、算法研究和应用开发的基本工具和首选平台。

1.2.1发展概况

Matlab是MatrixLaboratory（矩阵实验室的缩写），最初由美国CleveMoler博士在70年代末讲授矩阵理论和数据分析等课程时编写的软件包Linpack与Eispack组成，旨在使应用人员免去大量经常重复的矩阵运算和基本数学运算等繁琐的编程工作。

1984年成立的MathWorks公司正式把Matlab推向市场，并从事Matlab的研究和开发。

1990年，该公司推出了以框图为基础的控制系统仿真工具Simulink，它方便了系统的研究与开发，使控制工程师可以直接构造系统框图进行仿真，并提供了控制系统中常用的各种环节的模块库。

1993年，MathWorks公司推出的Matlab4.0版在原来的基础上又作了较大改进，并推出了Windows版，使命令执行和图形绘制可以在不同窗口进行。

1994年推出了Matlab4.2版本，并得到广泛的重视和应用。

1999年，推出了Matlab5.3版本，真正实现了32位运算，其速度更快、功能更完善、界面更友好，并提供了Internet搜索引擎，可以协助用户寻求在线帮助。

版本6.0、6.1又作了更精细的改进，增加了许多新的功能。

版本7.0、7.1包括拥有数百个内部函数的主包和三十几种工具包。

工具包又可以分为功能性工具包和学科工具包。

功能工具包用来扩充Matlab的符号计算，可视化建模仿真,文字处理及实时控制等功能。

学科工具包是专业性比较强的工具包，控制工具包,信号处理工具包,通信工具包等都属于此类[3]。

1.2.2主要功能

MATLAB之所以成为世界流行的科学计算与数学应用软件，是因为它有着强大的功能。

MATLAB是一种应用于计算技术的高性能语言。

它将计算、可视化和编程结合在一个易于使用的环境中，此而将问题解决方案表示成我们所熟悉的数学符号，其典型的使用包括：

1.数学计算。

2.运算法则的推导。

3.模型仿真和还原。

4.数据分析，采集及可视化。

MATLAB是一个交互式系统，它的基本数据元素是矩阵，且不需要指定大小。

通过它可以解决很多技术计算问题，尤其是带有矩阵和矢量公式推导的问题。

1.3本课题研究内容及结构

本文主要介绍语音信号处理的理论及Matlab的相关内容，然后从Matlab仿真角度验证了录音、预处理、提取语音信号时域特征参数，主要讨论了预处理中各种参数的选择，以使信号特征提取更加准确。

再次讨论了各种时域特征参数的算法，包括短时能量、短时过零率等，介绍了各环节的不同软件实现方法。

最后对基于Matlab的语音信号特征参数提取进行总结。

第1章主要介绍了语音信号特征参数提取的基本概况及其发展史，同时介绍了关于Matlab软件的相关知识；

第2章主要从理论上介绍了语音信号处理中所涉及到的预处理和数字化以及窗函数选择的理论知识，同时给出了本课题研究中所要涉及到的Matlab的相关函数；

第3章主要介绍了在语音信号在时域中的两种基本参数，短时能量及短时平均功率和短时过零率两种参数的理论基础分析；

第4章是运用Matlab软件对一段语音信号进行预处理、数字化仿真，并提取里短时能量及短时平均幅度和短时过零率两种参数进行了仿真，得出来相关的信号波形，并对结果进行了相关的分析。

第5章是本文的设计总结。

第2章语音信号分析

2.1概述

语音信号分析是语音信号处理的前提和基础，只有分析出可表示语音信号本质特征的参数才有可能利用这些参数进行高效的语音通信、语音合成和语音识别等处理。

而且，语音合成的好坏，语音识别率的高低也取决于对语音信号分析的准确性和精确性。

因此语音信号分析在语音信号处理应用中具有举足轻重的地位[4]。

贯穿于语音分析全过程的是“短时分析技术”。

因为，语音信号从整体来看其特性及表征其本质特征的参数均是随时间而变化的，所以它是一个非平稳态过程，不能用处理平稳信号的数字信号处理技术对其进行分析处理。

但是语音信号在一个短时间范围内其特性基本保持不变即相对稳定，可以将其看做一个准稳态过程，即语音信号具有短时平稳性。

所以任何语音信号的分析和处理必须建立在“短时”的基础上，将语音信号分为一段一段来分析其特征参数，其中每一段称为一“帧”，帧长一般取为10

30ms。

这样，对于整体的语音信号来讲，分析出的是由每一帧特征参数组成的特征参数时间序列。

2.2本文所用到的Matlab工具简介

2.2.1信号处理工具箱

Matlab的信号处理工具箱是信号算法文件的集合，它的推出扩展了Matlab在信号处理领域的应用，为其研究和工程应用提供了有力的基础，应用此工具箱可直观、方便地进行信号分析、数值计算及系统设计等工作，从波形的产生到滤波器的实现和设计，参数建模，谱分析，简化了编程，节省了时间。

它处理的基本对象是信号与系统，包含了信号处理中经常使用的近200个函数，根据其功能，可以分为20类，经常使用的函数如下所示。

滤波器分析：

abs求绝对值（幅值），conv求卷积，filter直接滤波器实现等；IIR滤波器设计：

FIR滤波器设计：

fir1基于窗函数的FIR滤波器设计——标准响应，fir2基于窗函数的FIR滤波器设计等；变换：

czt线性调频Z变换，idct逆离散余弦变换，ifft一维逆快速傅里叶变换等；窗函数：

boxcar矩形窗，hamming海明窗，hanning汉宁窗，chebwin切比雪夫窗等；参数化建模：

lpc线性预测系数等。

2.2.2录音工具

在Matlab环境中，可以通过多种编程方法驱动声卡，实现对语音信号的采集和回放。

同时由于Matlab是一个数据分析和处理功能十分强大的工程使用软件，它的信号处理与分析工具箱提供了十分丰富的功能函数，利用这些函数可以快捷地完成语音信号处理和分析以及信号的可视化，使人机交互更加便捷。

在Matlab环境中，主要可以通过以下3种方法驱动声卡，采集语音信号：

1.将声卡作为对象处理采集语音信号。

Matlab将声卡作为对象处理，其后一切操作都不与硬件直接相关，而是通过对该对象的操作来作用于硬件设备（声卡）。

2.调用wavrecord函数采集语音信号。

wavrecord函数使用Windows声音输入设备录制声音。

函数调用方式是“wavrecord（N,fs,ch,nbits）;”。

其中N是采集样本数据量；fs是样本采集频率（8000Hz、11025Hz、22050Hz、44100Hz），其默认值是11025Hz；ch是样本采集通道，1为单声道，2为双声道，默认值为1（单声道）；nbit是每个样本的位数（或称解析度），‘double’、‘single’、‘int16’为16位，‘int8’为8位。

3.运用audiorecorder对象采集语音信号。

函数调用方式为audiorecorder（fs,nbits,ch），可以创设一个audiorecorder对象。

其中fs、nbits、ch的意义同wavrecorder函数。

对象创设后，可以进行录音、暂停、停止、播放以及数据读取等操作[5]。

本文使用第二种方法进行录音。

因为本文是对已存信号进行处理，不需要实时处理，对语音要求不高，所以只需选择处理简单的第二种方法。

2.3语音数字化和预处理

在按帧进行语音分析，提取语音参数之前必须进行一些共同的短时分析技术，如语音信号的数字化、语音信号的端点检测、预加重、加窗和分帧等，这些也是不可忽视的语音信号分析的关键技术。

2.3.1数字化

语音信号的数字化一般包括放大及增益控制、反混叠滤波、采样、A/D变换及编码（一般就是PCM码）；预处理一般包括预加重、加窗和分帧等。

语音信号首先进行反混叠滤波，反混叠滤波的目的有两个：

第一，抑制输入信号各个频域分量中频率超出

的所有分量（

为采样频率），以防止混叠干扰；第二，抑制电源工频干扰。

这样，反混叠滤波必须是一个带通滤波器，设其上、下截止频率分别是

和

，则对于绝大多数语音编译码器，

=3400Hz、

=60

100Hz，采样频率为

=8kHz。

语音信经过反混叠滤波和采样后由A/D变换器变换为二进制数字码。

A/D变换中要对信号进行量化，量化不可避免地会产生误差。

量化后的信号值与原信号值之间的差值称为量化误差，又称为量化噪声。

A/D变换器分为线性和非线性两类。

目前采用的线性A/D变换器绝大部分是12位的（即每一个采样脉冲转换为12位二进制数字）；非线性A/D变换器则是8位的，它与12位线性变换器是等效的。

有时为了后续处理，要将非线性的8位码转换为线性的12位码[6]。

数字化的反过程就是从数字化语音中重构语音波形，由于进行了以上的处理。

所以在接收语音信号之前，必须在D/A之后加一个平滑滤波器，对重构的语音波形的高次谐波起平滑作用，以去除高次谐波失真。

2.3.2预处理

已数字化的语音信号序列将依次存入一个数据去，在语音信号处理中一般用循环队列的方式来存储这些数据，以便用一个有限容量的数据去来应付赎两起大的语音信号，已处理完并已提取出了语音特征参数的一个时间段的语音数据可以一次抛弃，以让出存储空间来存储新数据。

由于语音信号的平均功率谱受声门激励和口鼻辐射影响，高频端大约在800HZ以上按6dB/倍频程跌落，所以求语音信号频谱时，频率越高相应的成分越小，高频部分的频谱比低频部分的难求，为此要在预处理中进行预加重处理。

预加重的目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，以便于频谱分析或声道参数分析。

预加重可在语音信号数字化时在反混叠器之前进行，这样不仅可以进行预加重，而且可以压缩信号的动态范围，有效地提高信噪比。

但预加重一般是在语音信号数字化之后，在参数分析之前在计算机里用具有6dB/倍频程的提升高频特性的预加重数字滤波器来实现，它一般是一阶的数字滤波器：

（2-1）式（2-1）中，

值接近于1。

有时要恢复原信号，需要从做过预家中的信号频谱来求世纪的频谱是，要对测量值进行去加重处理，即加上6db/倍频的下降的频率特性来还原成原来的特性[7]。

进行预加重数字滤波处理后，接下来就要进行加窗分帧处理。

一般每秒的帧数约为33到100帧，视实际情况而定。

分帧可以采用连续分段的方法，但一般要采用交叠分段的方法，这是为了使帧与帧之间平滑过渡，保持其连续性。

前一帧和后一帧的交叠部分称为帧移。

帧移与帧长的比值一般取0

1/2。

分帧是用可移动的有限长度窗口进行加权的方法来实现的，即用一定的窗函数w（n）乘s（n）,从而形成加窗语音信号：

展开阅读全文