基于凌阳61单片机的语音识别和lcd显示Word文档下载推荐.doc

资源描述

基于凌阳61单片机的语音识别和lcd显示Word文档下载推荐.doc

《基于凌阳61单片机的语音识别和lcd显示Word文档下载推荐.doc》由会员分享，可在线阅读，更多相关《基于凌阳61单片机的语音识别和lcd显示Word文档下载推荐.doc（73页珍藏版）》请在冰点文库上搜索。

基于凌阳61单片机的语音识别和lcd显示Word文档下载推荐.doc

2.2语音信号处理技术 5

2.2.1滤波与A/D转换 5

2.2.2语音信号识别技术 6

2.3语音识别系统的分类 7

3硬件总体设计 9

3.1凌阳61单片机概述 9

3.11主要性能 9

3.1.2SPLC061A结构 10

3.1.3芯片的引脚排列和说明 10

3.1.4SPCE061A系统特性参数 13

3.2SPCE061A最小系统 13

3.3SPLC501LCD显示系统 16

3.4单片机与SPLC501的硬件连接 17

4.SPCE061A单片机的语音处理及其软件设计 18

4.1概述 18

4.2凌阳常用的音频形式和压缩方法 18

4.2.1音频形式 19

4.2.2语音压缩具体操作方法 25

4.3凌阳语音识别算法 27

4.3.1语音辨识分类 27

4.3.2凌阳语音识别过程 27

4.4LCD显示BMP图片部分 30

4.5DMTOOl字模提取工具 32

4.6软件设计 36

4.6.1训练程序 38

4.6.2语音识别和显示程序 43

4.7识别流程和识别现象 47

4.8调试部分 47

结论 51

致谢 52

参考文献 53

附录 54

1绪论

近几年来，随着语音识别技术的发展，语音识别技术已经慢慢走进我们的生活中了，无论是工业、家电、通信、汽车电子、医疗、还是家庭服务、还有各种消费电子产品等，语音识别技术已经得到了充分的应用和发展，比如我们用的一些移动电话带有的语音拨号功能，通过电话就行各种语音购物。

语音识别是语音信号处理的重要研究方向之一，同时也是涉及很广的一门交叉学科，它与计算机、通信、语音语言学、数理统计、信号处理神经处理学、人工智能等学科都有密切的联系，同时也涉及到生理学、心理学以及人体语言[1]。

语音是语音信息的载体，语音识别的基本任务是将输入的语音转换为相应的语言代码，这样不仅使存储或传输这样的语言代码的数码率比起存储或传输原来有语音信号来大幅度降低，而且还在于它把一种连续的语音信号变成一种有限符号，这样的符号容易被计算机或专用信息处理单元理解其含义，而且便于与人进行交流，因而语音识别得到了广泛的应用。

1.1研究的意义

语音识别技术在具体应用的过程中就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术，也就是让机器听懂人类的语音，如果电脑配置有“语音辨识”的程序组，那么当你的声音通过一个转换装置输入电脑内部、建立其中的数学模型，并以数位方式储存后，语音辨识程序便开始以你输入的声音样本与事先储存好的声音样本进行对比工作。

声音对比工作完成之后，电脑就会输入一个它认为最“象”的声音样本序号，就可以知道你刚才念的声音是什么意义，进而执行此命令。

说起来简单，但要真正建立辨识率高的语音辨识程序组，却是非常困难而专业的，世界各地的学者们也还在努力研究最好的方式。

专家学者们研究出许多破解这个问题的方法，如傅立叶转换、倒频谱参数等，使目前的语音辨识系统已达到一个可接受的程度，并且辨识度愈来愈高[2]。

语音识别技术经历了语音识别、语音合成以及自然语音合成3个阶段。

从原理上讲,似乎让计算机识别人的语言并不难,其实困难还是不少的。

例如,不同的人读同一个词所发出的音在声学特征上却不完全相同;

即便是同一个人,右不同情况下对同一个字的发音也不相同。

加上人们讲话时常有不合语法规律的情况,有时还夹杂些俗语,或省略一些词语,而且语速变化不定。

所有这些,在我们听别人讲话时似乎都不成为问题,但让机器理解则很是困难。

近年来,由于计算机功能的日益强大,存储技术、语音算法技术和信号处理技术的长足进步,以及软件编程水平的提高,语音识别技术已经取得突破性的进展,使它的广泛应用成为可能[3]。

1.2语音识别的研究现状

语音识别能发展到现在，一方面由于PC的语音识别技术正趋于成熟外，另一方面语音算法的深入研究和集成电路的发展也起到很关键的作用，目前市场上也出现具有实用价值和应用前景的芯片。

今年来随着各类电子产品对低成本、高稳健性的语音识别芯片的需求快速增加，使得语音识别系统得到了广泛的应用。

通过研究着不断努力，现在非特定人语音识别系统精度已经得到达到98%以上，同时面对特定的语音识别系统精度就更高了。

语音识别技术是语音处理技术的一个分支。

语音处理技术发展过程也就是语音识别技术的发展史。

由此可以将语音识别分为三个阶段。

第一个阶段是萌芽阶段，在这一阶段（20世纪30年代至50年代），人们对语音处理的研究主要是根据语音学知识，提取若干特征参数，并利用这些参数制作成模拟电路来模仿人的发音过程，实现简单的语音处理功能。

语音识别的研究工作始于50年代，它开始的标志是AT&

TBell实验室实现了第一个可识别十个英文数字的语音识别系统——Audry系统。

第二个阶段是发展阶段，在这一阶段（20世纪60年代至80年代初），随着集成电路技术和计算机技术的发展，语音识别的理论和技术亦日趋完善和成熟。

60年代，提出了用动态规划（DP）方法来解决语音识别中不等长的问题。

70年代，出现了基于线性预测倒谱和动态时间规整技术（DTW）技术的特定人孤立语音识别系统。

80年代，最显著的特征是HMM模型和人工神经元网络（ANN）在语音识别中的成功应用。

第三个阶段是实用阶段，在这一阶段（20世纪90年代至今），随着遵循摩尔定律的超大规模集成电路技术的迅速发展，极大地促进了计算机多媒体技术和人工智能技术的迅猛发展，使人类社会进入到数字信息时代。

在此社会背景下，人们对语音识别技术的实际需求愈发迫切，这极大地促进了语音识别技术的不断深入和发展，使语音识别系统从实验室走向实用，从而不断出现利用现语音识别技术的产品[3]。

　语音识别技术的应用主要有以下两个方面。

一是用于人机交流。

目前这方面应用的呼声很高,因为使用键盘、鼠标与电子计算机进行交流的这种方式,使许多非专业人员,特别是不懂英语或不熟悉汉语拼音的人被拒之于门外,影响到电子计算机的进一步普及。

语音识别技术的采用,改变了人与计算机的互动模式,人们只需动动口,就能打开或关闭程序,改变工作界面。

这种使电脑人性化的结果是使人的双手得到解放,使每个人都能操作和应用计算机。

电话仍是目前使用最为普遍的通信工具,通过电话与语音识别系统的协同工作,可以实现语音拨号、电话购物以及通过电话办理银行业务、炒股、上网检索信息或处理电子件等。

不久,能按主人口令接通电话、打开收音机,以及通过声纹识别来者身份的安全系统也将获得应用。

语音识别技术的另一方面应用便是语音输入和合成语音输出。

现在,已经出现能将口述的文稿输入计算机并按指定格式编排的语音软件,它比通过键盘输入在速度上要提高2～4倍。

装有语音软件的电脑还能通过语音合成把计算机里的文件用各种语言“读”出来,这将大大推进远程通信和网络电话的发展。

在现阶段,语音技术主要用于电子商务、客户服务和教育培训等领域,它对于节省人力、时间,提高工作效率将起到明显的作用。

能实现自动翻译的语音识别系统目前也正在研究、完善之中[4]。

1.3我国的语音识别发展

我国的语音识别系统的研究起步比较晚，但也取得了很好的成绩，研究水平也从实验室逐步走向实用。

从1987年开始执行国家863计划后，国家863智能计算机专家组为语音识别技术研究专门立项，每两年滚动一次。

我国PC机语音识别技术的研究水平己经基本上与国外同步，在汉语语音识别技术上还有自己的特点与优势，但独立开发的专用汉语语音识别芯片还是较少，多数都是与国外研究机构合作开发研制的。

本文的主要工作：

（1）本文在阐述语音信号处理知识、语音识别原理及SPCE061A单片机主要特点的基础上，进行语音识别及LCD显示的系统硬件和软件设计；

（2）依据设计任务的要求，连接硬件电路；

（3）对语音识别系统以及LCD的组合后，采用凌阳公司的集成开发环境µ

’nSPIDE进行软件的编译、链接、下载与仿真调试，最终实现语音控制及显示的功能。

2.语音处理与识别技术基础

2.1概述

语音是语言的声学表现，是人类交流信息最自然、最有效、最方便的手段，也是人类进行思维的一种依托。

人类进入信息时代以后，用现代手段研究语音处理技术，使人们能更加有效地产生、传输、存储和获取语言信息，这对于促进社会的发展具有十分重要的意义。

语音识别以语音为研究对象，它是语音信号处理的一个重要研究方向，是模式识别的一个分支，涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域，甚至还涉及到人的体态语言（如人在说话时的表情、手势等行为动作可帮助对方理解），其最终目标是实现人与机器进行自然语言通信。

2.2语音信号处理技术

语音信号分析是语音信号处理的前提和基础，只有分析出代表语音信号本质特征的参数，才有可能利用这些参数进行高效的语音识别处理。

根据分析方法不同可将语音信号分析分为模型分析法和非模型分析法。

对于嵌入式语音识别系统采用依据模型进行分析的线性预测分析是比较好的。

在对语音信号分析之前应将语音信号进行前端处理，其中包括语音的数字化、滤波、预处理等，这为语音信号特征提取和语音识别打基础。

2.2.1滤波与A/D转换

滤波的目的有两个：

（1）抑制输入信号各分量中频率超出的所有分量（为采样频率），以防止混叠干扰。

（2）抑制50Hz的电源工频干扰。

滤波器必须是一个带通滤波器。

为了减少硬件设备，可以采用数字滤波器。

A/D转换器是将原始的模拟语音信号变为数字信号，从而得到时间和幅度上均为离散的数字语音信号。

A/D转换时采样频率的选择很重要，它关系到采样过程中是否会丢失信息，在语音信号处理中，采样频率通常为7-l0kHz。

由此可见，选择的A/D转换器性能的好坏对语音信号的处理也是很重要的[3]。

2.2.2语音信号识别技术

从图2.1中可以看出语音识别一般分两个步骤：

第一步是系统“学习”或“训练”阶段。

这一阶段的任务是建立识别基本单元的声学模型以及进行文法分析的语言模型，即构建参考模式库；

第二是“识别”或“测试”阶段。

根据识别系统的类型选择能够满足要求的一种识别方法，采用语音分析方法分析出这种识别方法所需求的语音特征参数，按照一定的准则和测度与参考模式库中的模型进行比较，通过判决得出结果[4]。

数字语音输入

预处理

特征提取

模式识别

训练

模式库

语音识别结果

图2.1语音识别系统基本原理框图

其中：

﹡预处理

包括预加重、加窗分帧、端点检测等处理过程，在预处理之前还有语音信号的数字化处理过程，其中包括反混叠滤波、模/数转换、自动增益等用以去除声门激励、口鼻辐射、高于1/2采样率高频和噪声信号的影响，实现语音信号的数字化。

﹡特征提取

经过预处理后的语音信号，要对其进行特征提取，去除对语音识别无关紧要的冗余信息，获得影响语音识别的重要信息，即特征参数分析。

该过程就是从原始语音信号中抽取能够反映语音本质的特征参数，形成特征矢量序列。

目前语音识别所用的特征参数主要有两种类型：

线性预测倒谱系数（LPCC）和美尔频标倒谱系数（MFCC）。

LPCC系数主要模拟人的发声模型，未考虑人耳的听觉特性。

它对元音有较好的描述能力，而对辅音描述能力差。

其优点为计算量小，比较彻底地去掉了语音产生过程中的激励信息，易于实现。

MFCC系数考虑到了人听觉特性，并具有很高的鲁棒性和抗噪声能力，但因为提取MFCC参数要在频域处理，计算傅立叶变换将耗费大量宝贵的计算资源。

因此，语音识别系统中一般都选用LPCC系数[2]。

语音特征提取是分帧提取的，每帧特征参数一般构成一个矢量，因此，语音特征是一个矢量序列。

该序列的数据率一般可能太高，不便于其后的进一步处理，为此，有必要采用很有效的数据压缩技术方法对数据进行压缩。

矢量量化就是一种很好的数据压缩技术[4]。

﹡参考模式库

参考模式库是将一个或多个说话者的多次重复的语音参数经过训练得到的。

它是声学参数模板。

建立参考模式库是在系统使用前获得并存贮起来的。

参考模式库的建立的过程称为训练过程。

﹡模式匹配

模式匹配是将输入的待识别的语音特征参数同训练得到的参考语音模式进行逐一比较分析，获得最佳匹配的参考模式形成识别结果。

目前常用的语音识别算法主要有：

动态时间归正技术（DTW）、隐马尔可夫模型（HMM）和人工神经元网络（ANN）。

2.3语音识别系统的分类

语音识别系统的分类方式如下：

﹡根据对说话人说话方式的要求，可以分为孤立字语音识别系统，连接字语音识别系统以及连续语音识别系统。

﹡根据对说话人的依赖程度可以分为特定人语音识别（SD）和非特定人语音识别（SI）系统。

﹡根据词汇量大小，可以分为小词汇量（1-20个词）、中等词汇量（20-1000个词）、大词汇量（大于1000个词）以及无限词汇量语音识别系统。

﹡按照说话环境，可分为隔音间、计算机房、公共场所等。

﹡按照传输系统，可分为高质量话筒、听讲话筒或电话。

﹡按照语识别层次分，可分为语音识别、语义识别、语法识别。

﹡按照语音输入格式，可分为约束格式、自由格式识别系统。

不同的语音识别系统，虽然具体实现细节有所不同，但所采用的基本技术相似。

3硬件总体设计

3.1凌阳61单片机概述

SPCE061A是台湾凌阳科技公司研制的一个16位架构的微控制器。

它的内核采用凌阳公司最新推出的MicrocontrollerandSignalProcessor（简称µ

’nSP™）16位微处理器芯片。

SPCE061A既具有体积小、集成度高、可靠性好的特点，又具有较强的中断处理能力、高性价比和功能强、效率高的指令系统及低功耗、低电压的特点。

因此，SPCE061A微控制器是适用于数字语音识别应用领域产品的一种最经济的选择[5]。

3.11主要性能

▲16位µ

’nSP™微处理器；

▲工作电压（CPU）VDD为2.4-3.6V（I/O）VDDH为2.4-5.5V；

▲CPU时钟：

0.32MHz-49.152MHz；

▲内置2kSRAM；

▲内置32kFLASH；

▲可编程音频处理；

▲晶体振荡器；

▲系统处于备用状态下（时钟处于停止状态），耗电仅为2µ

A@3.6V；

▲2个16位可编程定时器/计数器（可自动预置初始计数值）；

▲2个10位DAC（数-模转换）输出通道；

▲32位通用可编程输入/输出端口；

▲14个中断源可来自定时器A/B，时基，2个外部时钟源输入，键唤醒；

▲具备触键唤醒的功能；

▲使用凌阳音频编码SACM-S240方式（2.4kb/s），能容纳210秒的语音数据；

▲锁相环PLL振荡器提供系统时钟信号；

▲32768Hz实时时钟；

▲7通道10位电压模-数转换器（ADC）和单通道声音模-数转换器；

▲声音模-数转换器输入通道内置麦克风放大器和自动增益控制（AGC）功能；

▲具备串行设备接口；

▲具有低电压复位（LVR）功能和低电压监测（LVD）功能；

▲内置在线仿真电路ICE（In-CircuitEmulator）接口；

▲具有保密能力；

▲具有WatchDog功能。

3.1.2SPLC061A结构

SPCE061A的结构如图3.1所示：

16位微控制器µ

’nSP™+ICE

FLASH

RAM

锁相环振荡器

CPU时钟

实时时钟

低电压监测/低电压复位

双16位定时器/计数器

时基

中断控制

7通道10位ADC

单通道ADC+AGC

双通道10位ADC

串行输入输出接口

32管脚输入输出端口

IOB0（SCK）

IOB1（SDA）

IOA15-0

IOB15-0

ICE_EN

ICE_SCK

ICE_SDA

Vcp

XI/R

MIC_IN

AUD1

AUD2

图3.1SPCE061A结构图

3.1.3芯片的引脚排列和说明

SPCE061A有两种封装片：

一种为80个引脚，LQFP80封装，它的排列如图3.2所示；

另一种为84个引脚，PLCC84封装形式，它的排列如图3.3所示。

实物如图3.4所示[6]。

图3.2SPCE061ALQFP80封装排列图

图3.3SPCE061APLCC84封装排列图

在PLCC84封装中，有15个空余脚，用户使用时这15个空余脚悬浮。

在LQFP80封装中有9个空余脚，用户使用时这9个空余脚接地。

表3.1以LQFP80封装管脚功能介绍。

表3.1LQFP80管脚描述表

管脚名称

管脚编号

类型

描述

IOA[15：

46-39

输入输出

8]：

双向IO端口

IOA[7：

34-27

0]：

通过编程，可设置成唤醒脚

IOA[6：

与ADCLine-in输入共用

IOB[15：

11]

IOB10

IOB9

IOB8

IOB7

IOB6

IOB5

IOB4

IOB3

IOB2

IOB1

IOB0

50-54

输入输出输入输出

11]：

双向IO端口。

IOB10-0除用做作普通的IO端口，还可作为：

IOB10：

通用异步串行数据发送管脚Tx

IOB9：

TimerB脉宽调制管脚BPWMO

IOB8：

TimerA脉宽调制管脚APWMO

IOB7：

通用异步串行数据发送管脚Rx

IOB6：

IOB5：

外部中断源EXT2的反馈管脚

IOB4：

外部中断源EXT1的反馈管脚

IOB3：

外部中断源EXT2

IOB2：

外部中断源EXT1

IOB1：

串行接口的数据传送管脚

IOB0：

串行接口的时钟信号

DAC1

输出

DAC1数据输出管脚

DAC2

DAC2数据输出管脚

X321

输入

32768Hz晶振输入管脚

X320

32768Hz晶振输出管脚

VCOIN

PLL的RC滤波器连接管脚

AGC

AGC的控制管脚

MICN

麦克风的负向输入管脚

MICP

麦克风的正向输入管脚

V2VREF

电压源2V产生5mA的驱动电流，可以做外部ADC的Line-in通道的最高参考输入电压，不可作为电压源使用

MICOUT

麦克风1阶放大器输出管脚，管脚外接电阻决定AGC增益系数

OPI

麦克风2阶放大器输入管脚

VEXTREF

ADCLine-in通道的最高参考输入电压管脚

VMIC

买克风电源

VADREF

AD参考电压

VDD

5，69

逻辑电源的正向电压

VSS

10，26，71

逻辑电源和IO的参考地

VDDIO

37，38，56

IO端口的正向电压管脚

VSSIO

35，36，48

IO端口的参考地

AVDD

模拟电路（A/D，D/A）正向电压

AVSS

输

展开阅读全文