基于单片机语音录放管理.docx
《基于单片机语音录放管理.docx》由会员分享,可在线阅读,更多相关《基于单片机语音录放管理.docx(39页珍藏版)》请在冰点文库上搜索。
基于单片机语音录放管理
目录
1.绪论……………………………………………………………………………4
2.数字化语音录放系统方案设计及其工作流程………………………………5
2.1语音信号………………………………………………………………………5
2.2数字音频信号…………………………………………………………………6
2.3语音编码………………………………………………………………………8
2.4数字化语音系统方案设计…………………………………………………10
2.4.1对数字化语音系统的要求………………………………………………10
2.4.2数字化语音系统的方案设计……………………………………………11
2.5数字化语音系统的工作流程………………………………………………11
2.5.1录音系统…………………………………………………………………11
2.5.2手持端放音系统…………………………………………………………13
3.数字化语音系统的硬件设计…………………………………………………14
3.1低通滤波器…………………………………………………………………14
3.2语音输入通道………………………………………………………………15
3.3电源模块……………………………………………………………………16
3.4控制电路……………………………………………………………………16
4.数字化语音录放系统的软件设计……………………………………………17
4.1软件设计要点………………………………………………………………18
4.2软件开发工具………………………………………………………………19
4.3录放系统……………………………………………………………………19
4.4手持端放音系统……………………………………………………………21
结论………………………………………………………………………………23
参考文献…………………………………………………………………………24
致谢………………………………………………………………………………25
1.绪论
1)国内外研究现状目前:
国内外己有一些电子解说系统的产品。
部分国外产品体积、性能指标较好,但价格昂贵,根据功能不同每套接收系统的价格约20-80美元,发射系统从300-800美元不等。
另一些产品要么体积太大,不便于携带;要么容量不够,存储信息不多,制约了其应用和推广。
在相同功能下,其价格比国内产品要贵近两倍。
国内有雷通电子公司、中科软件公司、久鼎公司、那达电子、奔流电子公司等单位生产类似产品,但存在以下问题:
①相邻区域的干扰问题:
在展台与展台间距离较近时,不能很好地处理切换问题,产生较大的相互干扰,影响收听音质;
②缺乏个性化:
大多采用集中循环播放方式,无法根据观众,游客不同到达时间自动从起点开始播放,因而常常无法得到完整的信息,花费的时间太多;
③可供用户选择的语言较少,不能满足扩大对外交流的要求;
④不能实现自动功率控制,因而产品的功耗较大,不利于环保;
⑤存储容量太小,存储信息不够;
⑥部分产品采用光波传输编码和语音信息,存在覆盖阴影和信息阻挡等问题;
⑦还有部分产品采用手动控制选择方式,使用不便。
C语言的出现使操作系统开发变得简单。
从上世纪80年代开始,出现了各种各样的商用嵌入式操作系统百家争鸣的局面,比较著名的有VxWorks,PSOS和WindowsCE等等,这些操作系统大部分是为专有系统而开发的。
另外,源代码开放的嵌入式Linux,由于其强大的功能和低成本,近来也得到了越来越多的应用。
而数字化的语音系统则是采用数字技术对传统模拟语音系统的革新,它将先进的语音压缩编码技术、数字化存储技术和数字控制技术结合起来,彻底解决了传统存储介质的弱点(如磁带容易磨损,语音失真等,存储介质体积偏大等),其优良的控制性能是传统语音系统不可比拟的。
把嵌入式系统技术与语音系统数字化技术相结合,就构成了基于嵌入式的数字化语音系统,它在便携式语音设备、移动办公设备、信息家电、智能设备、语音服务系统等领域有着广泛的应用。
目前,国内外基于嵌入式的数字化语音系统己有着广泛的应用。
国外许多著名公司如TI公司、OKI公司、MAX公司等,都提出了自己的数字化语音系统解决方案,国内也有不少公司完成了数字化语音系统的实现。
数字化语音系统主要的实现方式有以下几类:
①采用专用处理芯片进行控制和编、解码,外接大容量存储器,最常见的是便携式数字化语音播放器,如MP3播放机等。
其优点在于语音播放质量较高,存储容量较大,控制功能较强,并可通过外接计算机进行数据更新。
但缺点是专用处理芯片通用度不高,很难进行扩展开发;容易受到技术封锁;在数据存储或数据转录时需要计算机进行辅助工作,系统复杂度较高。
②采用专用的语音压缩编解码芯片和通用控制芯片。
其优点在于使用硬件对语音进行编码和解码,编解码速度较快;具备一定的控制功能。
但缺点是存储语音数据的容量不大;而且语音数据一般固化在存储器上,不可以进行即时动态更新;采用硬件编解码,使得系统用途单一,不利于进一步改进,缺乏灵活性和广泛的适应性。
③采用DSP芯片。
由于DSP芯片的强大功能,其优点在于使用软件对语音进行编码和解码,编解码方式较为灵活,编解码的速度也较快,具备较强的控制功能。
但缺点在于存储语音数据的容量不大,难以适应海量信息存储的要求,DSP芯片的价格较高,开发难度较大。
2)论文的研究内容和目的:
智能无线电子解说系统主要由两部分组成,第一、无线区域识别;第二、基于嵌入式的数字化语音系统。
本文主要完成的是第二部分工作。
总结国内外已有的数字化语音录放系统的缺点,大致可以归结为:
①系统复杂度较高;
②需计算机进行辅助工作;
③采用硬件编解码,系统用途单一,不利于进一步改进、更新,缺乏灵活性和广泛的适应性;
④存储语音数据的容量不大。
把嵌入式系统技术与语音系统数字化技术相结合,就构成了基于嵌入式的数字化语音系统,它在便携式语音设备、移动办公设备、信息家电、智能设备、语音服务系统等领域有着广泛的应用。
2数字化语音录放系统方案设计及其工作流程
2.1语音信号
语言是从历史中概括总结出来地规律性地符号系统,是人们用以进行思维、交际的方式。
声音是语言的物质形式,语音是语言的物质外壳、信息的载体。
携带语言信息的语音声波就是语音信号。
经过声电转换就形成语声的电信号,而经过声光转换就形成语声的光信号。
在现代技术条件下,主要是语声电信号。
声音是携带信息的极其重要的媒体。
声音的强弱体现在声波压力的大小上,音调的高低体现在声波的频率上。
对声音信号的分析表明,声音信号由许多频率不同的信号组成,这类信号称为复合信号。
声音信号的一个重要参数就是带宽,它用来描述组成复合信号的频率范围。
声音信号的两个基本参数是频率和幅度。
对于频率为几Hz到20Hz的声音信号,人们无法听到,这个频率范围内的信号称为次音信号,高于20kHz的信号称为超声波信号。
人的发音器官发出声音的频率大约是80-3400Hz,但人说话的频率通常为300-3000Hz,人们把这种频率范围的信号称作话音信号。
一般来说,人的听觉器官能够感知的声音频率大约在20-20000Hz之间,在这频率范围内能够感知的声音的幅度大约在0-12dB之间。
2.2数字音频原理
用于记录、复制、存储、处理和传输数字音频信号的数字技术中,需要运用一些与模拟音频不同的方法。
由于初始的音频信号是模拟的,数字系统要采样和量化来对音频信号进行变换,数字化实际上就是模拟信号的采样和量化。
声音数字化需要解决两个问题:
采样频率和量化精度。
采样频率由采样定理给出,即采样频率应该大于原始信号最高频率的两倍。
样本比特数的大小影响到声音的质量,位数越多,声音质量越高,但需要的存储空间也越多;位数越少,声音质量越低,需要的存储空间就越少。
1)采样:
初始的音频信号是模拟信号,它等效为一个连续的时变函数,而采样则是在定义域上对连续信号进行离散化。
信号经过采样后进行数字化处理和传输,最终又由数字信号变为模拟信号输出。
这样就提出了一个问题:
原始信号的采样频率应该满足什么条件才能够使采样信号经处理后不失真。
针对这个问题,奈奎斯特提出:
要保证从模拟信号抽样后的离散信号无失真地恢复原始信号(即采样不会导致任何信息丢失),必须满足:
采样频率至少是原始信号最高频率的两倍。
如果音频频率高于奈奎斯特频率,就会发生混叠。
实际的采样信号并不是理想的,f(t)是有限的时间函数,它的频谱成分不可能完全地限制在Fm内,所以利用采样信号恢复的信号难免有失真,真正应该考虑的问题是如何使失真控制在允许的范围内,通常的方法是:
①在采样之前加截止频率为Fm的低通滤波器,滤除高于Fm的频谱成分,从而消除混叠现象和避免由此引起的失真。
当然,这必须是Fm以内己经包含有信号的主要频谱,滤除的频谱是可以略去的部分;
②由于输出端的低通滤波器不可能做成理想的,特别是在截止频率Fm附近,与理想的特性相差甚大。
为了防止因减弱幅度和相位不理想造成的失真,通常选择的实际采样频率略高于奈奎斯特频率。
例如:
语音信号的频率通常为300-3400Hz,对语音信号的采样频率不取7000Hz,而通常取8000Hz。
③实际的采样信号不可能是单位冲激脉冲,在输出端需要对信号进行校正。
2)量化:
模拟信号经采样后得到的是时间离散幅度连续的信号,我们通常叫PAM信号(脉冲幅度信号)。
量化便是使PAM信号幅度离散化,量化工作通常由量化器完成。
量化器允许的最大输入信号幅度称为工作范围,它根据量化的具体要求,把工作范围内的信号值分成N个量化级或量化区间,每个量化级用一个数值表示,叫做量化值。
在每一个量化区间内的PAM信号均由该区间内的量化值表示,这样,PAM信号就被量化成了N个量化值。
量化特性一般具有奇对称关系。
量化的作用是用量化值来代替实际的PAM信号值,显然这种代替是存在误差的。
以下为对均匀量化和非均匀量化的分析:
①均匀量化
设量化级数为N,输出信号功率为
,则量化的信号噪声功率比为:
其中n=
,即为量化的比特数。
以下是几种常见信号的量化信噪比:
正弦信号:
均匀分布信号:
正态分布信号:
对电话信号,在电话局内测定其动态范围一般为40dB,通常SNR应为20-30dB才能保证满意的通话质量。
在最小信号时,SNR应为20-30dB;在最大信号SNR应为60-70dB,对具有正态分布的电话信号而言,可计算出n=11-13,即用线性量化器对声音信号编码,一般要用12bit的均匀量化器。
这样,在采样频率为8kHz时,均匀量化器输出的信号速率为96kbps。
根据数字基带传输中奈奎斯特准则可知:
要求传输信道的带宽不小于48kHz。
②非均匀量化
均匀量化简单、直观,但由于其对所有量化级的量化最大误差是一致的,所以对小信号采用均与量化会产生较大的量化信噪比。
为保证小信号有较高的信噪比,同时量化级又不要过多,可以采用非均匀量化的方法。
实际电话信号具有随机性,它有一定概率的信号会超过工作电压,小信号时以量化噪声功率为主;大信号时以过载量化噪声功率为主。
为了保证电话通信语音质量高的前提下,尽量降低信息速率,压缩传输频带,从量化器设计角度看,人们提出了对数量化等多种非均匀量化的方法。
实现非均匀量化的方案有两种:
第一种方法是把输入信号X先进行一次非线性变换Z=f(x),再进行均匀量化,最后在接收端进行逆变换
恢复原信号;第二种方法是把瞬时压缩与编码结合起来,一次实现非线性编码。
通常使用第一种方法作理论分析,第二种方法作实际应用。
最佳非均匀量化是指在最佳压缩特性f(x)的情况下,其量化噪音。
取最小值。
根据计算分析,当输入信号均方差偏离
变动时(
为最佳压缩特性时的信号有效值),
急剧下降。
尽管在最佳压缩特性下,信噪比最大值可达35.5dB,但信噪比大于20dB
的动态范围还不到20dB,不能满足电话语音的要求。
考虑到量化器输入工作的动态范围为40dB左右,按照在动态范围内量化噪音率的信噪比尽可能平稳的设计量化器。
对数压缩特性相当于对输入信号的小信号的放大倍数大,而对大信号的放大倍数小,从而压缩了信号的动态范围。
理想的对数放大是无法实现的,CCITTG.711建议给出了国际上通用的两种对数压缩特性,即13折线A律和15折线
律,它们均使用8bit的对数量化器。
3)编码:
模拟信号在采样和量化后,变成了时间离散、幅度离散的数字信号。
通常为了减少量化误差,量化级数仍然是很多的,也就是说量化后得到的数字信号的取值仍然很多,这样的信号对于传输、复制和重建都比较困难。
由于二进制信号具有较多的优越性(这种信号简单、容易产生和再生、功率利用因数及抗干扰性好等),所以通常把各个量化值用二进制码组表示,且选取量化级N=
以便于把量化值用n位二进制码来表示。
通常把量化后的多值信号变为二进制码组的过程叫编码,其逆过程称为解码或译码。
理论上讲,任何一种可逆的二进制码组都可以用于PCM编码常见的二进制编码有以下三种:
①自然二进制码;
②反射二进制码;
③折叠二进制码。
2.3语音编码
语音信号处理的一个重要应用是进行语音编码。
语音编码和语音信号数字化密切相关。
编码一般分为信源编码和信道编码两种。
信源编码的目的是为了提高信号传输和存储的效率,在这里就是指压缩数字语音信号的比特率(传输每秒钟语音信号所需的比特数,通常也称为数码率),使得同样的信道容量可以传送更多的语音信号,同样的存储空间可以存储更多的语音数据。
信道编码则是为了提高传输的可靠性而作的处理。
在智能无线电子解说系统中,对语音信号的编码主要是解决存储容量的问题,所以本文只研究信源编码,不涉及信道编码。
①基本原理
在数字化语音录放系统中,语音信号被编码成二进制数字信号,存储在Flash存储器上,再经解码后恢复成可听懂的语音。
把语音信号编码成二进制数字信号存储有其独特的优点,它可以摆脱在存储过程中的噪声的干扰,便于处理、加密和再生。
存储数字语音信号时,唯一的失真由于模数转换前的低通滤波造成的。
最简单的数字编码方法是对语音信号直接作模数转换,只要取样率足够高,量化每个样本的比特数足够大,就可以保证解码后恢复的语音信号有很好的音质,不会丢失有用信息。
然而对语音信号直接数字化所需的数码率太高,为减少须存储的数据量,必须对数字语音信号进一步作压缩编码。
常用的压缩编码手段有两类:
一类是降低量化每个语音样本比特数,同时保持相对好的语音质量,因为这类技术是针对语音波进行的,常称作“波形编码技术”;另一类是先对数字语音信号进行分析,提取一组特征参数,这些参数携带语音信号的主要信息,对它们只需要较少的比特数编码,在解码后可以由这组参数重新合成出语音信号,这类方法通常也称为“声码技术”。
语音压缩编码的设计必须考虑以下的一些主要的因素:
1)输入语音信号的特点;
2)压缩比的要求;
3)对输出语音的音质要求;
4)系统的实现及其代价。
一般说来,输入信号的性质是预先知道的,因此,总希望系统在尽可能小的代价下,满足3,4的要求。
各种语音编码技术比较参见表2.1
表2.1语音编码技术比较表
编码
速率
最小基带宽度kHz
质量
PCM
64
32
长途电话质量
ADPCM
32
16
长途电话质量
△M
32
16
通信质量
SBC+ADPCM
64
32
广播质量
SBC
16
8
通信质量
RELP-LTT规则脉冲激励
16
8
通信质量
LD-CELP短延迟码激励
16
8
接近长途
MPLPC多脉冲线性预测
8
4
通信质量
CELPC码本激励线性预测
4.8
2.4
通信质量
LPC线性预测
2.4
1.2
合成质量
LPC十VQ线性预测矢量了量
1.2
0.6
合成质量
②语音信号能进行压缩编码的基本依据有两个:
1)语音信号的产生机理和它的结构性质表明,语音信号里存在很大的剩余度,主要体现在以下几个方面:
第一:
语音信号样本间相关性很强,也就是说,其短时谱是不平坦的;
第二:
浊音语音段具有准周期性;
第三:
声道的形状及其变化的速率是有限的;
第四:
码值的概率分布是非均匀的。
语音压缩的本质就是通过识别这些剩余度并设法去掉它们,从而达到压缩比特率的目的。
2)利用人类听觉的功能特点是语音压缩编码的第二个途径。
例如,人类听觉中有一个重要的特点,就是听觉“掩蔽”现象,一个强音能抑制一个同时存在的弱音,利用这个特性可以抑制与信号同时存在的量化噪声。
③两种编码方法的比较
从方法上,语音信号的编码大致可以分为:
波形编码方法和分析合成方法。
对两种编码方法的具体比较见表2.2:
表2.2语音编码方法比较表
编码方法
波形编码
分析合成编码
编码信息
波形
短时谱包络和音源信息
比特率
9.6-64kbs(中宽带)
0.8-4.8kbps(窄带)
语音质量
高质量电话系统语音
合成语音的自然度、可懂度较差,不保留人讲话的特征
主要问题
受量化噪声的限制,降低比特率很困难。
语音质量较差,受噪声和误码的影响很大,算法复杂。
典型方式
时域:
PCM,ADPCM,APC
频域:
SBC,ATC
通道声码器,共振峰声码器,同声码器,线性预测(LPC)声码器
2.4数字化语音系统方案设计
为满足智能无线解说系统的需要,本文需要设计两个数字化语音系统:
一个是录音系统,另一个是手持端放音系统。
2.4.1对数字化语音系统的要求
根据语音信号的处理原理和编解码协议,全盘综合考虑系统的实现,对放音系统提出的要求如下:
①能够对录音数据进行文件管理;
②能够实现大容量数据的存储;
③能够实现语音压缩编码进行解码;
④能够高速地从录音系统进行数据接收;
⑤能够自动实现低功耗切换,节约能量;
⑥能够实现用户的个性化服务;
⑦能够通过操作选择语种,调节音量;
⑧能够确认用户位置信息,并根据用户位置播放相应的内容;
⑨具有保护功能,在系统运行故障或死机时提供系统复位。
2.4.2数字化语音系统的方案设计
根据上述的要求,本文提出了录音系统与手持端放音系统的系统设计方案,其总体框架如图2.1和图2.2所示:
①录音系统设计方案
录音系统采用Ti公司的MSP430F149单片机为系统核心,它的主要功能包括:
利用片内的ADC12模块将输入的语音信号量化为12bit的二进制码组;实现PCM编码;控制Flash存储器的读写,将压缩编码后的结果存入Flash存储器:
实现基于嵌入式系统的文件系统,对录音数据进行文件管理:
接收外部控制信号,根据外部控制信号进行操作;控制液晶显示模块,显示操作提示和系统工作状态,便于管理操作;将录音数据按文件格式传送给手持端放音系统;控制Flash的读写,在本机经由语音输出通道播放录入的录音数据,以便及时查询录音效果。
Flash存储器采用三星公司的K9F5608UOC(32M),它的主要功能是存储录音数据。
液晶显示模块采用北京青云创新科技发展有限公司生产的LCM12864ZK,它的功能是显示操作提示和系统工作状态。
控制键盘和控制按钮的主要功能是控制系统操作。
D/A转换器、低通滤波器和功放构成语音输出通道,播放录音。
低通滤波器构成语音输入通道,限制输入语音信号的带宽。
电源模块将外接电源转变为3.3伏的电压供给内部的各个需要供电的模块。
②放音系统设计方案
手持端放音系统采用TI公司的MSP430F135单片机为系统核心,它的主要功能包括:
接收从录音系统传送过来的录音数据,将数据存入Flash存储器;根据从收发模块接收到的控制信号决定播放的内容;从Flash存储器中读出要播放的数据,并进行PCM解码,经由语音输出通道播放录音;接收外部控制信号,选择语言种类和控制音量大小。
Flash存储器采用三星公司的K9F5608UOC(32M),它的主要功能是存储录音数据。
控制按钮的主要功能是控制系统操作。
2.5数字化语音系统的工作流程
本文设计的两个数字化语音系统,其工作流程分别阐述如下:
2.5.1录音系统
录音系统的工作主要由三部分组成:
录音,放音和传送数据。
图2.1录音系统框架图
①录音
根据控制键盘和控制按钮的操作,确定待录音的文件名,然后开始录音;语音信号经低通滤波器滤波后,从MSP430F149的A/D通道A0输入,利用片内的ADC12转换模块将输入的语音信号量化为12bit的二进制编码,将所得的二进制编码右移四位,即得到S位语音线性PCM编码;并将该编码按一定的文件系统格式要求存入Flash存储器;由控制按钮确定录音结束后,对最后一个Flash块的空余处填写0,并将新文件名及相关信息存入文件系统的系统区。
根据控制键盘和控制按钮的操作,本录音系统可以按要求删除某一个文件;还可以按要求进行格式化,首先擦除Flash存储器的所有块,然后初始化文件系统的系统区;也可以维护文件,按文件系统信息对Flash存储器作块擦除。
本录音系统不支持对文件的修改操作。
②放音
根据控制键盘和控制按钮的操作,确定待放音的文件名;然后根据待放音的文件名,确定以什么顺序从Flash存储器中读出哪些块上的数据;将读出的数据从语音输出通道输出,播放语音。
D/A转换器、低通滤波器和功放构成语音输出通道,播放录音。
电源模块将外接电源转变为3.3伏的电压供给内部的各个需要供电的模块。
③数据传送
根据控制键盘和控制按钮的操作,确定录音端和手持端准备好传送数据后,首先将文件系统的系统区中的文件相关信息传递过去,然后按文件顺序将所有的录音数据传送过去。
图2.2手持端放音系统框架图
2.5.2手持端放音系统
手持端的系统主要由两大部分构成,一是放音系统;二是无线区域识别系统。
无线区域识别系统的主要功能是确定手持端位于哪一个区域,将相应的区域代码发送给放音系统,放音系统根据区域代码播放相应的解说词(无线区域识别系统不是本文研究的范围)放音系统的工作主要由数据接收和放音两部分组成,分别阐述如下:
①数据接收
确定录音端和手持端准备好传送数据后,首先对手持端的录音系统进行格式化,擦除Flash存储器的所有块后初始化文件系统的系统区;然后接收发送端文件系统的系统区中的文件相关信息;按文件顺序将所有的录音数据接收过来,并依照顺序存储在Flash存储器中;最后根据新的文件信息更新文件系统的系统区。
②放音
根据无线区域位置识别系统传送过来的区域代码,确定待放音的文件名;然后根据待放音的文件名,确定以什么顺序从Flash存储器中读出哪些块上的数据;将读出的数据从语音输出通道输出,播放语音。
在播放语音时,根据控制按钮的操作,选择语言种类和控制音量大小。
3数字化语音录放系统的硬件设计
3.1低通滤波器
由第二章的论述可知,在语音信号的输入通道和输出通道上均需要使用低通滤波器。
由于人的语音信号的频率范围是300-3400Hz,所以本文选择的低通滤波器的截止频率为3.4kHz,具体的电路设计如图3.1所示:
选择
,
,
其截止率为(
其中
);偏置电压为1.25伏。
图3.1二阶低通滤波器设计图
理想低通滤波器的通带衰减为0dB,过渡带宽为0Hz,阻带衰减为
。
但是,实际使用的低通滤波器不可能达到这样的技术指标,在截止频率附近的幅频特性离理想状况相距甚远。
在实际工作中,所使用的低通滤波器的阶数越高,其幅、相频特性与理想的低通滤波器的逼近程度就越好。
所以在本数字化语音系统中,输入通道的低通滤波器选择二阶低通滤波器,输出通道的低通滤波器选择四阶低通滤波器(将两个如图3.1所示的二阶低通滤波器连接即得四阶低通滤波器)。
3.2语音输入通道
录音系统的语音输入通道由低通滤波器和A/D转换器构成,将低通滤波器的输出与A/D转换器的