基于共振峰过渡的协同发音语音合成算法概要.docx

资源描述

基于共振峰过渡的协同发音语音合成算法概要.docx

《基于共振峰过渡的协同发音语音合成算法概要.docx》由会员分享，可在线阅读，更多相关《基于共振峰过渡的协同发音语音合成算法概要.docx（14页珍藏版）》请在冰点文库上搜索。

基于共振峰过渡的协同发音语音合成算法概要.docx

基于共振峰过渡的协同发音语音合成算法概要

第43卷第9期2010年9月天津大学学报JournalofTianjinUniversity

Vol.43No.9Sep.2010

收稿日期:

2009-07-03;修回日期:

2009-11-30.

基金项目:

国家自然科学基金资助项目（60772074.作者简介:

康广玉（1975—,男,博士研究生,讲师.通讯作者:

康广玉,kgycat250318@.

基于共振峰过渡的协同发音语音合成算法

康广玉1,2,郭世泽3,孙圣和1

（1.哈尔滨工业大学自动化测试与控制系,哈尔滨150001;

2.天津工程师范学院自动化系,天津300222;3.中国人民解放军总参54所,北京100001

摘要:

协同发音是音素在语流中受前后音素的影响,而使2个以上音素的发音特征同时出现的现象.大语料库语音拼接算法获得的语音合成效果最好,但录制语料困难、算法复杂、耗费时间,需要占用很大的存储空间,在应用中存在困难.为此,针对小语料库语音合成,提出参数修改和波形拼接相结合的语音合成方法,通过参数修改方法合成协同发音段,再与自然语音进行波形拼接.实验表明,该算法合成的语音效果较好,而且对语料库内容要求较低.关键词:

语音合成;协同发音;共振峰;基频轨迹

中图分类号:

TP391文献标志码:

A文章编号:

0493-2137（201009-0810-05

SpeechSynthesisUsingFormantTransitionBasedCo-Articulation

KANGGuang-yu1,2,GUOShi-ze3,SUNSheng-he1

（1.DepartmentofAutomaticTestandControl,HarbinInstituteofTechnology,Harbin150001,China;

2.DepartmentofAutomationEngineering,TianjinUniversityofTechnologyandEducation,Tianjin300222,China;

3.No.54InstitutefromHeadquartersoftheGeneralStaff,People’sLiberationArmy,Beijing100001,ChinaAbstract:

Co-articulationisthephenomenonofco-occurrenceoftwoormorephonemesfeaturesduetotheeffectof

frontandrearphonemesduringarticulation.Whilethespeechmosaicingalgorithmforthelargespeechdatabaseob-tainsgoodperformanceonspeechsynthesis,itfindsdifficultyinpracticalapplicationresultingfromdifficultyinthecollectionofspeechsamples,thecomplexityofalgorithm,thetimeconsumedandlargestoringspace.Thispaperproposesaspeechsynthesisschemeforsmallspeechdatabasebasedonparameteradjustmentandwavemosaicofspeechband.Theco-articulationspeechbandwasfirstsynthesizedwithparametermodification,andthenmosaicedwithnaturalspeech.Simulationsdemonstratethattheproposedalgorithmperformswellonspeechsynthesisandhaslowerdemandonthesizeofspeechdatabase.

Keywords:

speechsynthesis;co-articulation;formant;pitchtrace

协同发音是指在发音时,音素在语流中受前后音素的影响而使2个以上音素的发音特征同时出现的现象[1].当前音节的结束音素为元音,后音节的起始音素为元音或摩擦音时,就会产生协同发音现象,而其他音素作为音节起始则不会产生协同发音现象,或可以忽略其影响.协同发音时语音在音段方面,表现为共振峰的过渡,在超音段方面,表现为基音频率的过渡,这是说话过程中经常发生的现象.为提供语音拼接合成质量,应考虑协同发音现象.大语料库语音波形拼接算法获得的语音合成效果

最好,在解决协同发音时采用大量录制具有协同发音

的语音,从中选择适当片段进行拼接的方法,但存在录制语料困难、算法复杂、耗费时间,而且需要占用很大的存储空间[2],在应用中存在困难.目前进行小语料库语音合成算法的研究很多,文献[3]提到语音拼接合成系统兼有拼接合成及参数合成的优点,也对相邻音素基音频率进行了一定的修改,保证了基音频率的联续性,但并未考虑相邻音素的协同发音现象,只是简单地将单个音节发音波形直接进行拼接合成得到的合成语音,与实际连续语音往往有着很大的区

2010年9月康广玉等:

基于共振峰过渡的协同发音语音合成算法·811·

别,主要表现在合成基元之间连接处的谱包络、共振峰等声学特性不能很好地还原,导致得到合成语音连续性差、谱包络不能平滑过渡,因而效果不好[1,4].因此,如何在语音合成基元存储容量有限的条件下,进一步提高合成语音的质量一直是波形拼接合成法研究的主要问题.由于发音器官的惯性作用,协同发音词组的共振峰变化和基音频率变化是连续的[4].Matsumoto等[5]研究发现:

不同说话人发同一段语音时,人耳的柯蒂氏器官就是靠感知不同的共振峰频率分布来区分不同的说话人,基音周期与共振峰频率能够表示85%的说话人特征.笔者的语音合成算法主要对这2个方面进行研究.

1协同发音分析

协同发音时语音在音段方面,表现为共振峰的过渡,在超音段方面,表现为基音频率的过渡.“西安”存在协同发音现象,如果不考虑协同发音现象而直接合成,则发音一字一顿,听者明显感觉不自然.如图1和图2所示.

（b语音频谱

图1“西”、“安”单独发音的语谱Fig.1Speechspectrogramofindividualarticulationof“Xi”and“An”

图2“西安”协同发音的语谱Fig.2Speechspectrogramofco-articulationof“Xi’an”

由图2可见,具有协同发音现象的语音可分为2部分,语音稳定段和语音过渡段,语音稳定段共振峰频率基本不变化,而语音过渡段共振峰频率表现为连续平滑过渡到下移音节开始段.

2算法的基本思想

笔者提出一种以音节为合成基元,参数修改与波形拼接结合的语音合成算法.其中包括2个问题:

一是共振峰的修改;二是基音频率的调整.通过对过渡段共振峰的修改和基频轨迹的调整,来合成协同发音段,与自然语音进行波形拼接.

2.1共振峰过渡

1共振峰参数及其提取

共振峰参数是指发浊音时,气流通过声道,引起声道谐振,产生的一组谐振参数（频率、带宽和幅度.这些参数包含在语音频谱包络中,代表了语音信号的短时频谱声学特征,频谱包络的局部最大值就是共振峰.通常在0~5000Hz范围内,有5个共振峰,从中可以提取共振峰频率、共振峰带宽和共振峰幅度.

由线性预测（linearprediction,LP分析导出的声道滤波器是频谱包络估计的有效方法,即近似认为声道滤波器的共轭极点对应频谱包络的最大值,即对应共振峰参数.由线性预测分析可知,声道可近似表示一个全极点滤波器.对于每一帧信号,其传输函数表示为

（

az−

−∑

（1

式中:

G为增益;

a为线性预测系数;P为线性预测阶数.

将式（1分解为

（

（1

−

∑

1（1e（1e

jjj

rzrz

−−

=−−

∑（2求解出声道滤波函数的极点.式（2中:

K为实极点

个数;J为共轭极点对的个数;

r、jr为极点半径;jφ

为极点的相角.设与共轭极点

z对应的共振峰频率

为

F,带宽为jB,幅度为jA.根据文献[6]则有ss

[2π（/2π（/]

ejj

BFFF

z−±

=（3

式中

F表示采样频率.利用式（2和式（3可得共振

·812·天津大学学报第43卷第9期

峰的频率、带宽和幅度分别为s2π

jFFφ=（4

s（ln（/2πjjBrF=−（5

jjAG=（6

2修改共振峰

由于发声器官的惯性作用,协同发音在音节之间形成一个共振峰过渡段,过渡段的前边界各个共振峰的参数（频率、带宽、幅度等于前音节结尾的相应共振峰的参数,而其后边界的各个共振峰的参数等于后音起始的相应共振峰的参数.因此,可以通过对前后共振峰参数进行线性插值的方法来构造音节之间的共振峰过渡段,如图3所示.

图3协同发音共振峰移动示意

Fig.3Schematicofformantsshiftinco-articulations

将前共振峰的参数通过过渡时间达到后音节对

应共振峰参数值,假设在过渡时间内共振峰参数是均匀变化的.根据语速来确定过渡时间,过渡时间一般占音节元音部分的10%~15%,实验采用12%作为过渡时间.

共振峰参数的修改可通过同时在语音谱中加入与原共振峰参数相对应的复零点对iej

mrφ±,以及与修

改后的共振峰参数相对应的复极点对ie

nrφ′±来完

成[7],即

1（（1K

GHzrz=′=+−∑111

（1e（1e

jjjGrzrz−−=⋅−−∑

ii11ii11（1e（1e（1e（1e

jjnnrzrzrzrzφφφφ′

−−−′

′−−−−−−−（7

2.2基音轨迹转换

基音频率0F代表了说话人声音的尖锐和低沉的程度,是短时音段层面上的特征,而基频轨迹（0Ft∼

代表了说话人声音音调随时间的起伏,它反映了一个

人说话时抑扬顿挫的特性,是语音长时超音段的重要特征之一.协同发音段的基频轨迹同样符合说话人的韵律特点,因此,用前后音节的基频轨迹来估计协同发音段的基频轨迹.

基频轨迹的变化不是一个简单的线性过程,而是在基音频率均值附近变化,本文中采用高斯分布来描述这一过程[8].前音节的基音参数为ff（t,通过式（8进行转换得到后音节基音参数,即（（bfftaftb=+（8

式中

a（9bfbaμμ=−（10

式中:

bσ、bμ为后音节基音参数的方差和均值;2fσ、

fμ为前音节基音参数的方差和均值.

合成语音基音频率的修改是通过LP残差的修改来实现的[9],增加LP残差的零点或删除零点来降低和提高基音频率.3实验

3.1实验设置及步骤

实验中所用的说话人语音样本均使用Sennheiser-e828s传声器和Aureon7.1Space专业数字音频卡采集,其采样频率为PCM22.05kHz,16bit量化.录音在普通实验室安静环境下进行.

影响语音能量分布的因素很多,包括话者的年龄、情绪、身体状况、所使用的方言等.实验样本选择了男女各2名、年龄22~24岁身体健康的大学生进行实验,录制了他们在平静时汉语普通话录制汉语平静状态普通话单字发音25组,按本算法合成25个词组.录制文本相同的25个词组的自然发音,作为测听参照.具体实验步骤如图4所示.

图4算法示意

Fig.4Schematicofproposedalgorithm

3.2实验结果

以“西安”为例,用本算法将单独发音合成协同发音.实验结果如图5所示.

2010年9月康广玉等:

基于共振峰过渡的协同发音语音合成算法·813·

（a语音波形

（b语音频谱

图5合成后的语音谱

Fig.5Synthesizedspeechspectrogram

3.2.1主观测听

采用平均意见分（meanopinionscores,MOS方法,在实验中采用了25条平静状态普通话具有协同发音现象的合成词组和25条相同文本内容的自然语音词组,由4名28~33岁说普通话的年轻教师男女各2人进行测听,按照5分制MOS给出其认可的效果打分,5个分制分别为:

5优、4良、3一般、2差、1坏.结果如表1所示.

3.2.2客观评价

采用Itakura距离进行评价,平均Itakura距离[10]为

（e

（,lg

2π

（e

dsk

−π

⎧⎫

⎪⎪

=⎨⎬

⎪⎪

⎩⎭

∑∫（11

式中:

N为源与目标话者共振峰参数动态时间规整（dynamictimewrapping,DTW对齐后的帧数;A为

表1主观测听结果

Tab.1Resultsfromsubjectivetests%方法5分4分3分2分1分拼接平滑算法

同一个人25

个词组发音本文算法

拼接平滑算法

同一个词组不

同人发音本文算法

线性预测系数;s表示源说话人;k指目标说话人.因本算法只对协同发音过渡段进行合成,故只将该段和自然发音过渡段进行比较,先进行动态时间规整.客观评价结果见表2.

表2客观评价结果

Tab.2Resultsfromobjectivetests

方法平均Itakura距离拼接平滑算法0.242

同一个人25个词

组发音本文算法0.162

拼接平滑算法0.237

同一个词组的不同

人发音本文算法0.157

3.3讨论

文献[3]所述算法,音素采用滑动窗平滑,寻找最合适的拼接点,并不对音素进行修改.因而运算速度快,缺点是没有共振峰平滑过渡、效果差.本算法通过计算前后两音素的共振峰参数信息,人工合成一段过渡音,填补的两音素之间,使得音素频谱能量、共振峰平滑过渡,合成效果较好,但计算量大,因而运算速度较慢.

4结语

大语料库语音合成存在录制语料困难、算法复杂、耗费时间,而且需要占用很大的存储空间,在应用中存在困难.通过对汉语中协同发音现象的研究,提出了一种参数修改和波形拼接结合的语音合成方法,在以音节为合成基元的波形拼接算法基础上通过共振峰的修改,合成协同发音音节间过渡段,再与自然语音进行波形拼接.实验表明,结合了波形拼接合成与参数合成方法的优点,能最大限度地使用自然语音进行语音合成,同时运用参数合成的灵活性,因而合成语音的质量比拼接平滑算法有较大提高,对语音库的规模要求较低,是适用于小语料库语音合成的良好算法.

参考文献:

[1]郑玉玲.韵律词边界的协同发音问题[J].清华大学学报:

自然科学版,2008,48（S1:

645-651.

ZhengYuling.Co-articulationattheboundaryofpro-sodicwords[J].JournalofTsinghuaUniversity:

Sci-enceandTechnology,2008,48（S1:

645-651（inChi-nese.

[2]周讯溢,王蓓,杨玉芳,等.语句中协同发音对音节知觉的影响[J].心理学报,2003,35（3:

340-344.ZhouXunyi,WangBei,YangYufang,etal.Theinflu-enceofcoarticulationonsyllableperceptioninutterance

·814·天津大学学报第43卷第9期

[J].ActaPsychologicaSinica,2003,35（3:

340-344（in

Chinese.

[3]尹勇,曹振海,祖漪清.语境相关的音素级语音合成

系统中拼接平滑算法[J].清华大学学报:

自然科学

版,2008,48（S1:

640-644.

YinYong,CaoZhenhai,ZuYiqing.Smoothingalgorithm

forcontextualphoneconcatenationinspeechsynthe-

sis[J].JournalofTsinghuaUniversity:

Scienceand

Technology,2008,48（S1:

640-644（inChinese.[4]ZhengYuling,CaoJianfen,BaoHuaiqiao.Co-articulationandprosodichierarchy[C]//SecondInternationalCon-ferenceonTonalAspectsofLanguages.LaRochelle,France,2006:

145-150.

[5]MatsumotoH,HikiS,SoneT,etal.Multidimensionalrepresentationofpersonalqualityofvowelsanditsacousticalcorrelates[J].IEEETransonAudioandElec-troacoustics,1973,21（5:

428-436.

[6]FuruiS.DigitalSpeechProcessing,Synthesis,andRec-ognition[M].NewYork:

MarcelDekkerInc,1989.[7]蒋丹宁,蔡莲红,陶建华.带有频谱补偿的基频修改算法[J].清华大学学报:

自然科学版,2004,44（7:

974-977.

JiangDanning,CaiLianhong,TaoJianhua.Pitchmodifi-cationalgorithmwithspectralcharacteristiccompensa-tion[J].JournalofTsinghuaUniversiy:

ScienceandTechnology,2004,44（7:

974-977（inChinese.[8]Gutiérrez-ArriolaJM,MonteroJM,VallejoJA,etal.Anewmulti-speakerformantsynthesizerthatappliesvoiceconversiontechniques[C]//ProcEurospeech.Aalborg,Denmark:

ISCA,2001:

357-360.

[9]RaoKS,YegnanarayanaB.Prosodicmanipulationusinginstantsofsignificantexcitation[C]//IntConfAcoustSpeechSignalProcessing.Maryland,USA,2003:

234-238.

[10]RabinerL,JuangB-H.FundamentalsofSpeechRecogni-tion[M].NewJersey:

PrenticeHall,Inc,UpperSaddleRiver,1993.

展开阅读全文