智能机器人原理与实践课件第5、6章.pptx

上传人:wj 文档编号:819107 上传时间:2023-04-30 格式:PPTX 页数:152 大小:6.66MB
下载 相关 举报
智能机器人原理与实践课件第5、6章.pptx_第1页
第1页 / 共152页
智能机器人原理与实践课件第5、6章.pptx_第2页
第2页 / 共152页
智能机器人原理与实践课件第5、6章.pptx_第3页
第3页 / 共152页
智能机器人原理与实践课件第5、6章.pptx_第4页
第4页 / 共152页
智能机器人原理与实践课件第5、6章.pptx_第5页
第5页 / 共152页
智能机器人原理与实践课件第5、6章.pptx_第6页
第6页 / 共152页
智能机器人原理与实践课件第5、6章.pptx_第7页
第7页 / 共152页
智能机器人原理与实践课件第5、6章.pptx_第8页
第8页 / 共152页
智能机器人原理与实践课件第5、6章.pptx_第9页
第9页 / 共152页
智能机器人原理与实践课件第5、6章.pptx_第10页
第10页 / 共152页
智能机器人原理与实践课件第5、6章.pptx_第11页
第11页 / 共152页
智能机器人原理与实践课件第5、6章.pptx_第12页
第12页 / 共152页
智能机器人原理与实践课件第5、6章.pptx_第13页
第13页 / 共152页
智能机器人原理与实践课件第5、6章.pptx_第14页
第14页 / 共152页
智能机器人原理与实践课件第5、6章.pptx_第15页
第15页 / 共152页
智能机器人原理与实践课件第5、6章.pptx_第16页
第16页 / 共152页
智能机器人原理与实践课件第5、6章.pptx_第17页
第17页 / 共152页
智能机器人原理与实践课件第5、6章.pptx_第18页
第18页 / 共152页
智能机器人原理与实践课件第5、6章.pptx_第19页
第19页 / 共152页
智能机器人原理与实践课件第5、6章.pptx_第20页
第20页 / 共152页
亲,该文档总共152页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

智能机器人原理与实践课件第5、6章.pptx

《智能机器人原理与实践课件第5、6章.pptx》由会员分享,可在线阅读,更多相关《智能机器人原理与实践课件第5、6章.pptx(152页珍藏版)》请在冰点文库上搜索。

智能机器人原理与实践课件第5、6章.pptx

智能机器人原理与实践,机器人的视觉功能在于识别环境、理解人的意图并完成工作任务。

机器人的视觉技术包括:

给定图像的检测与跟踪、多目视觉与距离测量、时序图像检测运动并跟踪、主动视觉等。

5智能机器人的视觉,5.1机器视觉基础理论,5.1.1理论体系,

(1)计算理论层是视觉信息处理的最高层次是抽象的计算理论层次,它回答系统各个部分的计算目的和计算策略。

(2)表达与算法层是要进一步回答如何表达视觉系统各部分的输入、输出和内部的信息,以及实现计算理论所规定目标的算法。

(3)硬件实现层要回答的是“如何用硬件实现各种算法”。

机器视觉研究可以分为如下五大研究内容:

1、低层视觉2、中层视觉3、高层视觉4、输入设备5、体系结构,1.图像多义性不同形状的三维物体投影在图像平面上可能产生相同图像。

不同形状的三维物体投影在图像平面上可能产生相同图像,如图所示。

5.1.2关键问题,2.环境因素影响照明、物体形状、表面颜色、摄像机以及空间关系变化都会对获取的图像有影响,几个立方体构成的多义性图像如图所示。

3.知识导引同样的图像在不同的知识导引下,将会产生不同的识别结果。

不同的知识导引也可能产生不同的空间关系。

4.大数据灰度图像、彩色图像、高清图像、深度图像、图像序列的信息量会非常大,需要很大的存贮空间和计算处理能力。

5.2成像几何基础,成像系统即是将三维场景变换成二维灰度或彩色图像。

这种变换可以用一个从三维空间到二维空间的映射来表示:

简单的三维图形获取过程如图所示。

5.2.1基本术语,1.投影平面几何投影的分类如图所示。

2.投影中心,3.投影线与投影面,4.投影变换透视投影和平行投影分别如图所示。

5.2.2透视投影,1.透视现象,2.透视投影成像模型,5.2.3平行投影,平行投影也称为正交投影,是指用平行于光轴的光将场景投射到图像平面上。

5.2.4视觉系统坐标变换,1.坐标系

(1)像素坐标

(2)图像平面坐标(3)摄象机坐标(4)场景坐标,2.齐次坐标考虑对笛卡尔空间内点P分别进行旋转、平行移动、放大、缩小,对应的射影空间内PpPp的变换操作可用44矩阵来作为P的齐次坐标的线性变换:

p=pTi式中Pp表示P点变换后,对应在射影空间内的点。

1)旋转变换空间内物体绕x、y、z轴旋转角度,对应的变换矩阵Ti可表示为:

2)平移变换空间内物体在x、y、z方向平移(h,k,l),对应的变换矩阵Ti可表示为:

3)扩大、缩小变换空间内物体以原点为中心,在x、y、z轴方向扩大或者缩小mx、my、mz倍,或者全体的1/mw倍,则对应的变换矩阵Ti可表示为:

三维空间中,以某一个视点为中心往二维平面上投影的过程称为透视变换。

如图所示,这种将平面上的图形投影到另一图像平面上这一过程称作“配景映射”。

5.2.5射影变换,三维空间的坐标系规定为现实世界坐标,称为实坐标或者世界坐标。

三维空间中,三维物体的投影和图像化过程如图所示。

5.3图像的获取和处理,5.3.1成像模型成像系统的建模是建立摄像机成像面坐标与客观三维场景的对应关系。

1.成像坐标变换,1)图像坐标系摄像机采集的图像以MxN的二维数组存储的。

如图所示,在图像上定义的直角坐标系中,坐标系原点位于图像的左上角,图像坐标系的坐标(u,v)是以像素为单位的坐标。

2)成像平面坐标系若原点q在uv坐标系中的坐标为(u0,v0),每一个像素在x轴与y轴方向上的物理尺寸为dx,dy,则图像中任意一个像素在两个坐标系下的坐标关系:

3)摄像机坐标系摄像机坐标系是以摄像机为中心制定的坐标系。

摄像机成像几何关系如图所示:

4)世界坐标系设三维空间中任意一点P在世界坐标系的齐次坐标为xw,yw,zw,1T,在摄像机坐标系下的齐次坐标为xc,yc,zc,1T,则摄像机坐标系与世界坐标系的关系:

2.摄像机小孔成像模型实际成像系统应采用透镜成像原理,物距u、透镜焦距f、象距v三者满足如下关系:

3.摄像机非线性成像模型由于实际成像系统中存在着各种误差因素,如透镜像差和成像平面与光轴不垂直等,这样像点,光心和物点只同一条直线上的前提假设不再成立,这表明实际成像模型并不满足线性关系,而是一种非线性关系。

尤其在使用广角镜头时,在远离图像中心处会有较大的畸变,如图所示。

像点不再是点P和O的连线与图像平面的交点,而是有了一定的偏移,这种偏移实际上就是镜头畸变。

4.摄像机的标定1)传统标定方法传统的标定方法采用一个标定块(高精度的几何物体)的精确数据与摄像机获得的标定块图像数据进行匹配,求取摄像机的内部参数。

2)自标定方法相机自标定是指仅通过相机运动所获取的图像序列来标定内部参数,而不需要知道场景中物体的几何数据。

5.3.2图像处理,视觉传感系统图像处理的一般流程如图所示:

1.图像预处理图像预处理的目的就是增强图像,以便为后续过程做好准备。

1)图像平滑2)图像灰度修正,2.图像分割图像分割就是把图像分成各具特征的区域并提取出感兴趣目标的技术和过程,这里的特征可以是灰度、颜色、纹理等。

图像分割可被粗略分为三类:

(1)基于直方图的分割技术(阈值分割、聚类等);

(2)基于邻域的分割技术(边缘检测、区域增长);(3)基于物理性质的分割技术(利用光照特性和物体表面特征等)。

3.特征提取特征提取就是提取目标的特征,也是图像分析的一个重点。

最常见的图像特征包括:

线段、区域和特征点。

点特征提取主要是明显点,如角点,圆点等。

4.图像识别根据预定的算法对图像进行图像识别,或区分出合格与不合格产品,或给出障碍物的分类,或给出定量的检测结果。

5.4智能机器人的视觉传感器,视觉传感器一般由图像采集单元、图像处理单元、图像处理软件、通信装置、I/O接口等构成,如图所示。

5.4.1照明系统,照明系统的主要任务是以恰当的方式将光线投射到被测物体上,从而突出被测特征部分的对比度。

照明系统直接关系到检测图像的质量,并决定后续检测的复杂度。

5.4.2光学镜头,镜头是视觉传感系统中的重要组件,对成像质量有着关键性的作用。

1镜头的分类根据焦距能否调节,镜头可分为定焦距镜头和变焦距镜头两大类。

2镜头的选择方法镜头主要性能指标如下:

1)最大像场2)清晰场3)有效场在选取镜头时,一般从以下几个方面入手进行考虑:

1)相机CCD尺寸2)所需视场3)景深4)畸变,3特殊镜头针对一些特殊的应用要求,在设计机器视觉系统时,我们还可以选择一些特殊的光学镜头来改善检测系统的性能,常用的特殊镜头有:

1)显微镜头2)远心镜头3)紫外镜头和红外镜头,4接口镜头与摄像机之间的接口有许多不同的类型,工业摄像机常用的包括C接口、CS接口、F接口、V接口等。

5.4.3摄像机,摄像机是机器视觉系统中的一个核心部件,其功能是将光信号转变成有序的电信号。

摄像机以其小巧、可靠、清晰度高等特点在商用与工业领域都得到了广泛地使用。

1.类型1)CCD摄像机和CMOS摄像机2)线阵式和面阵式摄像机,2.摄像机的主要性能指标

(1)分辨率

(2)像素深度(3)最大帧率/行频(4)曝光方式和快门速度(5)像元尺寸(6)光谱响应特性,5.4.4图像处理器,一般嵌入式系统可以采用的处理器类型有:

专用集成电路(ASIC)、数字信号处理器(DSP)及现场可编程逻辑阵列(FPGA)智能相机中最常用的处理器是DSP和FPGA。

5.5智能机器人视觉系统,5.5.1智能机器人视觉系统构成人眼的深度感知能力(DepthPerception),主要依靠人眼的如下几种机能:

(1)双目视差

(2)运动视差(3)眼睛的适应性调节(4)视差图像在人脑的融合(5)其它因素。

立体视觉系统可以划分为以下六个模块:

1.图像采集2.摄像机标定3.特征提取4.立体匹配5.三维重建6.机器人视觉伺服,5.5.2单目视觉,单目测距原理:

焦距为f的CCD摄像机距离地面的高度为h,其俯仰角度为;O0是镜头中心;O(x0,y0)是光轴与像平面的交点,可作为像平面坐标系原点;R为目标物体,假设被测点为P,它与镜头中心的水平距离为d;P(x,y)是被测点P在像平面上的投影,如下图所示。

国际仿人机器人奥林匹克竞赛高尔夫比赛项目示意图如图所示,机器人配备了一只CMOS摄像头。

根据上述原理,可以通过二维图像获取深度信息。

具体步骤如下:

(1)通过摄像机标定来获取摄像机的参数;

(2)实时获取摄像机的俯仰角;(3)选取目标物体的目标像素点。

(4)通过正运动学原理建模获取机器人当前的摄像头的实时高度;(5)计算距离。

5.5.3立体视觉,1.平行式立体视觉模型最简单的摄像机配置,如图所示。

在水平方向平行地放置一对相同的摄像机,其中基线距B=两摄像机的投影中心连线的距离,摄像机焦距为f。

前方空间内的点,分别在“左眼”和“右眼”成像,它们的图像坐标分别为,。

1)几何关系现两摄像机的图像在同一个平面上,则特征点P的图像坐标Y坐标相同,即,则由三角几何关系得到:

2)性能分析双目立体成像的视场关系如下图所示。

3)立体视觉测量过程立体视觉的测量过程如下:

(1)图像获取

(2)相机标定(3)图像预处理和特征提取(4)立体匹配(5)深度确定,4)立体视觉的关键技术视差本身的计算是立体视觉中最困难的一步工作,它涉及模型分析、摄像机标定、图像处理、特征选取及特征匹配等过程。

特征匹配的本质就是给定一幅图像中的一点,寻找另一幅图像中的对应点。

它是双目立体视觉中最关键、最困难的一步。

2.汇聚式立体视觉模型一般情况下,汇聚式立体视觉采用如图所示的任意放置的两个摄像机来组成双目立体视觉系统。

3.多目立体视觉模型多个摄像机设置于多个视点,观测三维对象的视觉传感系统称为多目视觉传感系统。

多目视觉传感系统能够在一定程度上弥补双目视感系统的技术缺陷,获取了更多的信息,增加了几何约束条件,减少了视觉中立体匹配的难度,但结构上的复杂性也引入了测量误差,降低了测量效率。

5.5.4主动视觉与被动视觉,1.被动视觉视觉系统接收来自场景发射或反射的光能量,形成有关场景光能量分布函数,即灰度图像,然后在这些图像的基础上恢复场景的深度信息。

最一般的方法是使用两个相隔一定距离的摄像机同时获取场景图像来生成深度图。

另一种方法是一个摄象机在不同空间位置上获取两幅或两幅以上图像,通过多幅图像的灰度信息和成象几何来生成深度图。

2.主动视觉主动视觉强调以下两点:

(1)视觉系统应具有主动感知的能力

(2)视觉系统应基于一定的任务或目的。

5.5.5移动机器人系统实例,1.双目视觉实例基于双目视觉的移动机器人系统框架图如图所示。

图中系统主要分为计算机视觉和机器人控制两部分。

2.Kinect立体视觉实例,5.6视觉跟踪,早期机器视觉系统主要针对静态场景。

移动机器人视觉技术必须研究用于动态场景分析的机器视觉系统。

视觉跟踪是根据给定的一组图像序列,对图像中物体的运动形态进行分析,从而确定一个或多个目标在图像序列中是如何运动的。

5.6.1视觉跟踪系统,1.视觉跟踪系统构成根据摄像机与场景目标的运动状态,可以分为以下四类:

(1)摄像机静止/目标静止

(2)摄像机静止/目标运动(3)摄像机运动/目标静止(4)摄像机运动/目标运动,移动机器人视觉跟踪系统流程及结构如图所示。

2.视觉跟踪算法及性能要求对常用视觉跟踪算法进行了总结分类,如图所示。

5.6.2基于对比度分析的目标追踪,基于对比度分析的的目标追踪是利用目标与背景在对比度上的差异来提取、识别和跟踪目标。

检测图像序列相邻两帧之间变化的最简单方法是直接比较两帧图像对应像素点的灰度值在这种最简单的形式下,帧f(x,y,j)与帧f(x,y,k)之间的变化可用一个二值差分图像表示,如图所示。

帧差法的处理流程如图所示。

5.6.3光流法,光流法是基于运动检测的目标跟踪代表性算法。

光流是空间运动物体在成像面上的像素运动的瞬时速度,光流矢量是图像平面坐标点上的灰度瞬时变化率。

光流的计算是利用图像序列中的像素灰度分布的时域变化和相关性来确定各自像素位置的运动。

1)基本原理给图像中的每一像素点赋予一个速度向量,就形成了图像运动场。

在运动的一个特定时刻,图像上某一点Pi对应三维物体上某一点P0,这种对应关系可以由投影方程得到。

如上图所示,设物体上一点P0相对于摄像机具有速度V0,从而在图像平面上对应的投影点Pi具有速度Vi。

在时间间隔t时,点P0运动了V0t,图像点Pi运动了Vit。

速度可由下式表示:

2)特点光流法能够很好的用于二维运动估计,也可以同时给出全局点的运动估计,但其本身还存在着一些问题:

需要多次迭代,运算速度慢,不利于实时应用。

5.6.4基于匹配的目标跟踪,1.基本原理基于匹配的目标跟踪算法需要提取目标的特征,并在每一帧中寻找该特征。

寻找的过程就是特征匹配过程。

目标跟踪中用到的特征主要有几何形状、子空间特征、外形轮廓和特征点等。

其中,特征点是匹配算法中常用的特征。

特征点的提取算法很多,如KanadeLucasTomasi(KLT)算法、Harris算法、SIFT(尺度不变特征变换)算法以及SURF算法等。

2.算法步骤大多数特征跟踪算法的执行都遵循如图5.40所示的目标预测一特征检测一模板匹配一更新四个步骤的闭环结构。

5.6.5Meanshift目标跟踪,1基本原理Meanshift算法称为均值偏移方法,其基本思想是对相似度概率密度函数或者后验概率密度函数采用直接的连续估计。

MeanShift跟踪算法采用彩色直方图作为匹配特征,反复不断地把数据点朝向MeanShift矢量方向进行移动,最终收敛到某个概率密度函数的极值点。

核函数是MeanShift算法的核心,可以通过尺度空间差的局部最大化来选择核尺度,若采用高斯差分计算尺度空间差,则得到高斯差分MeanShift算法。

2.算法步骤与粒子滤波跟踪不同,MeanShift算法属于基于特征模板匹配的确定性跟踪方法。

颜色分布特征对非刚体目标和目标旋转形变保持较强的鲁棒性,因此常被选择作为目标模板的描述。

在起始图像开始,通过手工选择方式确定运动目标的特征模板,并计算该搜索窗口的核函数加权直方图分布。

假定目标模板为以x0为中心的区域A,颜色分布离散为mbins,将像素xi处的像素颜色值量化并将其分配到相应的bin,则对于中心在x0的目标模板的颜色直方图分布表示为,其中:

式中,a表示区域A的面积,为A中的点集,另外,为直方图函数,核函数k(.)为单调递减的凸函数,用来为目标区域内的n个像元分配权值系数,常用的核为Epanechnikov核,C为规范化常数,保证。

同样方法,在当前图像中,中心为y的候选目标区域D的颜色直方图分布可以描述为,其中:

在实际跟踪中,参考模板与候选模板的相似关系通常利用颜色概率分布P与q(y)之间的Bhattacharyya系数来度量,即:

则Bhattacharyya距离d可通过下式计算:

MeanShift算法基于两个分布的相似度(即Bhattacharyya系数)最大化准则,使搜索窗口沿梯度方向向目标真实位置移动。

在初始时刻,确定初始帧中目标的窗口位置x0,以此窗口作为特征模板,利用上式计算其颜色直方图分布。

在开始跟踪的后续各时刻,MeanShift跟踪算法迭代过程如下:

Step1:

以上一时刻的跟踪中心作为当前帧候选目标区域的中心,计算颜色直方图分布,估计其与特征模板的Bhattacharyya系数。

Step2:

计算候选区域内各像素点的权值:

Step3:

计算目标的新位置:

Step4:

计算新位置的颜色直方图分布,并估计其与特征模板的Bhattacharyya系数。

Step5:

判断,若,则。

Step6:

判断。

若,则跳出循环;否则,令,返回Step1。

3.算法特点

(1)MeanShift算法法就是沿着概率密度的梯度方向进行迭代移动,最终达到密度分布的最值位置。

(2)MeanShift算法基于特征模板的直方图,假定了特征直方图足够确定目标的位置,并且足够稳健,对其他运动不敏感。

该方法可以避免目标形状、外观或运动的复杂建模,建立相似度的统计测量和连续优化之间的联系。

5.7主动视觉,主动视觉(activevision)理论最初由宾西法尼亚大学的R.Bajcsy于1982年提出。

主动视觉强调在视觉信息获取过程中,应能主动地调整摄像机的参数、与环境动态交互,根据具体要求分析有选择地得到视觉数据。

显然,主动视觉可以更有效地理解视觉环境.,1.主动视觉的控制机构1)根据环境控制视觉传感器2)根据环境控制光源2.主动视觉与传感器融合1)竞争融合2)互补融合3.主动视觉的实时性1)实时视觉2)实时视觉系统的构成方法,5.8视觉伺服,视觉伺服是利用机器视觉的原理,直接基于图像反馈信息,快速进行图像处理,在尽量短的时间内给出控制信号,构成机器人的位置闭环控制。

5.8.1视觉伺服系统的分类,1.根据摄像机的数目分类1)单目视觉2)双目视觉3)多目视觉2.根据摄像机放置位置分类1)固定摄像机系统2)手眼视觉,3.根据误差信号分类1)基于位置的视觉伺服2)基于图像的视觉伺服3)混合视觉伺服方法,5.8.2视觉伺服的技术问题,图像处理,包括特征的选择及匹配,仍然是视觉伺服在实际应用中的瓶颈问题。

而对于特征的选择和匹配,如何提高其鲁棒性仍然是面临的主要问题。

多视觉信息融合的方法以及自动特征选择的方法具有良好的发展前景。

视觉伺服所面临的主要问题主要有以下两方面:

1.稳定性2.实时性,5.9视觉导航,1.被动视觉导航被动视觉导航是依赖于可见光或不可见光成像技术的方法。

CCD相机作为被动成像的典型传感器,广泛应用于各种视觉导航系统中。

2.主动视觉导航主动视觉导航是利用激光雷达、声纳等主动探测方式进行环境感知的导航方法。

例如,1997年着陆的火星探路者号使用编码激光条纹技术进行前视距离探测,可靠地解决了未知环境中的障碍识别问题。

5.9.2视觉导航中的摄像机数目,1.单目视觉导航单目视觉的特点是结构和数据处理较简单,研究的方向集中在如何从二维图像中提取导航信息,常用技术有阈值分割、透视图法等。

(1)基于阈值分割模型的导航通过对机器人行走过程中采集到的灰度图像计算出合适的阈值进行分割,将图像分为可行走和不可行走区域,从而得出避障信息进行导航。

(2)基于单摄像机拍摄的图像序列的导航利用透视图法,通过不断地将目标场景图像与单摄像机拍摄到的图像相比较,计算两者之间的联系,进而确定向目标行进的动作参数。

2.立体视觉导航一个完整的立体视觉系统分为图像获取、摄像机标定、特征提取、立体匹配、深度确定及内插重建等几部分。

立体匹配是立体视觉中最困难的一步。

立体匹配方法必须解决三个问题:

正确选择图像的匹配特征;寻找特征间的本质属性;建立正确的匹配策略。

5.9.3视觉导航中的地图依赖性,1.基于地图的导航基于地图的导航是发展较早的机器人导航方法。

自然地标和人工地标是地标跟踪的两个分类。

(1)自然地标导航算法使用相关性跟踪选定的自然景物地标,通过立体视觉信息计算机器人自身的位置,并在机器人行进中逐步更新景物地标。

(2)人工地标视觉导航通过机器人识别场景中的交通标志,得出所处的位置、与目的地的距离等信息。

2.地图生成型导航地图生成型导航系统通过感知周围环境,并在线生成某种表示的导航地图,较好地解决了未知环境中同时完成实时定位、绘图和自定位任务的问题。

同时定位和绘图方法(SLAM:

SimultaneousLocalisationandMapping)也称为CML(ConcurrentMappingandLocalization),即时定位与地图构建,或并发建图与定位。

SLAM问题可以描述为:

机器人在未知环境中从一个未知位置开始移动,在移动过程中根据位置估计和地图进行自身定位,同时在自身定位的基础上建造增量式地图,实现机器人的自主定位和导航。

3.无地图导航无地图导航方法不需要对环境信息进行全面描述。

光流法、基于特征跟踪基于模板的导航方法是无地图视觉导航方法的主要研究方向。

(1)光流法。

通过机器人视场中固定特征的运动变化情况来估计机器人的运动。

选择图像中有价值的特征点计算光流,可在保证运动估计精度的前提下降低计算量。

随着计算能力的显著提高,基于光流法的视觉导航法获得了较快的发展。

(2)基于特征跟踪的视觉导航方法。

通过跟踪图像序列中的特征元素(角、线、轮廓等)获取导航信息。

(3)基于模板的导航方法。

使用预先获得的图像为模板,而模板与位置信息或控制指令相对应,导航过程中用当前图像帧与模板进行匹配,进而获取导航信息。

第6章智能机器人的语音合成与识别,语言是人类最重要的交流工具,自然方便、准确高效。

让机器与人之间进行自然语言交流是智能机器人领域的一个重要研究方向。

语音识别和语音合成技术、自然语言理解是建立一个能听会讲的口语系统,从而实现人机语音通信所必需的关键技术。

语音合成与识别技术涉及语音声学、数字信号处理、人工智能、微机原理、模式识别、语言学和认知科学等众多前沿科学,是一个涉及面很广的综合性科学,其研究成果对人类的应用领域和学术领域都具有重要的价值。

近年来,语音合成与识别取得显著进步,逐渐从实验室走向市场,应用于工业、消费电子产品、医疗、家庭服务、机器人等各个领域。

图6.1语音合成技术原理示意图,6.1语音合成的基础理论,语音合成是指由人工通过一定的机器设备产生出语音。

具体方法是利用计算机将任意组合的文本转化为声音文件,并通过声卡等多媒体设备将声音输出。

简单的说,就是让机器把文本资料“读”出来。

由图6.1可知,语音合成系统完成文本到语音数据的转化过程中可以简单分为两个步骤:

(1)文本经过前端的语法分析,通过词典和规则的处理,得到格式规范,携带语法层次的信息,传送到后端。

(2)后端在前端分析的结果基础上,经过韵律方面的分析处理,得到语音的时长、音高等韵律信息,再根据这些信息在音库中挑选最合适的语音单元,语音单元再经过调整和拼接,就能得到最终的语音数据。

6.1.1语音合成分类1.波形合成法波形合成法是一种相对简单的语音合成技术,它把人发音的语音数据直接存储或进行波形编码后存储,根据需要进行编辑组合输出。

这种语音合成系统只是语音存储和重放的器件,往往需要大容量的存储空间来存储语音数据。

波形合成法适用于小词汇量的语音合成应用场合,如自动报时、报站和报警等。

2.参数合成法参数合成法也称为分析合成法,只在谱特性的基础上来模拟声道的输出语音,而不考虑内部发音器官是如何运动的。

参数合成方法采用声码器技术,以高效的编码来减少存储空间,是以牺牲音质为代价的,合成的音质欠佳。

3.规则合成方法规则合成方法通过语音学规则产生语音,可以合成无限词汇的语句。

合成的词汇表不是事先确定,系统中存储的是最小的语音单位的声学参数,以及由音素组成音节、由音节组成词、由词组成句子和控制音调、轻重音等韵律的各种规则。

6.1.2常用语音合成技术1、共振峰合成法习惯上,把声道传输频率响应上的极点称之为共振峰。

语音的共振峰频率(极点频率)的分布特性决定着语音的音色。

共振峰合成涉及共振峰的频率、带宽、幅度参数和基音周期等相关参数。

要产生可理解的语音信号,至少要三个共振峰;要产生高质量合成语音信号,至少要由五个共振峰。

基于共振峰合成方法主要有以下三种实用模型:

1)级联型共振峰模型在该模型中,声道被认为是一组串联的二阶谐振器,共振峰滤波器首尾相接,其传递函数为各个共振峰的传递函数相乘的结果。

五个极点的共振峰级联模型传递函数为:

(6.1),即:

(6.2)式中,G为增益因子。

一个五个极点的共振峰级联模型如图6.2所示:

图6.2共振峰级联模型,2)并联型共振峰模型在并联型模型中,输入信号先分别进行幅度调节,再加到每一个共振峰滤波器上,然后将各路的输出叠加起来。

其传递函数为:

(6.3)上式可分解成以下部分分式之和(6.4)其中,为各路的增益因子。

下图就是一个M=5的

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > IT计算机 > 电脑基础知识

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2