物体识别过程.doc - 冰点文库

资源描述

物体识别过程.doc

《物体识别过程.doc》由会员分享，可在线阅读，更多相关《物体识别过程.doc（6页珍藏版）》请在冰点文库上搜索。

物体识别过程.doc

在计算机视觉领域，一个典型的物体识别系统往包含以下几个阶段：

预处理，特征提取，特征选择，建模，匹配，定位。

1.2.3预处理

预处理几乎是所有计算机视觉算法的第一步，其动机是尽可能在不改变图像承载的本质信息的前提下，使得每张图像的表观特性（如颜色分布，整体明暗，尺寸大小等）尽可能的一致，以便于之后的处理过程。

预处理有生物学的对应。

瞳孔，虹膜和视网膜上的一些细胞的行为类似于某些预处理步骤，如自适应调节入射光的动态区域等等。

预处理和特征提取之间的界线不完全分明。

有时两者交叉在一起。

它主要完成模式的采集、模数转换、滤波、消除模糊、减少噪声、纠正几何失真等预处理操作。

因此也要求相应的设备来实现。

预处理经常与具体的采样设备和所处理的问题有关。

例如，从图象中将汽车车牌的号码识别出来，就需要先将车牌从图像中找出来，再对车牌进行划分，将每个数字分别划分开。

做到这一步以后，才能对每个数字进行识别。

以上工作都应该在预处理阶段完成。

从理论上说，像预处理这种先验式的操作是不应该有的。

因为它并不为任何目的服务，所以完全可以随意为之而没有“应该怎么做”的标准，大部分情况下预处理是看着实验结果说话。

这是因为计算机视觉目前没有一个整体的理论框架，无法从全局的高度来指导每一个步骤应该如何进行。

在物体识别中所用到的典型的预处理方法不外乎直方图均衡及滤波几种。

像高斯模糊可以用来使得之后的梯度计算更为准确；而直方图均衡可以克服一定程度的光照影响。

值得注意的是，有些特征本身已经带有预处理的属性，因此不需要再进行预处理操作。

预处理通常包括五种基本运算：

（1）编码：

实现模式的有效描述，适合计算机运算。

（2）阀值或者滤波运算：

按需要选出某些函数，抑制另一些。

（3）模式改善：

排除或修正模式中的错误，或不必要的函数值。

（4）正规化：

使某些参数值适应标准值，或标准值域。

（5）离散模式运算：

离散模式处理中的特殊运算。

2.4特征提取

特征提取的目的是从模式样本中提取能代表该模式特有的性质。

这是模式分类中最关键的一步，但又是最难以控制的一步。

其准则是提取尽量少的特征，而能使分类的误差最小。

但随之而来就有了矛盾，特征提取在分类之前完成，事先并不知道哪些特征能使分类误差最小，目前还无法解决这个矛盾。

特征提取负责从图像中得到重要的信息以交给下一层使用，而忽略不太重要的信息。

特征提取的设计关键点在于在“哪里提取特征”及“提取什么特征”。

对于“在哪里提取特征”这个问题，有两种答案。

某些系统仅在那些“应该提取”的地方提取特征，以保证得到的特征都是有效的，同时处理时间不会太长。

为此就必须设计“兴趣点检测器”以在真正提取特征之前找到那些位置。

此类检测器的设计思路是希一望这些点在仿射变换下保持不变，这样就能获得对于扭曲及光线变化的鲁棒性。

另一些系统则采用密集采样方式，对于图像上的每一个点都进行特征提取。

前一种方式具有效率高的特点，然而如何选取兴趣点检测器本身就是一个相当艰难的任务，并且会给系统引入不适当的先验，使得最终结果随着被测物体类别的不同会有偏离，与物体识别的精神不相符合；后一种方式速度是其较大的问题。

对于“提取什么特征”这个问题，答案则要丰富许多。

对于局部特征，已开

发的系统中已存在很多可用的。

局部特征也可以分为“形状（Shape）”及“材质（Texture）”两类。

这两类特征编码本质上不同的信息，有不同的能力。

形状特征，如线段，曲率，其具有的一大特性是对于光照及形变的不变性，然而同时也有提取时间长及对遮挡敏感的缺点，某些方法由于数学上的限制，无法用于自相交或者非闭合曲线等等在自然图像中司空见惯的情况。

另一方面，一些材质特征，如图像小块，小波系数等等，提取时间相对较短，并且对于遮挡的抵抗强些，但是缺乏各方面的不变性；还有一些材质特征如直方图，则具有相当强的变换不变性，但代价是丢失了空间信息。

近年来，子空间方法，如主成分分析（PCA），辨别成分分析（LDA），也成为一种相对重要的特征提取手段。

这种方法将图像拉长成为高维空间的向量，并进行奇异值分解以得到特征方向。

人脸识别便是其较为成功的应用范例。

此类方法能处理有全局噪声的情况，并且模型相当简单易实现；然而这种算法割裂了图像的内部结构，因此在本质上是非视觉的，模型的内在机制较难令人理解，也没有任何机制能消去施加于图像上的仿射变换。

2.2图像特征提取方法

图像特征提取就是提取出一幅图像中不同于其他图像的根本属性，以区别不同的图像。

如灰度、亮度、纹理和形状等等特征都是与图像的视觉外观相对应的；而还有一些则缺少自然的对应性，如颜色直方图、灰度直方图和空间频谱图等。

基于图像特征进行物体识别实际上是根据提取到图像的特征来判断图像中物体属于什么类别。

形状、纹理和颜色等特征是最常用的视觉特征，也是现阶段基于图像的物体识别技术中采用的主要特征。

下面分别介绍一下图像的形状、纹理和颜色特征的提取方法。

2.2.1图像形状特征提取

形状特征是反映出图像中物体最直接的视觉特征，大部分物体可以通过分辨其形状来进行判别。

所以，在物体识别中，形状特征的正确提取显得非常重要。

常用的图像形状特征提取方法有两种：

基于轮廓的方法和基于区域的方法。

这两种方法的不同之处在于：

对于基于轮廓的方法来说，图像的轮廓特征主要针对物体的外边界，描述形状的轮廓特征的方法主要有：

样条、链码和多边形逼近等；而在基于区域的方法中，图像的区域特征则关系到整个形状区域，描述形状的区域特征的主要方法有：

区域的面积、凹凸面积、形状的主轴方向、纵横比、形状的不变矩等。

这些关于形状的特征目前已得到了广泛的应用。

典型的形状特征描述方法有：

边界特征法，傅里叶形状描述符法，几何参数法，形状不变矩法。

2.2.2图像纹理特征提取

图像的纹理是与物体表面结构和材质有关的图像的内在特征，反映出来的是图像的全局特征。

图像的纹理可以描述为：

一个邻域内像素的灰度级发生变化的空间分布规律，包括表面组织结构、与周围环境关系等许多重要的图像信息。

典型的图像纹理特征提取方法有：

统计方法，几何法，模型法，信号处理法。

典型的统计方法是灰度共生矩阵纹理特征分析方法，几何法是建立在基本的纹理元素理论基础上的一种纹理特征分析方法，模型法是将图像的构造模型的参数作为纹理特征，而信号处理法主要是小波变换为主。

2.2.3图像颜色特征提取

图像的颜色特征描述了图像或图像区域的物体的表面性质，反映出的是图像的全局特征。

一般来说，图像的颜色特征是基于像素点的特征，只要是属于图像或图像区域内的像素点都将会有贡献。

典型的图像颜色特征提取方法有：

颜色直方图，颜色集，颜色矩。

颜色直方图是最常用的表达颜色特征的方法，它的优点是能简单描述图像中不同色彩在整幅图像中所占的比例，特别适用于描述一些不需要考虑物体空间位置的图像和难以自动分割的图像。

而颜色直方图的缺点是它无法描述图像中的某一具体的物体，无法区分局部颜色信息。

颜色集可以看成是颜色直方图的一种近似表达。

具体方法是：

首先将图像从RGB颜色空间转换到视觉均衡的颜色空间;然后将视觉均衡的颜色空间量化;最后，采用色彩分割技术自动地将图像分为几个区域，用量化的颜色空间中的某个颜色分量来表示每个区域的索引，这样就可以用一个二进制的颜色索引集来表示一幅图像。

颜色矩方法是基于图像中任何的颜色分布都可以用相应的矩来表示这个数学基础上的。

由于颜色分布信息主要集中在低阶矩中，因此，表达图像的颜色分布仅需要采用颜色的一阶矩、二阶矩和三阶矩。

1.2.5特征选择

再好的机器学习算法，没有良好的特征都是不行的;然而有了特征之后，机器学习算法便开始发挥自己的优势。

在提取了所要的特征之后，接下来的一个可选步骤是特征选择。

特别是在特征种类很多或者物体类别很多，需要找到各自的最适应特征的场合。

严格地来说，任何能够在被选出特征集上工作正常的模型都能在原特征集上工作正常，反过来进行了特征选择则可能会丢掉一些有用的特征；不过由十计算上的巨大开销，在把特征放进模型里训练之前进行特征选择仍然是相当明智的。

1.2.6建模

一般物体识别系统赖以成功的关键基础在于，属于同一类的物体总是有一些地方是相同的。

而给定特征集合，提取相同点，分辨不同点就成了模型要解决的问题。

因此可以说模型是整个识别系统的成败之所在。

对于物体识别这个特定课题，模型主要建模的对象是特征与特征之间的空间结构关系；主要的选择准则，一是模型的假设是否适用于当前问题；二是模型所需的计算复杂度是否能够承受，或者是否有尽可能高效精确或者近似的算法。

2.7匹配

在得到训练结果之后（在描述、生成或者区分模型中常表现为一簇参数的取值，在其它模型中表现为一组特征的获得与存储），接下来的任务是运用目前的模型去识别新的图像属于哪一类物体，并且有可能的话，给出边界，将物体与图像的其它部分分割开。

一般当模型取定后，匹配算法也就自然而然地出现。

在描述模型中，通常是对每类物体建模，然后使用极大似然或是贝叶斯推理得到类别信息；生成模型大致与此相同，只是通常要先估出隐变量的值，或者将隐变量积分，这一步往往导致极大的计算负荷；区分模型则更为简单，将特征取值代入分类器即得结果。

1.2.8定位

在成功地识别出物体之后，对物体进行定位成为进一步的工作。

一些模型，如描述生成模型，或是基于部分的模型天生具有定位的能力，因为它们所要处理的对象就是特征的空间分布，而特征包方法相对较难定位，即使是能定位，准确程度也不如前者。

不过近年来经过改进的特征包方法也可以做相当精确的定位。

一部分是因为图像预分割及生成模型的引入，另一部分则归功于一些能够对特征包得到的特征进行重构的方法。

1.2.6分类器

分类器是模式识别中研究最成熟的部分。

按特征类型分为数值型分类器和符号型两大类。

数值型分类器包括统计分类器（统计理论为基础）、模糊分类器（模糊集理论为基础）、人工神经元网络（模拟生物神经系统的电子系统，也可以用软件在计算机上实现）、人工智能分类器（基于逻辑推理或专家系统结构）。

符号型分类器包括句法分类器（基于句法分析和自动机理论）、人工智能分类器（基于逻辑推理或专家系统结构）。

其中符号型分类器具有更大的灵活性，所以能处理较为复杂的模式分类问题。

但是目前对符号型分类器的研究远没有数值型分类器成熟。

所有模式识别系统都需要经过训练、验证、改进，并反复多次，以完成最终设计。

1.2.7训练

训练时分类器参数必需确定。

为达到客观、公正目的，样本的制备是关键。

至少要满足下列条件：

具有充分的代表性和完备性；独立于系统设计，测试样本要与训练样本相互独立；标准化的设计，标准化的使用规范；权威性。

常见困难是消耗大量时间、金钱和人力。

在图像模式识别的处理过程中，一般主要分为预处理，特征或基元提取，分类训练，分类这几个步骤。

（1）预处理

它主要完成模式的采集、模数转换、滤波、消除模糊、减少噪声、纠正几何失真等预处理操作。

因此也要求相应的设备来实现。

（2）特征或基元提取

特征提取实现由模式空间向特征空间的转换，有效地压缩维数。

一般地说，它该是在一定分类准则下的最佳或次最佳变换器。

模式识别中，分类器的分类规则固然重要，但是，如果所基于的模式特征没有包含足够的待识客体的信息或未能提取反映客体特征的信息，那么，识别的结果将面目全非。

所以说，在设计分类器之前，能够快速、有效地进行特征提取是模式识别的关键。

不幸的是，直到目前为止还没有形成特征提取的一般理论，随着识别任务的不同，特征提取的方法也不一样。

此外，如果待识别的模式样本本身携带反映不同模式本质特性的特征，则特征提取也不一定需要。

（3）分类训练

为了能使分类器有效地进行分类判决，还必须对分类器进行训练（学习）。

分类器的训练学习是模式识别的一个重要概念。

由于我们研究机器的自动识别，对分类器进行训练，使它学会识别，具有自动识别的能力，尤为重要。

众所周知，一个孩子认字尚需一个反复学习过程，何况一部机器要掌握某种判决规则，学习过程更必不可少。

当然，对于不同的分类方法，其学习规则也不一样。

（4）分类

在完成训练的基础上，分类器根据已经确定的判决规则，对未知类别属性的样本执行判决过程，就是说，分类器具有了自动识别的能力。

这是模式识别“出成果”的阶段，直接以其分类结果表明本次识别的结束。

显然，这是举足轻重的阶段，弄得不好，会使前几阶段的工作付诸东流。

展开阅读全文