北京邮电大学信息工程学院模式识别实验指导书.docx

资源描述

北京邮电大学信息工程学院模式识别实验指导书.docx

《北京邮电大学信息工程学院模式识别实验指导书.docx》由会员分享，可在线阅读，更多相关《北京邮电大学信息工程学院模式识别实验指导书.docx（23页珍藏版）》请在冰点文库上搜索。

北京邮电大学信息工程学院模式识别实验指导书.docx

北京邮电大学信息工程学院模式识别实验指导书

实验要求：

1、各位同学根据实验要求选作3个实验，如果有能力把选作的一个实验的效果做成flash，可以选作2个实验。

2、请提交实验代码＆实验报告请于12月31日由学习委员收齐交到主楼1015办公室王文华老师处。

3、免费上机的时间是11月24日，12月1日，12月8日，周五上午8：

00－12：

00。

课程名称：

模式识别

适应专业：

信息工程、自动化、信息安全、信息科学、数字媒体艺术

实验学时：

开科学期：

5学期

一、实验的性质、任务和基本要求

（一）实验课的性质

《模式识别》实验课是一门非独立的实验课，是同学对模式识别理论内容进行充分的理解的基础上，根据相应的原理，设计实验内容，完成实验任务，是理论知识实践化的方式，利于学生更好的吸收，领悟模式识别的原理与应用，培养学生的动手实践的能力。

（二）实验课的基本要求

1、理解模式识别的基本概念

2、掌握各种算法的流程，以及相应的优缺点。

3、会使用相应的模式识别分类器等算法处理实验问题。

二、实验的分配情况

序号

实验内容

学时

选作

Bayes分类器算法

必做

Fisher线性分类器设计，

二选一

感知器设计

近邻法

二选一

动态聚类

三、实验内容

一、Bayes分类器设计

1.1实验名称：

Bayes分类器设计

1.2实验目的：

本实验旨在让同学对模式识别有一个初步的理解，能够根据自己的设计对贝叶斯决策理论算法有一个深刻地认识，理解二类分类器的设计原理。

1.3实验条件：

matlab软件

1.4实验原理：

最小风险贝叶斯决策可按下列步骤进行：

（1）在已知P（ωi），P（X|ωi），i=1,…，c及给出待识别的X的情况下，根据贝叶斯公式计算出后验概率：

　j=1,…，x

（2）利用计算出的后验概率及决策表，按式（2-14）计算出采取αi,i=1,…，a的条件风险

i=1,2,…,a

　　（3）对

（2）中得到的a个条件风险值R（αi|X）,i=1,…，a进行比较，找出使条件风险最小的决策αk，即

则αk就是最小风险贝叶斯决策。

1.5实验内容：

假定某个局部区域细胞识别中正常（

）和非正常（

）两类先验概率分别为

正常状态：

P（

）=0.9；

异常状态：

P（

）=0.1。

现有一系列待观察的细胞，其观察值为

：

-3.9847-3.5549-1.2401-0.9780-0.7932-2.8531

-2.7605-3.7287-3.5414-2.2692-3.4549-3.0752

-3.99342.8792-0.97800.79321.18823.0682

-1.5799-1.4885-0.7431-0.4221-1.11864.2532

已知先验概率是的曲线如下图：

类条件概率分布正态分布分别为（-2，0.25）（2,4）试对观察的结果进行分类。

1.6实验要求：

1）用matlab完成分类器的设计，要求程序相应语句有说明文字。

2）根据例子画出后验概率的分布曲线以及分类的结果示意图。

3）要求有子程序的调用过程。

二、基于Fisher准则线性分类器设计

2.1实验名称：

线性分类器设计（Fisher准则）

2.2实验目的：

本实验旨在让同学进一步了解分类器的设计概念，能够根据自己的设计对线性分类器有更深刻地认识，理解Fisher准则方法确定最佳线性分界面方法的原理，以及Lagrande乘子求解的原理。

2.3实验条件：

matlab软件

2.4实验原理：

线性判别函数的一般形式可表示成

其中

根据Fisher选择投影方向W的原则，即使原样本向量在该方向上的投影能兼顾类间分布尽可能分开，类内样本投影尽可能密集的要求，用以评价投影方向W的函数为：

　　上面的公式是使用Fisher准则求最佳法线向量的解，该式比较重要。

另外，该式这种形式的运算，我们称为线性变换，其中（m1-m2）式一个向量，Sw-1是Sw的逆矩阵，如（m1-m2）是d维，Sw和Sw-1都是d×d维，得到的

也是一个d维的向量。

　　向量

就是使Fisher准则函数

达极大值的解，也就是按Fisher准则将d维X空间投影到一维Y空间的最佳投影方向，该向量

的各分量值是对原d维特征向量求加权和的权值。

以上讨论了线性判别函数加权向量W的确定方法，并讨论了使Fisher准则函数极大的d维向量

的计算方法，但是判别函数中的另一项w0尚未确定，一般可采用以下几种方法确定w0如

或者　　　

　　或当

与

已知时可用

……

　当W0确定之后，则可按以下规则分类，

　　使用Fisher准则方法确定最佳线性分界面的方法是一个著名的方法，尽管提出该方法的时间比较早，仍见有人使用。

2.5实验内容：

已知有两类数据

和

二者的概率已知

=0.6，

=0.4。

中数据点的坐标对应一一如下：

数据：

0.23311.52070.64990.77571.05241.1974

0.29080.25180.66820.56220.90230.1333

-0.54310.9407-0.21260.0507-0.08100.7315

0.33451.0650-0.02470.10430.31220.6655

0.58381.16531.26530.8137-0.33990.5152

0.7226-0.20150.4070-0.1717-1.0573-0.2099

2.33852.19461.67301.63651.78442.0155

2.06812.12132.47971.51181.96921.8340

1.87042.29481.77142.39391.56481.9329

2.20272.45681.75231.69912.48831.7259

2.04662.02262.37571.79872.08282.0798

1.94492.38012.23732.16141.92352.2604

0.53380.85141.08310.41641.11760.5536

0.60710.44390.49280.59011.09271.0756

1.00720.42720.43530.98690.48411.0992

1.02990.71271.01240.45760.85441.1275

0.77050.41291.00850.76760.84180.8784

0.97510.78400.41581.03150.75330.9548

数据点的对应的三维坐标为

x2=

1.40101.23012.08141.16551.37401.1829

1.76321.97392.41522.58902.84721.9539

1.25001.28641.26142.00712.18311.7909

1.33221.14661.70871.59202.93531.4664

2.93131.83491.83402.50962.71982.3148

2.03532.60301.23272.14651.56732.9414

y2=

1.02980.96110.91541.49010.82000.9399

1.14051.06780.80501.28891.46011.4334

0.70911.29421.37440.93871.22661.1833

0.87980.55920.51500.99830.91200.7126

1.28331.10291.26800.71401.24461.3392

1.18080.55031.47081.14350.76791.1288

z2=

0.62101.36560.54980.67080.89321.4342

0.95080.73240.57841.49431.09150.7644

1.21591.30491.14080.93980.61970.6603

1.39281.40840.69090.84000.53811.3729

0.77310.73191.34390.81420.95860.7379

0.75480.73930.67390.86511.36991.1458

数据的样本点分布如下图：

2.6实验要求：

1）可以选择二维的数据，或者选择三维的数据作为样本。

根据Fisher选择投影方向W的原则，即使原样本向量在该方向上的投影能兼顾类间分布尽可能分开，类内样本投影尽可能密集的要求，求出评价投影方向W的函数，并在图形表示出来。

并在实验报告中表示出来，并求使

取极大值的

。

用matlab完成Fisher线性分类器的设计，程序的语句要求有注释。

2）根据上述的结果并判断（1，1.5），（1.2，1.0），（2.0，0.9），（1.2，1.5），（0.23，2.33）或者（1，1.5，0.6）（1.2，1.0，0.55），（2.0，0.9，0.68），（1.2，1.5，0.89），（0.23，2.33，1.43），属于哪个类别，并画出数据分类相应的结果图，要求画出其在W上的投影。

3）分析一下W的比例因子对于Fisher判别函数没有影响的原因。

三、基于感知函数准则的线性分类器设计：

3.1实验名称：

线性分类器设计（感知准则函数准则）

3.2实验目的：

本实验旨在让同学理解感知准则函数的原理，通过软件编程模拟线性分类器，理解感知函数准则的的确定过程，掌握梯度下降算法求增广权向量，进一步深刻认识线性分类器。

3.3实验条件：

matlab软件

3.4实验原理：

感知准则函数是五十年代由Rosenblatt提出的一种自学习判别函数生成方法，由于Rosenblatt企图将其用于脑模型感知器，因此被称为感知准则函数。

其特点是随意确定的判别函数初始值，在对样本分类训练过程中逐步修正直至最终确定。

感知准则函数利用梯度下降算法求增广权向量的做法，可简单叙述为：

任意给定一向量初始值

，第k+1次迭代时的权向量

等于第k次的权向量

加上被错分类的所有样本之和与

的乘积。

可以证明，对于线性可分的样本集，经过有限次修正，一定可以找到一个解向量

，即算法能在有限步内收敛。

其收敛速度的快慢取决于初始权向量

和系数

。

3.5实验内容

已知有两个样本空间w1和w2，这些点对应的横纵坐标的分布情况是：

x1=[1,2,4,1,5];y1=[2,1,-1,-3,-3];

x2=[-2.5,-2.5,-1.5,-4,-5,-3];y2=[1,-1,5,1,-4,0];

在二维空间样本分布图形如下所示：

（plot（x1,y1,x2,y2））

3.6实验任务：

1、用matlab完成感知准则函数确定程序的设计。

2、请确定sample=[0,1,-1,-1,0.5,-3,2,0,1,-0.5,0.5;（横坐标点）

-3,3,5,1,6,-1,-1,1,1,-0.5,-0.5]（纵坐标点）属于哪个样本空间,根据数据画出分类的结果。

3、请分析一下

和

对于感知函数准则确定的影响，并确定当

=1/2/3时，相应的k的值，以及

不同时，k值得变化情况。

4、问感知准则函数是否是唯一的？

四、近邻法：

4.1实验名称：

近邻法分类器设计

4.2实验目的：

本实验旨在让同学理解近邻法的原理，通过软件编程分段线性分类器的极端情况，理解k-近邻法＆剪辑近邻的设计过程，掌握影响k-近邻法错误率的估算的因素。

4.3实验条件：

matlab软件

4.4实验原理：

最近邻法可以扩展成找测试样本的k个最近样本作决策依据的方法。

其基本规则是，在所有N个样本中找到与测试样本的k个最近邻者，其中各类别所占个数表示成ki,i＝1，…，co则决策规划是：

　　如果

　　则决策X∈ωj（3-63）

　　k近邻一般采用k为奇数，跟投票表决一样，避免因两种票数相等而难以决策。

剪辑近邻法的基本思想是从这样一个现象出发的，即当不同类别的样本在分布上有交迭部分的，分类的错误率主要来自处于交迭区中的样本。

当我们得到一个作为识别用的参考样本集时，由于不同类别交迭区域中不同类别的样本彼此穿插，导致用近邻法分类出错。

因此如果能将不同类别交界处的样本以适当方式筛选，可以实现既减少样本数又提高正确识别率的双重目的。

为此可以利用现有样本集对其自身进行剪辑。

下面以两类别问题为例说明这种方法的原理。

　　假设现有一个样本集N，样本数量为N。

我们将此样本集分成两个互相独立的样本子集。

一个被当作考试集

，另一个作为参考集

，数量分别为NT与NR，NT+NR＝N。

将

中的样本表示成

，而在

中的样本表示为

。

　　将一个样本集分成两个相互独立的样本子集是指，分完以后的两个子集具有相同的分布例如将一个样本集分成两个相互独立的对等子集，则在每个特征空间的子区域，两个子集都有相同的比例，或说各类数量近似相等。

要注意指出的是每个子区域（从大空间到小空间）实际做时要用从总的集合中随机抽取的方式进行。

　　剪辑的过程是：

首先对

中每一个Xi在

中找到其最近邻的样本Yi（Xi），用Yi（Xi）表示Yi是Xi的最近邻参考样本。

如果Yi与Xi不属于同一类别，则将Xi从

中删除，最后从

中得到一个经过剪辑的样本集，称为剪辑样本集

。

可用来取代原样本集

，作为参考样本集对待识别样本进行分类。

经过剪辑后，要作为新的训练样本集，则

是对其性能进行测试的样本，如发现

中的某个训练样本对分类不利，就要把它剪辑掉。

　　实际上剪辑样本的过程也可以用k-近邻法进行，即对

中的每个样本Xi，找到在

中的k个近邻，用k-近邻法判断Xi是否被错分类。

从而决定其取舍，其它过程与前述方法完全一样。

　　剪辑近邻法也可用到多类别情况。

剪辑过程也可不止一次。

重复多次的称为重复剪辑近邻法。

4.5实验内容

如下面的matlab程序阐述的一样，有两个类别，x，y，样本的分布规律服从正态分布，其均值和方差分别为（2，2），（－2，4），每个类别里面分别有样本100个，如下面的数据所列（第一行为横坐标，相应的下一行对应的是纵坐标），图形所示

clearall

closeall

x=2+sqrt

（2）*randn（2,100）

y=-2+sqrt（4）*randn（2,100）

plot（x（1,:

）,x（2,:

）,'ro'）;

holdon

plot（y（1,:

）,y（2,:

）,'b*'）;

gridon

x1=1+sqrt

（2）*randn（2,2）

y1=-1+sqrt（4）*randn（2,3）

plot（x1（1,:

）,x1（2,:

）,'gs'）;

holdon

plot（y1（1,:

）,y1（2,:

）,'gd'）;

Columns1through8

2.33933.07771.87372.73392.37232.06072.79581.1613

4.04972.72542.96871.29590.42812.72071.98122.2180

Columns9through16

1.51512.84220.69551.9956-1.46933.10272.08731.5888

1.32331.87814.16311.69720.45320.69574.45842.4472

Columns17through24

1.22102.77025.35542.57553.15791.42992.60700.5714

5.01881.78641.26801.45951.40492.20752.99972.4271

Columns25through32

1.62602.34000.72911.47222.75243.13803.78000.9639

2.43972.5036-0.12081.68140.11670.93580.99341.0406

Columns33through40

1.63770.63350.59440.69002.72690.7390-0.94972.2660

1.12670.9308-0.28905.53621.98552.05770.2602-2.1053

Columns41through48

0.72350.87651.2597-0.15375.86641.45640.86191.2108

1.88832.63201.54650.42954.60992.71260.87883.3248

Columns49through56

1.76893.95432.13053.59103.45012.84762.27941.7877

1.27111.47690.69732.78462.43932.06723.15511.4484

Columns57through64

3.97101.91223.87493.10352.17261.00683.26023.4937

-0.25533.26653.28341.18043.90094.27032.64353.7896

Columns65through72

1.89040.93812.64991.1209-0.76020.98783.32092.6825

2.21681.66660.6734-0.28853.4517-0.83193.51211.2336

Columns73through80

1.39801.77503.03154.38140.07461.02330.73702.3106

2.85022.44972.46052.53281.84791.92841.99252.9242

Columns81through88

1.67552.57952.07351.28354.49522.10991.52934.2977

1.63454.25854.43713.70473.77772.22041.78012.4882

Columns89through96

0.55782.35031.93322.83941.91851.13662.69343.6876

2.71082.20083.15861.09792.28281.10500.73636.0314

Columns97through100

0.86304.87190.77021.1824

2.54520.92792.40002.9063

Columns1through8

-4.0741-2.20190.27722.5119-2.6005-2.7258-0.9535-2.6182

-3.62421.8317-0.3543-1.3855-1.0020-2.2239-0.4317-2.0749

Columns9through16

1.1157-2.9820-0.7157-4.8064-2.13680.0204-4.6403-1.4024

-1.1429-1.9817-1.07013.5301-0.3107-2.6776-3.6135-3.0649

Columns17through24

1.03830.0278-3.8224-1.7426-0.8970-3.1769-2.6497-1.0395

-2.4134-3.3121-3.0811-2.6541-0.7125-3.1175-1.9918-2.0607

Columns25through32

-2.9279-5.6277-3.2913-0.3836-6.5657-6.9075-4.9407-2.4313

-3.3265-2.0005-1.7682-2.1453-0.7046-3.24160.6713-1.8313

Columns33through40

1.15330.0380-0.90460.44502.1135-0.9418-0.36340.2072

-0.2502-1.9232-1.7691-3.5266-1.1793-2.3955-1.7491-2.2116

Columns41through48

-2.7789-0.4264-1.5418-4.5961-3.1488-3.28130.15210.3201

-2.8753-3.1971-5.1734-1.7970-1.21651.01121.86580.6457

Columns49through56

1.72582.45681.0064-2.8329-2.2510-2.2932-0.4625-2.1996

-3.2806-1.3224-1.5015-3.4684-3.3073-1.03441.3012-4.8685

Columns57through64

-0.3933-4.4781-0.8298-2.7694-4.4012-2.3012-2.72384.4696

-1.9525-3.9448-4.2802-2.8949-7.0979-1.7046-2.1852-2.5313

Columns65through72

-0.2649-0.50831.2236-4.0723-2.7961-3.8391-6.0491-1.2649

0.8744-3.6436-1.7198-1.0935-1.5580-0.2845-1.1005-7.1413

Columns73through80

-0.7904-4.9162-0.8173-3.0191-1.5423-3.4648-3.9127-1.0085

-0.1674-1.8316-1.99

展开阅读全文