本科毕业论文植物的分类问题研究.docx
《本科毕业论文植物的分类问题研究.docx》由会员分享,可在线阅读,更多相关《本科毕业论文植物的分类问题研究.docx(25页珍藏版)》请在冰点文库上搜索。
![本科毕业论文植物的分类问题研究.docx](https://file1.bingdoc.com/fileroot1/2023-4/30/b6169394-5de9-4cb1-8650-d3844b7b9671/b6169394-5de9-4cb1-8650-d3844b7b96711.gif)
本科毕业论文植物的分类问题研究
成都信息工程大学
学位论文
植物的分类问题研究
论文作者姓名:
申请学位专业:
申请学位类别:
(嘶):
论文提交日期:
植物的分类问题研究
摘要
本文研究了莺尾屈植物的分类和归类问题,利用采集的150组样本数据,根据快速聚类原理建立分类模型,将莺尾属植物分为3类。
根据茨离判别原理建立判别分析模型,对采集的样本进行判别,交义确认误判率为2%,误判率较低,并对3个待判样品进行判别,得到所属归类。
关键词:
分类;莺尾属植物:
快速聚类法:
距离判别法:
SAS软件:
MATLAB
ResearchofPlantClassificationProblem
Abstract
Ulispaperanalysestheclassificationandtaxonomyofiris,dividetheirisintothreecategoriesbyusingthe150sampledatacollectedaccordingtoclassifymodelbasedonthefastclusteringtheoiy.Discriminatethesamplestlirouglitliediscriniinantanalysismodelinlinewithdistancediscriminationtheory,theciossvalidationmisjudgmentrateisarelativelow2%,andtheclassificationoftlueesamplesneedtobediscriminatedaresettled.
Keywords:
Classification;hisplant;Fastclusteringinethod;Distancediscriminationmethod;SAS;MATLAB
论文总页数:
17页
1引言1
1.1课题背景1
1.2国内外硏究现状1
1.3本课题研究的意义1
1.4本课题的研究内容和研究方法1
1.4.1研究内容1
1.4.2研究方法1
2简尾花问题2
3莺尾花分类模型2
3.1基本假设3
3.2符号说明3
3.3快速聚类3
3.4建立模型5
3.5模型求解5
4莺尾花判别模型7
4.1收集训练样本数据7
4.2模型假设8
4.3建立模型8
4.4模型求解10
5模型推广与评价13
5.1模型评价13
5.2模型推广14
结语14
参考文献15
致谢错误!
未定义书签。
声明错误!
未定义书签。
1引言
1.1课题背景
植物是我们II常生活中极其常见的一种生物,与我们的生活息息相关。
植物种类非常之多,地球上已知的植物种类大概就有五十多万种,所以为了能更好的了解、保护和使用植物资源,对植物进行鉴别、分类就显得十分觅要,所
以科学家创立了植物分类学,开始科学的对植物进行分类研究。
1.2
人类认识世界往往都是先将被认识的对象进行分类,过去的研究主要都是
依靠经验和采集大最的数据来对植物进行分类,很少有使用数学工具來进行分
类的。
但是伴随着时代的发展和技术的提升,人们开始慢慢的把数学工具应用
到了分类学当中,这就形成了数值分类学:
随着数学方法的不断迭代更新,后来人们乂将多元分析的技术应用到了数值分类学当中,最终形成了聚类分析。
伴随着计算机的诞生和计算机技术的高速发展,人们将计算机技术应用到了分类学当中,对分类学产生了重大的影响。
数值分类学就是建立在数学理论方法基础上,依托计算机的离速运行计算特性來进行分类的。
这样的到的结果比较客观,是科学的计算,而不是靠经验的推断,并且研究过程当中,运算速度非常之快,效率非常之高,这些都是以前的分类学家很难做到的。
1.3本课题研究的意义
分类不仅仅只周限丁•植物的分类应用当中,同吋分类在其他学科以及我们
实际工作当中也有许多应用。
比如,在经济学当中,为了了解不同地区的城镇居民的收入和消费情况,往往需要划分不同的类型去研究:
在产品质最监管工作当中,往往需要根据产品的某些重要指标來将其划分位一、二、三等品等;在实际工作当中,我们可以设计一个分类模型,可以对股票的涨跌情况进行分类,用來预测股票的后期走势。
本文对植物分类问题的研究,在植物的鉴别分
类,以及保护植物资源以及生物多样性都有着非常重要的意义。
1.4本课题的研究内容和研究方法
1.4.1研宪内容
本文主要研究了莺尾属植物的分类问题,主耍采用快速聚类法对其进行聚
类分析和距离判別法对其进行判别分析。
1.4.2研究方法
学习分类就是要学会一种分类方法或者分类函数。
本文首先采用快速聚类的原理方法建立分类模型來对莺尾屈植物进行聚类,并借助数据分析软件SAS软件对莺尾属植物的数据进行数据处理和分类;然后使用马氏距离判别原理建立判别分析模型对训练样本进行判别分析,并计算误判率的交义确认估计;最
后对分类结果做讨论分析。
2莺尾花问题
本文抽取了150组莺尾属植物的数据作为样本,数据來源于统计学家R.A.Fisher创建的莺尾花数据集⑴,考察莺尾属植物中三个不同品种的花的四个形状,每50组数据取自同一品种的花,每一种花的相关数据采取如下四种属性来表述
(1)%i:
花萼片的长度(毫米);
(2)%2:
花萼片的宽度(毫米);
(3)%3:
花瓣的长度(毫米):
(4)花瓣的宽度(毫米);
抽样数据见表
表1琦尾属植物数据表
N
X1
X2
*3
心
N
X1
X2
%4
N
Xl
X2
心
X*
1
50
33
14
2
51
48
30
14
3
101
47
32
13
2
2
64
28
56
22
52
51
38
16
2
102
46
31
15
2
3
65
25
16
15
53
61
30
49
18
103
69
32
57
23
4
67
31
56
24
54
48
31
19
2
104
52
29
13
13
5
63
28
51
15
55
50
30
16
2
105
74
28
61
19
6
46
34
14
3
56
50
32
12
2
106
59
30
42
15
7
69
31
51
23
57
61
26
56
11
107
51
34
15
2
8
62
22
15
15
58
64
28
56
21
108
50
35
13
3
9
59
32
18
18
59
43
30
11
1
109
56
28
49
20
10
46
36
10
2
60
58
40
12
2
110
60
22
40
10
11
61
30
46
14
61
51
38
19
4
111
73
20
63
18
12
60
27
51
16
62
67
31
44
14
112
67
25
58
18
13
65
30
52
20
63
62
28
48
18
113
49
31
15
1
14
56
25
39
11
64
49
30
14
2
114
67
31
47
15
15
65
30
55
18
65
51
35
14
2
115
63
23
44
13
16
58
27
51
19
66
56
30
45
15
116
51
37
15
2
17
68
32
59
23
67
58
27
41
10
117
56
30
41
13
18
51
33
17
5
68
50
34
16
4
118
63
25
49
14
19
57
28
15
13
69
46
32
14
2
119
61
28
47
12
20
62
34
54
23
70
60
29
45
15
120
61
29
43
13
21
77
38
67
22
71
57
26
35
10
121
51
25
30
10
22
63
33
47
16
72
57
44
15
4
122
57
28
41
13
23
67
33
57
25
73
50
36
14
2
123
65
30
58
22
24
76
30
66
21
74
77
30
61
23
124
69
31
54
21
25
49
25
45
17
75
63
34
56
21
125
54
39
13
4
26
55
35
13
2
76
58
27
51
19
126
51
35
14
3
27
67
30
52
23
11
57
19
42
13
127
72
36
61
25
28
70
32
47
14
78
72
30
58
16
128
65
32
51
20
29
64
32
45
15
79
54
34
15
4
129
61
29
47
14
30
61
28
10
13
80
52
42
15
1
130
56
29
36
13
31
48
31
16
2
81
71
30
59
21
131
69
31
49
15
32
59
30
51
18
82
64
31
55
18
132
64
27
53
19
33
55
24
38
11
83
60
30
48
18
133
68
30
55
21
34
63
25
50
19
81
63
29
56
18
134
55
25
40
13
35
61
32
53
23
85
49
24
33
10
135
48
34
16
2
36
52
34
14
2
86
56
27
42
13
136
48
30
14
1
37
49
36
14
1
87
57
30
42
12
137
45
23
13
3
38
5-1
30
15
15
88
55
42
14
2
138
57
25
50
20
39
79
38
64
20
89
49
31
15
2
139
57
38
17
3
40
44
32
13
2
90
77
26
69
23
140
51
38
15
3
41
67
33
57
21
91
60
22
50
15
141
55
23
40
13
42
50
35
16
6
92
51
39
17
4
142
66
30
41
14
43
58
26
40
12
93
66
29
46
13
143
68
28
48
14
44
44
30
13
2
94
52
27
39
14
144
54
34
17
2
45
77
28
67
20
95
60
34
45
16
145
51
37
15
4
46
63
27
49
18
96
50
34
15
2
146
52
35
15
2
47
47
32
16
2
97
44
19
14
2
147
58
28
51
24
48
55
26
44
12
98
50
20
35
10
148
67
30
50
17
49
50
23
33
10
99
55
24
37
10
149
63
33
60
25
50
72
32
60
18
100
58
27
39
12
150
53
37
15
2
3鹫尾花分类模型
3.1基本假设
1.本模型采用的数据均真实有效,并且是可操作的。
2.样本均为随机抽取。
3.不考虑人为因素的影响。
3.2符号说明
表2符号说明
Xl
花萼片长
如
花萼片宽
尢3
花證长
X4
花册宽
样品序号(4=1,2,-,150)
第i种类的样本1=1,2,3
3.3快速聚类
首先将抽取的样品进行简单的分类,接着根据样品间的欧氏距离按照一定方法逐步调整,最后直到不能再调整为止。
快速聚类法适用丁•样本数目较大的数据集的聚类分析,但是需要事先指定分类的数目,而且此数目对最终分类结果有较大影响。
因此在实际中一般要对多个分类的数目进行尝试,来找出合理的分类结果⑵。
1•选择初始聚点
本文在聚类过程中均采用欧氏距离,B|J:
dg巧)=||心一別=[(兀一”)(忑一勺)]:
采用最小最大原则來选择初始聚点,因为最终需要把收集到的150个样本分成3类,所以初始聚点的选择为3个。
苗先求出所给样品中欧氏距离相距最远的两个样品%九为初始的2个聚点,即选择礼,轧,使得
无2)=4讥=max{d。
}
由欧氏距离求得2个初始聚点%k,xi2分别是序号为21和60的样本,即max{dv}=d(7V21,/V6o)=60.9426然后,选择第3个聚点竝3,使的
min{d(%is,%tr),r=1,2}=max{min[d(^,xir),r=l,2],yHilti2}由欧氏距离求得的第3个初始聚点看3是序号为77的样本,即min{d(N77,%£r),r=1,2}=maxfmin[d(Xj,xir),r=1,2],j工iifi2}=37.7227初始聚点集合为
”={皿1川60,N77}
2.快速聚类法步骤
(1)设求出的3个初始聚点的集合是
厶。
={晋用。
)烏。
)}用下列原则来实现初始分类
G『)={x:
d(扁。
))<d(x,xf)j=1,2,3,;Hi},i=1,2,3
通过这个步骤各个样品将归类成不相交的3类,初始分类的原则就是将每个样品归类到最近的初始聚点为一类,这样就可以得到一个初始分类
G(。
)=同。
)府)府)}
(2)重新从G(°)开始,来计算新的聚点集合厶-然后把0°)的重心分别计算出来作为新的聚点
苴中兔是q(°)中的样品数"这样,又可以得到新的聚点集合小)={申疳,才)}
接着从厶⑴开始,继续对样品做新的分类,同样:
G「)=[x:
d(xfx^得到分类
g(d={g$),g$),g$)}
这样依次计算下去。
(3)设在第m步得到分类
G(m)={G化G$),G$)}
在上面的递推过程当中,计⑴是类gL的重心,込⑴可能不一定是样品,也可能不是彳“)的重心。
当m逐渐增大,分类趋于稳定,此时,就会近似为彳⑷的重心,从而严)«於叭
计算过程中收敛的准则为当选取的聚点,它的改变量的最大葩离小于或等于初始聚点之间的最小距离乘以给定的某个数值哄即
d(m)=max{d(计叫兀丫“+»),i=1,2,3J
和
d(。
)=min=1,2,3」幻}
给定的£>0,若
d(m)<曲°)
则递推计算过程结束。
3.4建立模型
算法步骤
(1)根据最小最大原则选取3个初始聚点;
(2)将每个观察样本按就近原则分配给最近的初始聚点;
(3)重新把每个聚集中的重心作为新的聚点;
(4)不断重复上述
(2),(3)过程岂到聚点的变化足够小为止。
下面给出它的工作原理图。
图1快速聚类法工作原理
3.5模型求解
(1)运用最大最小原则找出3个初始聚点:
由procfastclus过程⑶,得
到计算结果:
初始聚点如表3所示。
表3初始聚点
聚点
X1
*2
X3
丸4
1
58
40
12
2
2
77
38
67
22
3
57
19
42
13
聚点1、2、3对应的样品号分别为60、21和77号,即初始聚点分别为21号、60号和77号样品。
(2)最终聚类中心如表4所示。
表4最终聚类中心
聚类中心
尢1
X2
X3
丸4
1
50.24
34.06
14.69
2.76
2
68.50
30.50
57.24
20.71
3
58.85
27.20
43.87
14.25
根据最终聚类中心的数据分析,其中一类品种的花瓣长度和宽度都是最小的且花萼的长度居中,花萼宽度为最宽,将这一类归为心类;其中一类品种的花瓣长度和宽度都是最大的且花萼长度为最长,花萼宽度居中,将这一类归为G2类:
其中一类品种的花萼长度和花萼宽度都是最小的且花瓣长度和宽度都是居中,将这一类归为G3类。
(3)最终聚类结果如表5所示。
表5150个样品分3类情况
类号
样本个数
最邻近类
至最邻近类距离
Gi
51
G3
33.238
g2
38
G3
18.150
G3
61
G2
18.150
结果分析:
三个不同品种的莺尾花的150个样本,其中51个样本屈于Gi类;另外有38个样本属于G2类;剩余的61个样本属于Gg而类与类之间的距离有助于分析两个类之间的接近程度,由表可知G2类与G3类之间的距离故小,为
18.150,所以G2类与G3类最为相近⑷。
4莺尾花判别模型
4.1收集训练样本数据
收集莺尾属植物的三个不同品种的花的形状的数据作为训练样本,收集到
的数据如表6所示。
表6莺尾花的三个不同品种的形状数据
编号
品种
X1
X2
兀3
编号
品种
兀2
£
无4
编号
品种
兀2
兀3
兀4
1
1
50
33
14
2
50
2
65
28
46
15
99
3
64
28
56
22
2
1
46
34
14
3
51
2
62
22
45
15
100
3
67
31
56
24
3
1
46
36
10
2
52
2
59
32
48
18
101
3
63
28
51
15
4
1
51
33
17
5
53
2
61
30
46
14
102
3
69
31
51
23
5
1
55
35
13
2
54
2
60
27
51
16
103
3
65
30
52
20
6
1
48
31
16
2
55
2
56
25
39
11
104
3
65
30
55
18
1
52
34
14
2
56
2
57
28
45
13
105
3
58
27
51
19
8
1
49
36
14
1
57
2
63
33
47
16
106
3
68
32
59
23
9
1
44
32
13
2
58
2
70
32
47
14
107
3
62
34
54
23
10
1
50
35
16
6
59
2
64
32
45
15
108
3
—7
38
67
22
11
1
44
30
13
2
60
2
61
28
40
13
109
3
67
33
57
25
12
1
47
32
16
2
61
2
55
24
38
11
110
3
76
30
66
21
13
1
48
30
14
3
62
2
54
30
45
15
111
3
49
25
45
17
14
1
51
38
16
2
63
2
58
26
40
12
112
3
67
30
52
23
15
1
48
34
19
2
61
2
55
26
14
12
113
3
59
30
51
18
16
1
50
30
16
2
65
2
50
23
33
10
114
3
63
25
50
19
17
1
50
32
12
2
66
2
67
31
44
14
115
3
64
32
53
23
18
1
43
30
11
1
67
2
56
30
45
15
116
3
79
38
64
20
19
1
58
40
12
2
68
2
58
27
•11
10
117
3
67
33
57
21
20
1
51
38
19
4
69
2
60
29
45
15
118
3
7(
28
67
20
21
1
49
30
14
2
70
2
57
26
35
10
119
3
63
27
49
18
22
1
51
35
11
2
71
2
57
19
42
13
120
3
72
32
60
18
23
1
50
34
16
4
72
2
49
24
33
10
121
3
61
30
49
18
24
1
46
32
14
2
73
2
56
27
42
13
122
3
61
26
56
14
25
1
57
44
15
4
74
2
57
30
42
12
123
3
64
28
56
21
26
1
50
36
14
2
75
2
66
29
46
13
124
3
62
28
48
18
27
1
54
34
15
4
76