主成分分析.docx
《主成分分析.docx》由会员分享,可在线阅读,更多相关《主成分分析.docx(55页珍藏版)》请在冰点文库上搜索。
主成分分析
精心整理
空气污染和径赛纪录问题分析
摘要本文运用主成分分析法,主要讨论空气污染和女子径赛纪录的数据分析问题,并解释主成分的实际意义。
针对问题一,以中午12点的7个空气污染因子为变量,建立总体样本。
分别从样本协方差矩阵和相关矩阵出发,运用MATLAB的princomp函数作主成分分析。
再比较二者的特征向量和相关系数,可知由相关矩阵所得的前三个主成分更能够反映原始数据的变化情况。
针对问题二,以径赛项目上的7个女子纪录为变量,建立总体样本。
首先将数据标准化,运
用MATLAB中的cov函数得出相关矩阵;并利用princomp函数求出矩阵的特征值、特征向量、累计贡献率和主成分得分。
其次结合权重和相关系数,得出第一主成分综合反映了各个国家和地区
的运动员优秀程度,第二主成分反映国家的相对实力。
最后,根据第一主成分得分对各个国家排序,结果与原始数据中的直观看法基本吻合。
关键词空气污染;径赛纪录;主成分分析
一、问题重述
生活中往往会遇到涉及众多变量的问题,如某省的居民生活质量分析、机械类各企业的经济效益、体育成绩统计分析等问题。
一般来说,每个变量都可以提供一定的信息,但其重要性有所不同,因此会选择基于降维的主成分分析法来解决此类问题,现根据主成分分析法解决以下问题:
问题一:
已知某城市在42天中的中午12点的7项空气污染数据(见附录表1),分别为风速、太阳辐射、CO、NO、NO2、O3及HC。
试利用尽可能少的变量提取原数据集的信息,分别利用样本协方差矩阵和样本相关矩阵做主成
分分析,并说明二者结果的差异。
结合原始数据的变化可否由三个或者更少的主成分反映并对所选取的主成分作出解释。
问题二:
已知世界上55个国家和地区1984年前在7个径赛项目上的女子纪录(见附录表2)。
试分析以下问题:
1.求女子记录的样本相关矩阵R及它的特征值和相应正交单位化特征向量。
2.求前两个标准化样本主成分及累计贡献率。
3.解释2中的两个主成分的意义(事实上,第一主成分近似于各变量的等权重之和,它反映了个国家和地区的运动员的优秀程度,第二主成分可用于度量个国家和地区在各径赛项目上的相对实力)。
4.基于第一样本主成分的得分对各国家和地区排序,这与你从原始数据中的达到的直观看法是否基本吻合。
二、问题分析
在空气污染和女子径赛纪录的数据分析问题中,由于变量较多,会增加计算的复杂性,所以考虑运用主成分分析法求解,用较少的变量反映原变量提供的绝大部分信息。
以下针对问题一、问题二分别从协方差矩阵和相关矩阵进行分析,
得出主成分和累计贡献率,并作出合理解释。
针对问题一,以中午12点的7个空气污染因子为变量,已知某城市
42个
样本数据,为了利用尽可能少的变量提取样本信息,可以分别从样本协方差矩
阵和样本相关矩阵作主成分分析。
利用MATLAB的cov函数可以得到协方差矩阵,将数据标准化后利用cov函数可以得到相关矩阵,再利用MATLAB的princomp过程可以得到两个矩阵的特征值、贡献率和主成分等,并由此判断前三个主成分是否能判断影响空气质量的重要指标,同时可以对所选主成分作出合理解释。
针对问题二,以径赛项目上的7个女子纪录为变量,已知55个国家和地区
的样本数据,为求出样本的相关矩阵,可先将数据标准化,运用MATLAB中的cov
函数得出相关矩阵,再求特征值和特征向量。
并且运用MATLAB中的princompz函数可以得到标准化样本的主成分、累计贡献率和第一主成分的得分,最后解
释2个主成分的实际意义并根据主成分得分排序。
三、基本假设
1.各变量之间相互独立;
2.忽略其他对空气污染造成微小影响的空气成分;
3.忽略其他径赛项目对问题二得分情况的影响。
四、符号说明
符号
含义
样本个数
变量个数
样本方差(
原始变量(
i
i
1,2,
1,2
n)
p)
样本主成分
样本协方差
样本相关矩阵
样本平均值(
i
1,2
p)
协方差矩阵
特征向量矩阵
矩阵的特征值(
i
1,2
p)
矩阵的特征向量
i
1,2
p
第一主成分得分
五、模型的建立及求解
由问题分析可知,主成分分析是常见的处理多变量生活问题的解决方法,其主要是构造原变量的一系列线性组合,使各线性组合在彼此不相关的前提下
尽可能多地反映原变量的信息。
下面将对某城市42天中午的空气污染数据和55个国家的7项女子径赛记录数据作主成分分析。
5.1主成分分析原理及步骤
5.1.1主成分定义
假定有n个样本,每个样本共有p个变量,构成np阶的数据矩阵当p较大时,在p维空间内考虑问题比较麻烦。
为克服这一困难,就需要进行降维处理,即用较少的几个综合指标代替原来较多的变量指标,而且使这些综合指标尽量多地反映原来指标所反映的信息,这些综合指标即为主成分。
主成
分定义如下:
记x1,x2,,xp为原变量指标,y1,y2,,ym(mp)为新
变量指标
其中li21li22
(1)yi与
yj(
lip2
i
1,系数lij
j;i,j1,2,
的确定原则:
m)相互无关
(2)y1是
x1,x2,,xp的一切线性组合中方差最大者;
y2是与
y1线性无关
的x1,x2,,xp的所有线性组合中方差最大者;;ym是与y1,y1,,ym1
都线性无关的x1,x2,,xp的所有线性组合中方差最大者。
则新变量指标y1,y2,,ym分别称为原变量指标x1,x2,,xp的第1,2,,
m主成分。
[1]
5.1.2利用协方差矩阵做主成分分析
1.计算协方差矩阵
样本数据的协方差矩阵为(sij)pp,其中
1
n
xj)(i,j
1,2,
p)
(1)
sij
(xki
xi)(xkj
n
1k1
2.确定主成分
求出的特征值i,前m个较大特征值为
1
2
m
0
,及相应的正
交单位特征向量ei
。
由分析可知m分别对应前
m个主成分的方差,ei为第i个主
成分yi关于原变量的系数,所以zi表示为yi
ei'X,主成分yi
的方差贡献率i为
p
i
i/
k
(2)
k
1
用来表示第i个主成分反映信息量的大小。
3.选择主成分
y1,y2,,ym中m的确定是通过方差累计贡献率
G(m)确定
m
p
k(3)
G(m)
i/
i1
k
1
当累计贡献率大于
85%时,就认为能足够反映原来变量的信息,
对应的m为抽取
的前m个主成分。
4.计算主成分得分
计算样品在m个主成分上的得分
Fi
e1ix1
e2ix2
epixp
(i
1,2,
m)(4)
5.1.3利用样本相关矩阵做主成分分析
实际应用时,指标的量纲往往不同,所以在主成分计算之前应先消除量纲的影响,常用的方法是将原始数据标准化,即做如下数据变换
xij
*
xijxj(i1,2,
n;j
1,2,,p)(5)
sj
其中,x
1
n
xij,s2j
1
n
(xij
xj)2,由此可得标准化变量
X*。
计算标准
n
i1
n
1i1
化变量的协方差矩阵R,即为原变量的相关矩阵,再计算相关矩阵的特征值和对应的正交单位特征向量,按特征值由大到小所对应的正交单位特征向量为组
合系数的x1*,x*2,,x*p的线性组合分别表示X*的第一、第二、直至第p个主成分,各主成分的方差等于相应的特征值。
5.2关于空气污染数据的主成分分析
由问题分析可知,可以运用主成分分析的方法尽可能的提取原数据集的信息,并用较少的变量表示原始数据的信息。
下面利用协方差矩阵和样本相关矩阵分别作主成份分析,并比较二者的差异,分别分析前三个主成分是否能够评判影响空气质量的重要指标。
选取能够综合评价空气污染程度的主成分来建立综合评价模型,再通过模型分别计算各天的主成分得分,比较各天的空气质量。
5.2.1由样本协方差矩阵S出发进行主成分分析
由MATLAB的cov函数代入数据可求得随机变量x
(x1,x2,x3,x4,x5,x6,x7)T的
协方差阵为(只写出下三角部分)
7
k,及前k个主
利用特征值计算公式
E
0,第i个主成分的贡献率
i
k
1
k
7
成分的累计贡献率
s
t,代入数据,并由MATLAB的princomp过程,求
s
1
t1
出的特征值(程序见附录程序1)i,得到各主成分的贡献率及累计贡献率如表1所示
表1S的特征值及贡献率
i(特征值)
贡献率(%)
累计贡献率(%)
1
303.6941
87.2016
87.2016
2
28.3132
8.1298
95.3314
3
11.4674
3.2927
98.6241
4
2.5494
0.7320
99.7783
5
1.4703
0.4222
99.3561
6
0.5479
0.1573
99.9356
7
0.2243
0.0644
100.0000
由问题分析可知,选取前三个主成分,累计贡献率达到
向量为y(y1,y2,y3)。
前三个样本主成分中各变量xi(i
98.62%,记主成分
1,27)的系数(即
对应
1,
2,
3的正交单位化特征向量)为
由yi
Xei可得前三个主成分分别为
因此,用三个主成分代替原来的7个变量,信息损失量较小。
此结果表明,太阳辐射占比在第一主成分中作用明显,而其他变量相对较弱,这说明太阳辐
射给空气造成空气污染的威胁是非常突出的,;O3和NO2占比分别在第二和三主成分中作用明显,说明O3和NO2的浓度增强会加剧空气污染程度。
进一步由相关系数公式yx
i
eij,计算出前三个主成分与各个原始变
i
j
jj
量的相关系数如表2所示
表2前三个主成分与个原始变量的相关系数
0.1087
-0.2576
-0.0672
-0.9994
-0.0357
-0.0014
-0.1937
0.4181
0.4675
0.0740
-0.0626
0.4111
-0.1274
0.2369
0.9585
-0.3521
0.9299
-0.1041
-0.0613
0.1824
0.4168
由表2可以看出,y1与x2相关度较高,y2与x6相关度较高,y3与x5相关度较高,;而由各个主成分的权重系数(即个特征值对应的单位化特征向量)可知,前三
个主成分中方差最大的分别是x2、x6和x5;也就是说,前三个主成分主要由方
差大的变量控制。
所以对空气污染影响较大的因素为太阳辐射、O3和NO2。
考虑前三个的主成分贡献率依次降低,影响空气污染的最重要因素为太阳辐射,
与实际情况不符,所以前三个主成分不能评判影响空气质量的重要指标。
5.2.2由样本相关矩阵出发进行主成分分析
利用标准化公式对原数据Xx1,x2,,x7进行标准化处理得到一组新的数
据X*
x1*,x2
*,
x7
*
,即令
X*
xi
i,i
1,2,
7(6)
ii
其中i为xi的平均值,
ii为xi的方差。
此时,由于X
x1,x2,
x7
T
的协方差
矩阵即为X*
x1*,x2
*,
x7
*
T
的相关矩阵
E
*
*
cov(Xi,Yj)(7)
Xi
Yj
ii
jj
其中cov(Xi,Yj)为Xi,Yj的协方差,则运用MATLAB软件cov函数带入数据计算得到样本相关矩阵为(只写出下三角部分)
又由MATLAB软件的princomp函数(程序见附录程序
2),求出R的特征值
*
i
及相应的单位正交化特征向量ei*(i
1,2,,7)(程序见附录程序2),得各标准
化主成分的贡献率及累计贡献率如表
3所示
表3R的特征值及贡献率
贡献率(%)
累计贡献率(%)
1
2.3122
33.0316
33.0316
2
1.3833
19.7618
52.7934
3
1.2109
17.2980
70.0915
4
0.7236
10.4079
80.4993
5
0.6565
9.3783
89.8777
6
0.5417
7.7393
97.6170
7
0.1668
2.3830
100.000
由表3可以看出,当特征值大于1时,提取前三个标准化样本的累计贡献率
为70.0915%,前五个标准化样本主成分的各标准化变量
xi*
xix1(i1,2,
7)
si
前的系数(即对应与
1
*,2
*,3*,4*的正交单位化特征向量e1*,e2
*,e3*,e4
*)
如表4所示
表4标准化特征向量e1
*,e2
*,e3
*
,e4
*
标准化变量
0.2421-0.27680.6303
-0.20680.52730.2274
-0.54630.0039-0.1333
-0.3898-0.4356-0.3974
-0.4901-0.19600.2136
-0.32370.57090.1586
-0.3212-0.30210.5518
由表4得到前三个标准化样本主成分为
由Yi
*与Xi
*的相关系数
Yi
**i*eij*,计算出前三个主成分与各原始变量的相关
Xi
系数如表5所示
表5前三个主成分与各标准变量的相关系数
0.3681
-0.3255
0.6936
-0.3145
0.6201
0.2503
-0.8308
0.0046
-0.1466
-0.5927
-0.5124
-0.4373
-0.7453
-0.2306
0.2350
-0.4922
0.6714
0.1745
-0.4884
-0.3554
0.6072
由表5可以看出,Y1*与X3*、X5*的相关度较高,由相关系数矩阵的主成分权重系数知,CO和NO2对空气污染指标y1的影响较大。
另外,Y1*近似是7个变量的等权重之和,反映了空气质量的综合指标,Y1*的值越大,空气质量就越差。
Y2*
与X3*的相关度较低,同理知CO对空气污染指标y2的影响较小。
Y3*与X1*、X7*的相关度较高,同理知风速和HC对空气污染指标y3的影响较大。
又考虑到前
三个主成分的累计贡献率达到
70.0915%,因此综合考虑Y1*、Y2
*和Y3*来评判影
响空气污染的重要指标。
5.2.3综合评价模型
由于样本协方差矩阵对角线的元素差异较大,所以由样本相关矩阵R出发作主成分分析所得的主成分建立综合评价模型。
以各个主成分的贡献率为权重,由主成分得分和对应权重线性加权求和可得到综合评价模型[1]
f33.0316y1*19.7618y2*17.298y3*10.4079y4*9.3783y5*7.7393y6*2.383y7*
通过princomp过程得到各天对于各个主成分的得分,利用MATLAB(见附录程序2)计算可各天的综合得分,如表6所示
表6各天的主成分总得分
天数
综合得分
天数
综合得分
天数
综合得分
天数
综合得分
1
-0.5645
12
-0.0640
23
0.0365
34
0.5611
2
-0.1158
13
-1.4752
24
0.1316
35
0.6679
3
0.1508
14
0.1285
25
0.4134
36
0.4647
4
0.3122
15
0.6337
26
0.4937
37
0.7581
5
0.2353
16
0.5373
27
0.0449
38
-0.6081
6
-0.0596
17
0.5839
28
0.9987
39
-0.6762
7
-0.8464
18
-0.7174
29
-0.1538
40
-0.0244
8
-1.4566
19
-0.1117
30
0.7326
41
-0.2904
9
0.1696
20
0.1059
31
0.9400
42
0.0048
10
-0.1923
21
-0.5237
32
0.2606
11
-0.7334
22
0.3506
33
-1.1030
比较表6中数据可知,第28天的主成分综合得分最高,第8天的主成分综合得分最低。
5.3关于女子径赛纪录的主成分分析
以7个径赛项目为变量建立总体样本,求解样本的相关矩阵及特征值和相应正
交单位特征向量,并利用相关矩阵做主成分分析,解释两个主成分的实际意义,最后基于第一主成分的得分对各个国家和地区排序。
设x1,x2,x3,x4,x5,x6,x7分别表示55个国家和地区1984年前分别在100m,
200m,400m,800m,1500m,3000m,马拉松7个竞赛项目上的女子纪录。
设总体样本X(x1;x2;x3;x4;x5;x6;x7)T,利用标准化公式对原始数据进行标准化
处理,得到一组新数据X*
*;x2
*
*;x4*;x5*
;x6*;x7*
T
原理可知,X*
x1
;x3
。
利用5.1
的协方差矩阵即为X的相关矩阵,所以由MATLAB的cov函数求X*
的协方差矩
阵(只写出下三角部分)
R即为总体样本X(x1;x2;x3;x4;x5
;x6;x7)T的相关矩阵。
利用特征值计算公式
E
R
0,代入数据可求得R的特征值
i*,i*由大
到小依次为1*,2
*,,7
*,再利用特征向量计算公式(ER)e0
,可求得i*相
应的特征向量,并将特征向量正交单位化可得
ei*
表7R的特征值和单位正交特征向量
15.8057
20.6537
30.2999
40.1251
50.0538
60.0392
70.0226
由5.1中确定和选择主成分原理可得出各标准化主成分的贡献率和累计贡献率如表8所示
表8R2的特征值和主成分贡献率
贡献率(%)累计贡献率(%)
1
5.8057
82.9390
82.9390
2
0.6537
9.3392
92.2782
3
0.2999
4.2838
96.5620
4
0.1251
1.7787
98.3407
5
0.0538
0.7692
99.1099
6
0.0392
0.5594
99.6693
7
0.0226
0.3224
100.000
由表8可知,前两个标准化样本的主成分的累计贡献率已达到92.2782%,故只
*
****
(即1,2对应的正交单位特征向量e1,e2),由此可得标准化样本的2个主成
分y1和y2分别为
y1和y2的累计贡献率为92.2782%。
由5.1中计算主成分原理,计算主成分y1和y2与各标准化变量的相关系数如表
9所示。
表9前两个主成分与各标准化变量的相关系数
0.8875
0.3964
0.8804
0.4337
0.9195
0.1993
0.9266
-0.1256
0.9376
-