偏最小二乘回归方法PLSWord文档格式.docx
《偏最小二乘回归方法PLSWord文档格式.docx》由会员分享,可在线阅读,更多相关《偏最小二乘回归方法PLSWord文档格式.docx(17页珍藏版)》请在冰点文库上搜索。
2.2偏最小二乘回归分析的建模方法
设有q个因变量{y1,⋯,yq}和p个自变量{x1,⋯,xp},为了研究因变量与自变量的统计关
系,观测n个样本点,由此构成了自变量与因变量的数据表X=【x1,⋯,xp】n*p和Y=【y1,⋯,yq】
n*q。
偏最小二乘法回归分别在X与Y中提取出t1和u1(也就是说,t1是x1,⋯,xp的线性组合,u1是y1,⋯,yq的线性组合)。
在提取这两个成分时,为了回归分析的需要,有下列两个要求:
(1)t1和u1应尽可能大地携带它们各自数据表中的变异信息
(2)t1和u1的相关程度能达到最大
这两个要求表明,t1和u1应尽可能好地代表数据表X和Y,同时自变量的成分t1对因变量的成分u1又有最强的解释能力。
在第一个成分t1和u1被提取后,偏最小二乘法回归分别实施X对t1的回归以及Y对t1
的回归。
如果方程达到了满意的精度,则算法终止;
否则,将利用X被t1解释后的残余信息以及Y被t1解释后的残余信息进行第二轮的成分提取。
如此递推,直到能达到一个较为满意的精度为止。
若最终对X共提取了m个成分t1,⋯,tm,偏最小二乘法回归将通过实施YK
对t1,⋯,tm的回归,然后再表达成YK关于原变量x1,⋯,xp的回归方程,k=1,⋯,q。
3计算方法推导
3.1普遍采用的计算推导过程为了数学推导方便起见,首先将数据做标准化处理。
X经标准化处理后的数据矩阵记为
E0=(E01,⋯,E0P)n*p,Y经过标准化处理后的数据矩阵记为F0=(F01,⋯,F0q)n*q。
第一步,记t1是E0的第一个成分,t1=E0w1,w1是E0的第一个轴,它是一个单位向量,即
||w1||=1;
记u1是F0的第一个成分,u1=F0c1,c1是F0的第一个轴,它是一个单位向量,即||c1||=1如果要t1,u1能分别很好德代表X与Y中的数据变异信息,根据主成分分析原理,应该有
Var(t1)→max
Var(u1)→max另一方面,由于回归建模的需要,又要求t1对u1有最大的解释能力,由典型相关分析
的思路,t1与u1的相关度应达到最大值,即
r(t1,u1)→max因此综合起来,在偏最小二乘回归中,我们要求t1与u1协方差达到最大,即
Cov(t1,u1)=
即求解下列优化问题
max<
E0w1,F0C1>
w1Tw1=1(3-1)
T
c1c1=1
因此,将在||w1||=1和||c1||=1的约束条件下,去求(w1TE0TF0c1)的最大值。
此种情况下我们就可以用拉格朗日算法求其最优解,记
s=w1TE0TF0c1-λ1(w1Tw1-1)-λ2(c1Tc1-1)
对s分别求关于w1、c1、λ1、λ2的偏导,并令之为零,有
E0F0c1-2λ1w1=0(3-2)
F0TE0w1-2λ2c1=0(3-3)
-(w1Tw1-1)=0(3-4)
-(c1Tc1-1)=0(3-5)
由(3-2)~(3-5)可以推出
TT
2λ1=2λ2=w1E0F0c1=<
1=2λ1=2λ2=w1TE0TF0c1,所以?
1是优化问题的目标函数值。
求得轴w1和c1后,即可得到成分
t1=E0w1
u1=F0c1
然后,分别求E0和F0对t1和u1的回归方程
归方程的残差矩阵。
F2
h小于X的秩。
E1t2P2TE2,F1t2rT2
同理可推得第h成分th,h的个数可以用交叉有效性原则进行
如此计算下去,如果X的秩为A,则会有
E0=t1P1+⋯+tAPA
F0=t1r1+⋯+tArA+FA
由于t1,⋯,tA均可以表示成E01,⋯,E0P的线性组合,因此,上式可以还原成YK=F0K关于
XJ=E0J的回归方程形式
YK=bk1X1+⋯+bkPXP+FAKk=1,..,q
3.2一种简洁的计算推导过程
3.1中介绍的推导思路是最为常见的,在3.2中将介绍一种更为简洁的计算方法,即直接在E0,⋯,Em-1矩阵中提取成分t1,⋯,tm(m<
p)。
要求th能尽可能多地携带X中的信息,同时,th对因变量系统F0有最大的解释能力。
这时无需在F0中提取成分uh,并且在迭代算法中也
无需使用其残差矩阵,而始终直接用F0进行计算。
这可以使计算过程大为简化,并且对算
法结论的解释也更为方便。
下面讨论成分t1,⋯,tm(m<
=A,A=R(X))的一种新原则。
在3.1中推导偏最小二乘法回归算法时,第一步的思路是在因变量F0抽取一个成分u1=F0c1,同时在自变量E0中抽取一个成
分t1=E0w1,成分的抽取原则是max<
。
在这个原则下得知w1,c1,u1,t1的计算方法如下:
(1)w1是矩阵E0TF0F0TE0最大特征值的特征向量,成分t1=E0w1;
(2)c1是矩阵F0TE0E0TF0最大特征值的特征向量,成分u1=F0c1;
在求得成分u1,t1以后,分别实施E0在t1上的回归,并生成残差矩阵E1,以及F0在t1上的回归,得到残差矩阵F1。
再以E1,F1取代E0,F0进行第二轮成分的提取计算,注意到成
分u1,⋯,um是不参加回归计算的,因此是否可以考虑不提取因变量的成分呢?
为此,用下述原则提取比变量中的成分t2是与3.1中介绍的方法,结果是完全等价的,
即
由于F0K是标准化变量,所以
Cov(F0K,E0w1)=r(F0K,E0w1)
因此,该优化原则是求成分t1=E0w1,使得t1能携带尽可能多的E0变异,同时,t1对因变
量F0K(k=1,⋯,q)的解释能力会综合达到最大值。
由于在目标函数上配上常量(n-1)2不影
响其求解,即
为了求w1采用拉格朗日算法求解,记
可得
对s求关于w1和λ1的偏导,并令之为零,得
由式(3-9)可知
2E0F0F0E0w1-2λ1w1=0(3-9)
w1
E0F0F0E0w1=λ1w1
2TTTT
<
F0K,E0w1>
=w1E0F0F0E0w1=w1
因此λ1矩阵E0TF0F0TE0的最大特征根,w1则是其相应的特征向量。
由此可见,在新的原则下,w1仍然是对应于E0TF0F0TE0最大特征值的特征向量,而这个新的原则完全没有提取到F0成分u1提取。
也就是说,t1=E0w1提取可以不依赖对u1的提取,而这种新的原则又从新的角度说明了t1的意义。
从这个新的原则出发,对c1,u1的计算就可以
省略。
不过,在偏最小二乘法回归的一些解释技术中,由于u1可以较好地概括F0中的信息,因此,它常常也是很有用。
4应用举例
下面将通过两个具体的案例分析,以进一步理解偏最小二乘回归的工作过程和它的特点。
4.1应用举例一
应用举例一将采用Linnerud给出的关于体能训练的数据进行典型相关分析。
在这个数据系统中被观测样本点,是某健身俱乐部的20位中年男子。
被观测变量分为两组,第一组是身体特征指标X,包括:
体重、腰围、脉搏;
第二组变量是训练结果指标Y,包括:
单杠、弯曲、跳高。
原始数据表见表4-1。
表4-1原始数据表
在简化算法中,对于h=1,2,3时,有
计算可得:
2
λ1/(n-1)2=1.272426
λ2/(n-1)2=0.038763
λ3/(n-1)2=0.026655
而成分th的方差,uk的方差以及th与uk相关系数的平方r2(th,uk)在表4-2中列出。
表4-2Var(th),Var(uk)和r2(th,uk)
h
Var(th)
Var(uk)
r2(th,uk)
1
2.0252
2.0503
0.3066
0.4381
1.9071
0.0464
3
0.2355
1.1505
0.0983
记第h个轴是wk,第h个成分tk为
tk=Eh-1wh(h=1,2,3)其中tk亦可以表示成原自变量E0的线性组合,即
tk=E0wh*
h1
*T*则wh*=(1-wjpjT)wh。
表4-3给出wh*与wh的取值。
j1
表4-3wh*与wh的取值
自变量
w2
w3
w1*
w2*
w3*
X1
-0.58989
0.46879
-0.65747
0.36793
-0.93459
X2
-0.77134
-0.56801
0.28706
-0.69989
0.80231
X3
0.23888
-0.67647
-0.69666
-0.63562
-0.22282
在利用Eh-1对th进行回归时,有回归系数向量pk,h=1,2,3,见表4-4。
表4-4回归系数pk
p1
P2
P3
-0.6659
-0.0197
-0.6574
-0.6760
-0.3546
0.2870
0.3589
-1.1942
-0.6966
成分tk=Eh-1wh的取值见表4-5。
表4-5tk取值表
NO
t1
t2
t3
-0.643
0.591
-0.131
-0.770
0.167
0.134
-0.907
-0.521
0.048
4
0.688
-0.680
0.346
5
-0.487
1.133
-0.182
6
-0.229
-0.072
0.025
7
-1.404
-0.077
-0.572
8
0.744
-0.211
-0.032
9
1.715
-0.655
-1.557
10
1.163
0.333
11
0.365
0.701
0.201
12
0.743
0.698
0.002
13
1.187
-0.757
0.366
14
-4.390
-0.760
0.255
15
-0.823
0.974
-0.083
16
-0.749
-0.667
17
-0.393
-0.203
0.564
18
1.199
0.783
0.092
19
1.048
0.373
0.319
20
1.942
-1.129
0.568
通过交叉验证的方法可得,之取一个成分t1时,拟合方程的预测性为最佳,不过为了
后面作图和解释的方便起见,我们取两个成分t1,t2拟合预测模型。
yk=r1kt1+r2kt2k=1,2,3由于成分th可以写成自变量xj的函数,即有
th=wh1*x1+wh2*x2+wh3*x3由此可得两个成分t1,t2所建立的偏最小二乘回归模型为yk=r1k(w11x1+w12x2+w13x3)+r2k(w21x1+w22x2+w23x3)=(r1kw11+r2kw21)x1+(r1kw12+r2kw22)x2+(r1kw13+r2kw23)x3回归系数的计算结果见表4-6。
表4-6回归系数rk
K
r1
r2
r3
0.3416
0.3363
0.4772
0.4160
0.2907
0.4554
0.1429
0.0651
-0.2125
所以,有
F01=-0.077E01-0.499E02-0.132E03
F02=-0.138E01-0.524E02-0.085E03
F01=-0.060E01-0.156E02-0.007E03将标准化变量Fok(k=1,2,3)和Eoj(j=1,2,3)分别还原成原始变量,yk(k=1,2,3)以及
xj(j=1,2,3),则回归方程为:
为了快速直观地观察出各个自变量在解释Yk时的作用,可以绘制回归系数图,见图4-1
图4-1回归系数的直方图
从回归系数图中可以立刻观察到,腰围变量在解释三个回归方程时起到了极为重要的作用,然而,与单杠及弯曲相比,跳高成绩的回归方程显然不够理想,三个自变量对它的解释
能力均很低。
因此有必要考虑对自变量做适当的调整。
为了考察这三个回归方程的模型精度,我们以(yik*,yik)为坐标值,对所有的样本点绘制预
测图。
yik*是第k个变量,第i个样本点(yik)的预测值。
在预测直方图上,如果所有样本点都能在图的对角线附近均匀分布,则方程的拟合值与原值差异很小,这个方程的拟合效果就是满意的。
体能训练的预测图如4-2所示。
4.2应用举例二
这是Cornell在1990年采用的一个化工方面的例子。
此后,偏最小二乘的提出者S.Wold
等人多次引用,成为单因变量偏最小二乘回归的一个经典案例。
该例中,有个自变量x1~x7,
因变量记为y,如表4-7所示:
表4-7自变量和应变量对照表
x1--直接蒸馏成分
x2--重整汽池;
x3--原油热裂化油
x4--原油催化裂化油;
x5--聚合物
x6--烷基化物
x7--天然香精
y--原辛烷值
表4-8给出了12种混合物关于这8个变量的观测数据。
要求建立y对x1~x7,的回归方程,以确定7种构成元素x1~x7对y的影响。
表4-812种混合物关于8个变量的观测数据表
这8个变量的相关系数矩阵见表4-9。
从相关系数矩阵中可以看出,在自变量之间存在严重的多重相关性,例如r(x1,x3)=0.999,r(x4,x7)=0.92,r(x1,x6)=-0.80。
实际上,这7个自变量之间有如下关系:
x1+x2+⋯+x7=1
表4-98个变量的相关系数矩阵
由于q42<
0.0975,所以选择h=3,即采用t1,t2,t3三个成分做偏最小二乘回归模型,预测效果最好。
从所得到的最终模型看,x6的回归系数值最大,它与y正相关。
这一点符合我们的基本认识。
x5的回归系数仍然出现反常符号,但它的取值很低,几乎可以忽略。
从相关系数表中可以看出,x5与y的相关度不高,并且它与其他自变量之间也没有密切联系。
也就是说,x5
是一个相对独立的变量,它不能直接解释y,甚至也很难通过其他自变量的传递作用去解释y。
因此,它在最终模型中的回归系数非常低。
与普通最小二乘回归方程相比,这个方程
的实际含义更加清晰,也更易于应用。