偏最小二乘回归方法PLSWord文档格式.docx

资源描述

偏最小二乘回归方法PLSWord文档格式.docx

《偏最小二乘回归方法PLSWord文档格式.docx》由会员分享，可在线阅读，更多相关《偏最小二乘回归方法PLSWord文档格式.docx（17页珍藏版）》请在冰点文库上搜索。

偏最小二乘回归方法PLSWord文档格式.docx

2.2偏最小二乘回归分析的建模方法

设有q个因变量{y1,⋯,yq}和p个自变量{x1,⋯,xp},为了研究因变量与自变量的统计关

系，观测n个样本点，由此构成了自变量与因变量的数据表X=【x1,⋯,xp】n*p和Y=【y1,⋯,yq】

n*q。

偏最小二乘法回归分别在X与Y中提取出t1和u1（也就是说，t1是x1,⋯,xp的线性组合，u1是y1,⋯,yq的线性组合）。

在提取这两个成分时，为了回归分析的需要，有下列两个要求：

（1）t1和u1应尽可能大地携带它们各自数据表中的变异信息

（2）t1和u1的相关程度能达到最大

这两个要求表明，t1和u1应尽可能好地代表数据表X和Y，同时自变量的成分t1对因变量的成分u1又有最强的解释能力。

在第一个成分t1和u1被提取后，偏最小二乘法回归分别实施X对t1的回归以及Y对t1

的回归。

如果方程达到了满意的精度，则算法终止；

否则，将利用X被t1解释后的残余信息以及Y被t1解释后的残余信息进行第二轮的成分提取。

如此递推，直到能达到一个较为满意的精度为止。

若最终对X共提取了m个成分t1,⋯,tm，偏最小二乘法回归将通过实施YK

对t1,⋯,tm的回归，然后再表达成YK关于原变量x1,⋯,xp的回归方程，k=1,⋯,q。

3计算方法推导

3.1普遍采用的计算推导过程为了数学推导方便起见，首先将数据做标准化处理。

X经标准化处理后的数据矩阵记为

E0=（E01,⋯,E0P）n*p,Y经过标准化处理后的数据矩阵记为F0=（F01,⋯,F0q）n*q。

第一步，记t1是E0的第一个成分，t1=E0w1,w1是E0的第一个轴，它是一个单位向量，即

||w1||=1；

记u1是F0的第一个成分，u1=F0c1,c1是F0的第一个轴，它是一个单位向量，即||c1||=1如果要t1,u1能分别很好德代表X与Y中的数据变异信息，根据主成分分析原理，应该有

Var（t1）→max

Var（u1）→max另一方面，由于回归建模的需要，又要求t1对u1有最大的解释能力，由典型相关分析

的思路，t1与u1的相关度应达到最大值，即

r（t1,u1）→max因此综合起来，在偏最小二乘回归中，我们要求t1与u1协方差达到最大，即

Cov（t1,u1）=

即求解下列优化问题

max<

E0w1,F0C1>

w1Tw1=1（3-1）

c1c1=1

因此，将在||w1||=1和||c1||=1的约束条件下，去求（w1TE0TF0c1）的最大值。

此种情况下我们就可以用拉格朗日算法求其最优解，记

s=w1TE0TF0c1-λ1（w1Tw1-1）-λ2（c1Tc1-1）

对s分别求关于w1、c1、λ1、λ2的偏导，并令之为零，有

E0F0c1-2λ1w1=0（3-2）

F0TE0w1-2λ2c1=0（3-3）

-（w1Tw1-1）=0（3-4）

-（c1Tc1-1）=0（3-5）

由（3-2）~（3-5）可以推出

2λ1=2λ2=w1E0F0c1=<

1=2λ1=2λ2=w1TE0TF0c1,所以?

1是优化问题的目标函数值。

求得轴w1和c1后，即可得到成分

t1=E0w1

u1=F0c1

然后，分别求E0和F0对t1和u1的回归方程

归方程的残差矩阵。

h小于X的秩。

E1t2P2TE2,F1t2rT2

同理可推得第h成分th,h的个数可以用交叉有效性原则进行

如此计算下去，如果X的秩为A，则会有

E0=t1P1+⋯+tAPA

F0=t1r1+⋯+tArA+FA

由于t1,⋯,tA均可以表示成E01,⋯,E0P的线性组合，因此，上式可以还原成YK=F0K关于

XJ=E0J的回归方程形式

YK=bk1X1+⋯+bkPXP+FAKk=1,..,q

3.2一种简洁的计算推导过程

3.1中介绍的推导思路是最为常见的，在3.2中将介绍一种更为简洁的计算方法，即直接在E0,⋯,Em-1矩阵中提取成分t1,⋯,tm（m<

p）。

要求th能尽可能多地携带X中的信息，同时，th对因变量系统F0有最大的解释能力。

这时无需在F0中提取成分uh，并且在迭代算法中也

无需使用其残差矩阵，而始终直接用F0进行计算。

这可以使计算过程大为简化，并且对算

法结论的解释也更为方便。

下面讨论成分t1,⋯,tm（m<

=A,A=R（X））的一种新原则。

在3.1中推导偏最小二乘法回归算法时，第一步的思路是在因变量F0抽取一个成分u1=F0c1，同时在自变量E0中抽取一个成

分t1=E0w1,成分的抽取原则是max<

。

在这个原则下得知w1，c1，u1，t1的计算方法如下：

（1）w1是矩阵E0TF0F0TE0最大特征值的特征向量，成分t1=E0w1；

（2）c1是矩阵F0TE0E0TF0最大特征值的特征向量，成分u1=F0c1；

在求得成分u1，t1以后，分别实施E0在t1上的回归，并生成残差矩阵E1，以及F0在t1上的回归，得到残差矩阵F1。

再以E1，F1取代E0，F0进行第二轮成分的提取计算，注意到成

分u1,⋯,um是不参加回归计算的，因此是否可以考虑不提取因变量的成分呢？

为此，用下述原则提取比变量中的成分t2是与3.1中介绍的方法，结果是完全等价的，

即

由于F0K是标准化变量，所以

Cov（F0K,E0w1）=r（F0K,E0w1）

因此，该优化原则是求成分t1=E0w1，使得t1能携带尽可能多的E0变异，同时，t1对因变

量F0K（k=1,⋯,q）的解释能力会综合达到最大值。

由于在目标函数上配上常量（n-1）2不影

响其求解，即

为了求w1采用拉格朗日算法求解，记

可得

对s求关于w1和λ1的偏导，并令之为零，得

由式（3-9）可知

2E0F0F0E0w1-2λ1w1=0（3-9）

E0F0F0E0w1=λ1w1

2TTTT

F0K,E0w1>

=w1E0F0F0E0w1=w1

因此λ1矩阵E0TF0F0TE0的最大特征根，w1则是其相应的特征向量。

由此可见，在新的原则下，w1仍然是对应于E0TF0F0TE0最大特征值的特征向量，而这个新的原则完全没有提取到F0成分u1提取。

也就是说，t1=E0w1提取可以不依赖对u1的提取，而这种新的原则又从新的角度说明了t1的意义。

从这个新的原则出发，对c1,u1的计算就可以

省略。

不过，在偏最小二乘法回归的一些解释技术中，由于u1可以较好地概括F0中的信息，因此，它常常也是很有用。

4应用举例

下面将通过两个具体的案例分析,以进一步理解偏最小二乘回归的工作过程和它的特点。

4.1应用举例一

应用举例一将采用Linnerud给出的关于体能训练的数据进行典型相关分析。

在这个数据系统中被观测样本点，是某健身俱乐部的20位中年男子。

被观测变量分为两组，第一组是身体特征指标X，包括：

体重、腰围、脉搏；

第二组变量是训练结果指标Y，包括：

单杠、弯曲、跳高。

原始数据表见表4-1。

表4-1原始数据表

在简化算法中，对于h=1,2,3时，有

计算可得：

λ1/（n-1）2=1.272426

λ2/（n-1）2=0.038763

λ3/（n-1）2=0.026655

而成分th的方差，uk的方差以及th与uk相关系数的平方r2（th,uk）在表4-2中列出。

表4-2Var（th）,Var（uk）和r2（th,uk）

Var（th）

Var（uk）

r2（th,uk）

2.0252

2.0503

0.3066

0.4381

1.9071

0.0464

0.2355

1.1505

0.0983

记第h个轴是wk，第h个成分tk为

tk=Eh-1wh（h=1,2,3）其中tk亦可以表示成原自变量E0的线性组合，即

tk=E0wh*

*T*则wh*=（1-wjpjT）wh。

表4-3给出wh*与wh的取值。

表4-3wh*与wh的取值

自变量

w1*

w2*

w3*

-0.58989

0.46879

-0.65747

0.36793

-0.93459

-0.77134

-0.56801

0.28706

-0.69989

0.80231

0.23888

-0.67647

-0.69666

-0.63562

-0.22282

在利用Eh-1对th进行回归时，有回归系数向量pk，h=1,2,3,见表4-4。

表4-4回归系数pk

-0.6659

-0.0197

-0.6574

-0.6760

-0.3546

0.2870

0.3589

-1.1942

-0.6966

成分tk=Eh-1wh的取值见表4-5。

表4-5tk取值表

-0.643

0.591

-0.131

-0.770

0.167

0.134

-0.907

-0.521

0.048

0.688

-0.680

0.346

-0.487

1.133

-0.182

-0.229

-0.072

0.025

-1.404

-0.077

-0.572

0.744

-0.211

-0.032

1.715

-0.655

-1.557

1.163

0.333

0.365

0.701

0.201

0.743

0.698

0.002

1.187

-0.757

0.366

-4.390

-0.760

0.255

-0.823

0.974

-0.083

-0.749

-0.667

-0.393

-0.203

0.564

1.199

0.783

0.092

1.048

0.373

0.319

1.942

-1.129

0.568

通过交叉验证的方法可得，之取一个成分t1时，拟合方程的预测性为最佳，不过为了

后面作图和解释的方便起见，我们取两个成分t1，t2拟合预测模型。

yk=r1kt1+r2kt2k=1,2,3由于成分th可以写成自变量xj的函数，即有

th=wh1*x1+wh2*x2+wh3*x3由此可得两个成分t1，t2所建立的偏最小二乘回归模型为yk=r1k（w11x1+w12x2+w13x3）+r2k（w21x1+w22x2+w23x3）=（r1kw11+r2kw21）x1+（r1kw12+r2kw22）x2+（r1kw13+r2kw23）x3回归系数的计算结果见表4-6。

表4-6回归系数rk

0.3416

0.3363

0.4772

0.4160

0.2907

0.4554

0.1429

0.0651

-0.2125

所以，有

F01=-0.077E01-0.499E02-0.132E03

F02=-0.138E01-0.524E02-0.085E03

F01=-0.060E01-0.156E02-0.007E03将标准化变量Fok（k=1,2,3）和Eoj（j=1,2,3）分别还原成原始变量，yk（k=1,2,3）以及

xj（j=1,2,3）,则回归方程为：

为了快速直观地观察出各个自变量在解释Yk时的作用，可以绘制回归系数图，见图4-1

图4-1回归系数的直方图

从回归系数图中可以立刻观察到，腰围变量在解释三个回归方程时起到了极为重要的作用，然而，与单杠及弯曲相比，跳高成绩的回归方程显然不够理想，三个自变量对它的解释

能力均很低。

因此有必要考虑对自变量做适当的调整。

为了考察这三个回归方程的模型精度，我们以（yik*,yik）为坐标值，对所有的样本点绘制预

测图。

yik*是第k个变量，第i个样本点（yik）的预测值。

在预测直方图上，如果所有样本点都能在图的对角线附近均匀分布，则方程的拟合值与原值差异很小，这个方程的拟合效果就是满意的。

体能训练的预测图如4-2所示。

4.2应用举例二

这是Cornell在1990年采用的一个化工方面的例子。

此后,偏最小二乘的提出者S.Wold

等人多次引用,成为单因变量偏最小二乘回归的一个经典案例。

该例中,有个自变量x1~x7,

因变量记为y,如表4-7所示：

表4-7自变量和应变量对照表

x1--直接蒸馏成分

x2--重整汽池;

x3--原油热裂化油

x4--原油催化裂化油;

x5--聚合物

x6--烷基化物

x7--天然香精

y--原辛烷值

表4-8给出了12种混合物关于这8个变量的观测数据。

要求建立y对x1~x7,的回归方程,以确定7种构成元素x1~x7对y的影响。

表4-812种混合物关于8个变量的观测数据表

这8个变量的相关系数矩阵见表4-9。

从相关系数矩阵中可以看出，在自变量之间存在严重的多重相关性，例如r（x1,x3）=0.999,r（x4,x7）=0.92,r（x1,x6）=-0.80。

实际上，这7个自变量之间有如下关系：

x1+x2+⋯+x7=1

表4-98个变量的相关系数矩阵

由于q42<

0.0975，所以选择h=3,即采用t1,t2,t3三个成分做偏最小二乘回归模型,预测效果最好。

从所得到的最终模型看,x6的回归系数值最大,它与y正相关。

这一点符合我们的基本认识。

x5的回归系数仍然出现反常符号,但它的取值很低,几乎可以忽略。

从相关系数表中可以看出,x5与y的相关度不高,并且它与其他自变量之间也没有密切联系。

也就是说,x5

是一个相对独立的变量,它不能直接解释y,甚至也很难通过其他自变量的传递作用去解释y。

因此,它在最终模型中的回归系数非常低。

与普通最小二乘回归方程相比,这个方程

的实际含义更加清晰,也更易于应用。

展开阅读全文