真正的好东西偏最小二乘回归多元线性回归分析+典型相关分析+主成分分析docx.docx

资源描述

真正的好东西偏最小二乘回归多元线性回归分析+典型相关分析+主成分分析docx.docx

《真正的好东西偏最小二乘回归多元线性回归分析+典型相关分析+主成分分析docx.docx》由会员分享，可在线阅读，更多相关《真正的好东西偏最小二乘回归多元线性回归分析+典型相关分析+主成分分析docx.docx（33页珍藏版）》请在冰点文库上搜索。

真正的好东西偏最小二乘回归多元线性回归分析+典型相关分析+主成分分析docx.docx

真正的好东西偏最小二乘回归多元线性回归分析+典型相关分析+主成分分析docx

偏最小二乘回归是一种新型的多元统计数据分析方法，它与1983年由伍德和阿巴诺等人首次提出。

近十年来，它在理论、方法和应用方面都得到了迅速的发展。

密西根大学的弗耐尔教授称偏最小二乘回归为第二代回归分析方法。

偏最小二乘回归方法在统计应用中的重要性主要的有以下几个方面：

（1）偏最小二乘回归是一种多因变量对多自变量的回归建模方法。

（2）偏最小二乘回归可以较好地解决许多以往用普通多元回归无法解决的

问题。

在普通多元线形回归的应用中，我们常受到许多限制。

最典型的问题就是

自变量之间的多重相关性。

如果采用普通的最小二乘方法，这种变量多重相关性

就会严重危害参数估计，扩大模型误差，并破坏模型的稳定性。

变量多重相关问

题十分复杂，长期以来在理论和方法上都未给出满意的答案，这一直困扰着从事

实际系统分析的工作人员。

在偏最小二乘回归中开辟了一种有效的技术途径，它

利用对系统中的数据信息进行分解和筛选的方式，提取对因变量的解释性最强的

综合变量，辨识系统中的信息与噪声，从而更好地克服变量多重相关性在系统建

模中的不良作用。

（3）偏最小二乘回归之所以被称为第二代回归方法，还由于它可以实现多种数据分析方法的综合应用。

偏最小二乘回归=多元线性回归分析+典型相关分析+主成分分析

由于偏最小二乘回归在建模的同时实现了数据结构的简化，因此，可以在二维平面图上对多维数据的特性进行观察，这使得偏最小二乘回归分析的图形功能十分强大。

在一次偏最小二乘回归分析计算后，不但可以得到多因变量对多自变量的回归模型，而且可以在平面图上直接观察两组变量之间的相关关系，以及观察样本点间的相似性结构。

这种高维数据多个层面的可视见性，可以使数据系统的分析内容更加丰富，同时又可以对所建立的回归模型给予许多更详细深入的实际解释。

一、偏最小二乘回归的建模策略原理方法

1.1建模原理

有q个因量{y1,...,yq}和p自量{x1,...,xp}。

了研究因量和自量

的关系,我了n个本点,由此构成了自量与因量的数据表

X={x1,...,xp}和.Y={y1,...,yq}。

偏最小二乘回分在X与Y中提取出成分t1和

u1（也就是,t1是x1,...,xp的形合,u1是y1,...,yq的形合）.在提取

两个成分,了回分析的需要,有下列两个要求:

（1）t1和u1尽可能大地携他各自数据表中的异信息;

（2）t1与u1的相关程度能达到最大。

两个要求表明，t1和u1尽可能好的代表数据表X和Y,同自量的成分

t1因量的成分u1又有最的解能力。

在第一个成分t1和u1被提取后，偏最小二乘回分施

Xt1的回

以及Yu1

的回。

如果回方程已达到意的精度，算法止；否

将利用X被t1解后的残余信息以及Y被t1解后的残余信息行第二的

成分提取。

如此往复，直到能达到一个意的精度止。

若最

X共提取

了m个成分t1

，⋯，

，

偏最小二乘回将通施

ykt1

，⋯，

，

的

回,然后再表达成yk

关于原量x1，⋯，xm，的回方程,k=1,2,⋯,q

。

1.2算方法推

了数学推方便起,首先将数据做准化理。

X准化理后的数

据矩

E0=（E01

，⋯，E0p）np

，Yj准化理后的数据矩

F0=（F01，⋯，F0q）np

。

第一步

t1是E0的第一个成分，w1是E0的第一个，它是一个位向量，

既||w1||=1。

u1是F0的第一个成分，u1=F0cc是F0的第一个，并且||c||=1。

1。

如果要t1，u1能分别很好的代表X与Y中的数据变异信息，根据主成分分

析原理，应该有

Var（u1）max

Var（t1）max

另一方面，由于回归建模的需要，又要求t1对u1有很大的解释能力，有典型相关

分析的思路，t1与u1的相关度应达到最大值，既

r（t1，u1）max

因此，综合起来，在偏最小二乘回归中，我们要求t1与u1的协方差达到最大，既

Cov（t1，u1）=Var（t1）Var（u1）r（t1，u1）max

正规的数学表述应该是求解下列优化问题，既

max

F0c1

w1,c1E0

s.t

c1c1

因此，将在||w1||

=1和||c1||

的约束条件下，去求（w1

E0F0c1）

的最大

值。

如果采用拉格朗日算法，记

F0c1－

s=w1E0'

1（w1w1－1）－2

（c1c1－1）

对s分别求关于w1

，c1，

1和

2的偏导并令之为零，有

c1－2

=E0

1w1=0

（1-2）

2c1=0

c1=F0E0

w1－2

（1-3）

=－（w1w1－1）=0

（1-4）

－1）=0

（1-5）

=－（c1c1

由式（1-2）~（1-5）,可以推出

22w'1E'0F0c1E0w1,F0c1

记12122w'

1E'

0F0c1,所以,

1正是优化问题的目标函数值.

把式（1-2）和式（1-3）写成

E'0F0c1

1w1

（1-6）

F'0E0w1

1c1

（1-7）

将式（1-7）代入式（1-6）,有

E'0F0F'0E0w112w1

（1-8）

同理,可得

0E0E'

（1-9）

0F0c11c1

可见,w1是矩阵E'0

F0F'0E0的特征向量,对应的特征值为1.1是目标函数值,它要

求取最大值,所以,

w1是对应于E'

F0F'

0E0矩阵最大特征值的单位特征向量

.而另

一方面,c1是对应于矩阵F'

0E0E'

F0最大特征值1

2的单位特征向量.

求得轴w1和c1后,即可得到成分

t1E0w1

u1F0c1

然后,分别求E0和F0对t1,u1的三个回归方程

t1p'

（1-10）

u1q'

（1-11）

t1r'

（1-12）

式中,回归系数向量是

0t1

（1-13）

||t1

||2

0u1

（1-14）

||u1||2

0t1

（1-15）

||t1||2

而E1,F1,F1分别是三个回归方程的残差矩阵.

第二步用残差矩阵E1和F1取代E0和F0,然后,求第二个轴w2和c2以及第

二个成分t2,u2,有

t2=E1w2

u2=F1c2

t2,u2

w'2E'1F1c2

w2是对应于矩阵E'

1F1F'

1E1

最大特征值

2的特征值,c2是对应于矩阵

F'1E1E'1F1最大特征值的特征向量.计算回归系数

1t2

||t2

||2

1t2

||t2

||2

因此,有回归方程

t2p'

t2r'

如此计算下去,如果X的秩是A,则会有

t1p'1

tAp'A

（1-16）

F0t1r'1

tAr'A

（1-17）

由于,

t1,

均可以表示成E

的线性组合

因此式

还可以还原

（1-17）

成yk

F0k关于xj*

E0k的回方程形式，即

yk*

k1x1*

kpx*

FAk

k=1,2,⋯,q

FAk是残差距FA的第k列。

1.3交叉有效性

下面要的是在有的数据表下,如何确定更好的回方程。

在多

情形下,偏最小二乘回方程并不需要用全部的成分t1,,tA行回建模,而

是可以象在主成分分析一,采用截尾的方式前m个成分

（mA,A秩（X））,用m个后的成分t1,,tm就可以得到一个性好

的模型。

事上,如果后的成分已不能解F0提供更有意的信息,采用

多的成分只会破坏的,引的。

在多元回分析

一章中,我曾在整复定系数的内容中一点。

下面的是怎来确定所提取的成分个数。

在多元回分析中,曾介用抽法来确定回模型是否适于用。

我把手中的数据分成两部分:

第一部分用于建立回方程,求出回系数估量

bB,合y?

B以及残差均方和?

B2;再用第二部分数据作点,代入才所求

得的回方程,由此求出y?

T和?

T2。

一般地,若有?

T2?

B2,回方程会有更好的

效果。

若?

T2?

B2,回方程不宜用于。

在偏最小二乘回建模中,究竟取多少个成分宜,可通考察增加一个新的成分后,能否模型的功能有明的改来考。

采用似于抽

法的工作方式,把所有n个本点分成两部分:

第一部分除去某个本点i的所有本点集合（共含n-1个本点）,用部分本点并使用h个成分合一个回方程;第二部分是把才被排除的本点i代入前面合的回方程,得到yj在

本点i上的合y?

hj（i）。

于每一个i=1,2,⋯,n,重复上述,可以定yj

的差平方和PRESShj,有

PRESS

（y

i）

）

（1-18）

hj（

定义Y的预测误差平方和为

有

PRESSh,

（1-19）

PRESSh

PRESShj

显然,如果回归方程的稳健性不好

误差就很大,它对样本点的变动就会十分敏感,

这种扰动误差的作用,就会加大PRESSh的值。

另外,再采用所有的样本点,拟合含h个成分的回归方程。

这是,记第i个样本

点的预测值为y?

hji,则可以记yj的误差平方和为SShj

有

SShj（yij

（1-20）

yhji

）

定义Y的误差平方和为SSh,有

SSh

SShj

（1-21）

一般说来,总是有PRESSh大于SSh,而SSh则总是小于SSh1。

下面比较SSh1和

PRESSh。

SSh1是用全部样本点拟合的具有h-1

个成分的方程的拟合误差;

PRESSh增加了一个成分th,但却含有样本点的扰动误差。

如果h个成分的回归方

程的含扰动误差能在一定程度上小于

（h-1）个成分回归方程的拟合误差

则认为增

加一个成分th,会使预测结果明显提高。

因此我们希望（PRESSh/SSh

1）的比值能

越小越好。

在SIMCA-P软件中,指定

（PRESS/SS

）0.952

即PRESSh

0.95SSh1时,增加成分th就是有益的;或者反过来说,当

PRESSh

0.95SSh1时,就认为增加新的成分th,对减少方程的预测误差无明显

的改善作用.

另有一种等价的定义称为交叉有效性。

对每一个变量yk,定义

Qhk2

PRESShk

（1-22）

SS（h1）k

于全部因量Y,成分th交叉有效性定

Qh2

PRESShk

PRESSh

（1-23）

SS（h1）

SS（h1）k

用交叉有效性量成分th模型精度的献有如下两个尺度。

（1）当Qh2

（10.952）

0.0975

th成分的献是著的。

而易

0.0975与

（PRESS

/SS

）0.952

是完全等价的决策原。

（2）于k=1,2,⋯,q,至少有一个k,使得

Qh20.0975

增加成分th,至少使一个因量yk的模型得到著的改善,因此,也

可以考增加成分th是明有益的。

明确了偏最小二乘回方法的基本原理、方法及算法步后，我将做

分析。

附录

functionw=maxdet（A）

%求矩阵的最大特征值

[v,d]=eig（A）;

[n,p]=size（d）;

d1=d*ones（p,1）;

d2=max（d1）;

i=find（d1==d2）;

w=v（:

i）;

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

function[c,m,v]=norm1（C）

%对数据进行标准化处理

[n,s]=size（C）;

fori=1:

forj=1:

c（i,j）=（C（i,j）-mean（C（:

j）））/sqrt（cov（C（:

j）））;end

end

m=mean（C）;

forj=1:

v（1,j）=sqrt（cov（C（:

j）））;

end

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

function[t,q,w,wh,f0,FF]=fun717（px,py,C）

%px自变量的输入个数

%py输入因变量的个数。

%C输入的自变量和因变量组成的矩阵

%t提取的主成分

%q为回归系数。

%w最大特征值所对应的特征向量。

%wh处理后的特征向量

%f0回归的标准化的方程系数

%FF原始变量的回归方程的系数

c=norm1（C）;

%norm1

为标准化函数

y=c（:

px+1:

px+py）;

截取标准化的因变量

E0=c（:

px）;

F0=c（:

px+1:

px+py）;

A=E0'*F0*F0'*E0;

w（:

1）=maxdet（A）;

求最大特征向量

t（:

1）=E0*w（:

1）;

提取主成分

E（:

px）=E0-t（:

1）*（E0'*t（:

1）/（t（:

1）'*t（:

1）））';

%获得回归系数

p（:

px）=（E0'*t（:

1）/（t（:

1）'*t（:

1）））';

fori=0:

px-2

B（:

px*i+1:

px*i+px）=E（:

px*i+1:

px*i+px）'*F0*F0'*E（:

px*i+1:

px*i+px）

;

w（:

i+2）=maxdet（B（:

px*i+1:

px*i+px））;

%maxdet为求最大特征值的函数

t（:

i+2）=E（:

px*i+1:

px*i+px）*w（:

i+2）;

p（:

px*i+px+1:

px*i+2*px）=（E（:

px*i+1:

px*i+px）'*t（:

i+2）/（t（:

i+2）'*t（

i+2）））';

E（:

px*i+px+1:

px*i+2*px）=E（:

px*i+1:

px*i+px）-t（:

i+2）*（E（:

px*i+1:

px*i+px）'*t（:

i+2）/（t（:

i+2）'*t（:

i+2）））';

end

fors=1:

q（:

s）=p（1,px*（s-1）+1:

px*s）';

end

[n,d]=size（q）;

forh=1:

iw=eye（d）;

forj=1:

h-1

iw=iw*（eye（d）-w（:

j）*q（:

j）'）;

end

wh（:

h）=iw*w（:

h）;

end

forj=1:

zr（j,:

）=（regress1（y（:

j）,t））';

求回归系数

end

forj=1:

fori=1:

py%

生成标准化变量的方程的系数矩阵

w1=wh（:

j）;

zr1=（zr（i,1:

j））';

f0（i,:

j）=（w1*zr1）';

end

[normxy,meanxy,covxy]=norm1（C）;%no

rmxy标准化后的数据矩阵

%meanxy每一列的均值

%covxy每一列的方差

ccxx=ones（py,1）*meanxy（1,1:

px）;

ccy=（covxy（1,px+1:

px+py））'*ones（1,px）;

ccx=ones（py,1）*（covxy（1,1:

px））;

ff=ccy.*f0（:

j）./ccx;

fff=-（sum（（ccy.*ccxx.*f0（:

j）./ccx）'）-meanxy（1,px+1:

px+py））';

FF（:

j）=[fff,ff];%生成

原始变量方程的常数项和系数矩阵

end

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

function[r,Rdyt,RdYt,RdYtt,Rdytt,VIP]=fun8y（px,py,c）

X=c（:

px）;

Y=c（:

px+1:

px+py）;

x=norm1（X）;

y=norm1（Y）;

[t,q,w]=fun717（px,py,[X,Y]）;

r1=corrcoef（[y,t]）;

r=r1（py+1:

px+py,1:

py）';

Rdyt=r.^2;

RdYt=mean（Rdyt）

form=1:

RdYtt（1,m）=sum（RdYt（1,1:

m）'）;

end

forj=1:

form=1:

Rdytt（j,m）=sum（Rdyt（j,1:

m）'）;

end

forj=1:

form=1:

Rd（j,m）=RdYt（1,1:

m）*（（w（j,1:

m）.^2）'）;

end

forj=1:

VIP（j,:

）=sqrt（（px*ones（1,px）./RdYtt）.*Rd（j,:

））;

end

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

functio

展开阅读全文