典型相关分析及其应用实例.docx
《典型相关分析及其应用实例.docx》由会员分享,可在线阅读,更多相关《典型相关分析及其应用实例.docx(10页珍藏版)》请在冰点文库上搜索。
典型相关分析及其应用实例
典型相关分析是多元统计分析的一个重要研究课题•它是研究两组变量之间相关的一种统计分析方法,能够有效地揭示两组变量之间的相互线性依赖关系.它借助主成分分析降维的思想,用少数儿对综合变量来反映两组变量间的线性相关性质.LI前它已经在众多领域的相关分析和预测分析中得到广泛应用.
本文首先描述了典型相关分析的统汁思想,定义了总体典型相关变量及典型相关系数,并简要概述了它们的求解思路,然后深入对样本典型相关分析的儿种算法做了比较全面的论述.根据典型相关分析的推理,归纳总结了它的一些重要性质并给出了证明,接着推导了典型相关系数的显著性检验.最后通过理论与实例分析两个层面论证了典型相关分析的应用于实际生活中的可行性与优越性.
【关键词】典型相关分析,样本典型相关,性质,实际应用
ABSTRACT
TheCanonicalCorrelationAnalysisisanimportantstudyingtopicoftheMultivariateStatisticalAnalysis・Itisthestatisticalanalysismethodwhichstudiesthecorrelationbetweentwosetsofvariables・Itcanworktorevealthemutuallinedependencerelationavailablybetweentwosetsofvariables・WiththehelpofthethoughtaboutthePrincipalComponents,wecanuseafewcomprehensivevariablestoreflectthelinearrelationshipbetweentwosetsofvariables・NowadaysIthasalreadybeenusedwidelyinthecorrelationanalysisandforecastedanalysis・
ThistextdescribesthestatisticalthoughtoftheCanonical
CorrelationAnalysisfirstly,andthendefinesthetotalcanonicalcorrelationvariablesandcanonicalcorrelationcoefficient,andsumuptheirsolutionmethodbriefly.AfteritIgodeepintodiscusssomealgorithmofthesamplecanonicalcorrelationanalysisthoroughly.
AccordingtothereasoningoftheCanonicalCorrelationAnalysis,sumupsomeofitsimportantpropertiesandgivetheidentification,followingit,Iinferthesignificancetestingaboutthecanonicalcorrelationcoefficient・Accordingtotheanalysisfromthetheoriesandtheapplication,wecanachievethepossibilityandthesuperiorityfromcanonicalcorrelationanalysisinthereallife・
[Keywords]CanonicalCorrelationAnalysis,Samplecanonicalcorrelation,Character,Practicalapplications
刖s1
第1章典型相关分析的数学描述2
第2章典型变量与典型相关系数3
2.1总体典型相关3
2.2样本典型相关4
2.2.1第一对典型相关变量的解法4
2.2.2典型相关变量的一般解法9
2.2.3从相关矩阵出发计算典型相关9
第3章典型相关变量的性质12
第4章典型相关系数的显著性检验16
第5章典型相关分析的计算步骤及应用实例19
5.1典型相关分析的计算步骤19
5.2实例分析20
结语27
致谢28
参考文献29
附录29
前言
典型相关分析(CanonicalCorrelationAnalysis,CCA)作为多元统汁学的一个重要部分,是相关分析研究的一个主要内容.典型相关分析不仅其方法本身具有重要的理论意义,而且它还可以作为其他分析方法,如多重回归、判别分析和相应分析的工具,因此在多元分析方法中占有特殊的地位.
典型相关的概念是在两个变量相关的基础上发展起来的.我们知道,两个随机变量的相关关系可以用它们的简单相关系数来衡量;一个随机变量与一组随机变量之间的相关关系可以用复相关系数来衡量•但考虑一组随机变量与另一组随机变量的关系时,如果运用两个变量的相关关系,分别考虑第一组每个变量和第二组中每
个变量的相关,或者运用复相关关系,考虑一组变量中的每个变量和另一组变量的相关,这样做比较繁琐,抓不住要领.因此,为了用比较少的变量来反映两组变量之间的相关关系,一种考虑的思路就是类似主成分分析,考虑两组变量的线性组合,从这两个线性组合中找出最相关的综合变量,通过少数儿个综合变量来反映两组变量的相关性质,这样便引出了典型相关分析.
典型相关分析的基本思想是首先在每组变量中找出变量的线性组合,使其具有最大相关性,然后再在每组变量中找出笫二对线性组合,使其分别与第一对线性组合不相关,而笫二对本身具有最大的相关性,如此继续下去,直到两组变量之间的相关性被提取完毕为止•有了这样线性组合的最大相关,则讨论两组变量之间的相关,就转化为只研究这些线性组合的最大相关,从而减少研究变量的个数.
典型相关分析是由Hotelling于1936年提出的.就目前而言,它的理论己经比较完善,计算机的发展解决了典型相关分析在应用中计算方面的困难,成为普遍应用的进行两组变量之间相关性分析技术•如在生态环境方面,用典型相关理论对预报场与因子场进行分析,实现了短期气象预测;借助典型相关,分析了植被与环境的关系;在社会生活领域,应用典型相关分析了物价指标和影响物价因素的相关关系等等.
第1章典型相关分析的数学描述
一般地,假设有一组变量
与另一组变量
齐必,…必
我们要研究这两组变量之间的相关关系,如何给两组变量之间的相关性以数量的描述.
1时,就是我们常见的研究两个变量
X
与
Y
之间的简单相关关系,其相关系数是最常见的度量,定义为:
Cov(X9Y)
q>Kp=\
p
X=(Xl,X2-Xp)
[xl
〜N网(“Q)
(或
)时,
维随机向量
,设
工】1》12
》21丫22
211
是第一组变量的协方差阵,是第一组与第二组变量的协方差阵,是笫二组变量的协方差阵•则称
的全相关系数,全相关系数用于度量一个随机变量
y
与另一组随机变量
的相关系数.
当阳>1时,利用主成分分析的思想,可以把多个变量与多个变量之间的相关化为两个新的综合变量之间的相关.也就是做两组变量的线性组合即
U=a{Xx+。
2兀+…勺~aX
厶阳+"2分…0必二"
其中,
a=0%…,勺)
和
"=(0|,02,—,鶴)
为任意非零向量,于是我们把研究两组变量之间的问题化为研究两个变量
之间的相关问题,希望寻求
a
9
P
使
U
9
V
之间最大可能的相关,我们称这种相关为典型相关,基于这种原则的分析方法就是典型相关分析.
第2章典型变量与典型相关系数
2.1总体典型相关
设有两组随机变量
X=(X\,X“・・、X$
F=(d打j
分别为
p维和g维
随机向量,根据典型相关分析的思想,我们用
X
和
Y
的线性组合
和
py
之间的相关性来研究两组随机变量
X
和
Y
之间的相关性•我们希望找到
a^\p
使得
p(aX0'Y)
最大.由相关系数的定义
曲X加)空,旳_
J如•(a'X)J如(0了)
易得出对任意常数
匕f,c,d
,均有
pKaX)十/,c(0'Y)十小=p(a'X^'Y)
这说明使得相关系数最大的
aX,p'Y
并不唯一.因此,为避免不必要的结果重复,我们在求综合变量时常常限定
Var(aX)=1
Var(0Y)=1
于是,我们就有了下面的定义:
设有两组随机变量
X=(兀兀…,X』
丫=(耳上…爲j
p+q
维随机向量
的均值向量为零,协方差阵
X>0
(不妨设
pgq
).如果存在
和
0产(久,…,0』
使得在约束条件
9
Var(aX)=1
Var(p'Y)=1
下,
p(a\Xyp\Y)-maxp(aX9/3Y)
则称
&、X典
是
XY
的典型相关变量,它们之间的相关系数称®典型相关系数;其他典型相关变量定义如下:
定义了前
&—1
对典型相关变量之后,第对典型相关变量定义为:
如果存在
(1)
必X,久Y
和前面的
A-1
对典型相关变量都不相关;
(2)
Var(a\X)=1
畑(血)=1
(3)
a'kX^\[ikY
的相关系数最大,
则称
°;浙吃丫
是
的笫
k
对(组)典型相关变量,它们之间的相关系数称为第k
个典型相关系数(
k=2、・・、p
).
2.2样本典型相关
以上是根据总体情况已知的情形进行,而实际研究中,总体均值向量
和协方差阵
通常是未知的,因而无法求得总体的典型相关变量和典型相关系数,首先需要根据观测到的样本数据阵对
进行估计.
2.2.1第一对典型相关变量的解法
Z=(心…,兀几…再)•
设总体
已知总体的
次观测数据为:
于是样本数据阵为
若假定
z〜N的“,
则曲参考文献【2】中定理2.5.1知协方差阵的最大似然估讣为
其中
样本协方差矩阵
为: