典型相关分析方法研究报告.docx

上传人:b****1 文档编号:15099637 上传时间:2023-06-30 格式:DOCX 页数:13 大小:189.96KB
下载 相关 举报
典型相关分析方法研究报告.docx_第1页
第1页 / 共13页
典型相关分析方法研究报告.docx_第2页
第2页 / 共13页
典型相关分析方法研究报告.docx_第3页
第3页 / 共13页
典型相关分析方法研究报告.docx_第4页
第4页 / 共13页
典型相关分析方法研究报告.docx_第5页
第5页 / 共13页
典型相关分析方法研究报告.docx_第6页
第6页 / 共13页
典型相关分析方法研究报告.docx_第7页
第7页 / 共13页
典型相关分析方法研究报告.docx_第8页
第8页 / 共13页
典型相关分析方法研究报告.docx_第9页
第9页 / 共13页
典型相关分析方法研究报告.docx_第10页
第10页 / 共13页
典型相关分析方法研究报告.docx_第11页
第11页 / 共13页
典型相关分析方法研究报告.docx_第12页
第12页 / 共13页
典型相关分析方法研究报告.docx_第13页
第13页 / 共13页
亲,该文档总共13页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

典型相关分析方法研究报告.docx

《典型相关分析方法研究报告.docx》由会员分享,可在线阅读,更多相关《典型相关分析方法研究报告.docx(13页珍藏版)》请在冰点文库上搜索。

典型相关分析方法研究报告.docx

典型相关分析方法研究报告

典型相关分析法研究

摘要:

典型相关分析是研究两组变量(或两个随机向量)之间的相关关系的一种统计法。

与仅研究二个变量间线性关系的简单相关分析相比,典型相关分析能提醒出两组变量之间的在联系,且两组变量的数目可以改变,这确定了它的重要性。

随着计算机技术的开展,典型相关分析在各个行业试验研究中应用日渐广泛。

本文主要介绍典型相关分析的根本原理与步骤并举例说明其应用。

关键词:

典型相关分析;根本原理;步骤;应用

Abstract:

Canonicalcorrelationanalysisisthestudyoftwogroupsofvariables(ortworandomvectors)astatisticalmethodtherelationshipbetweenthe.paredwithonlythesimplecorrelationanalysisoflinearrelationshipbetweentwovariablesandcanonicalcorrelationanalysiscanrevealtheinternalrelationsbetweentwosetsofvariables,andthenumberoftwogroupsofvariablescanchange,thisdeterminestheimportanceofit.Withthedevelopmentofputertechnology,thecanonicalcorrelationanalysissystemhasbeenwidelyusedinvariousindustriesinexperimentalstudy.Thispapermainlyintroducesthebasicprincipleandprocedureofcanonicalcorrelationanalysisandexamplesofitsapplication.

Keywords:

Canonicalcorrelationanalysis;basicprinciple;step;application

一、引言

典型相关分析(CanonicalCorrelationAnalysis简称CCA)是处理两个随机矢量之间相关性的统计法,在多元统计分析中占有非常重要的地位。

典型相关分析可有效反映两组统计数据之间的关系,有着重要的应用背景[1]。

在实际分析问题中,当我们面临两组多变量数据,并希望研究两组变量之间的关系时,就要用到典型相关分析。

例如,为了研究扩性财政政策实施以后对宏观经济开展的影响,就需要考察有关财政政策的一系列指标如财政支出总额的增长率、财政赤字增长率、国债发行额的增长率、税率降低率等与经济开展的一系列指标如国生产总值增长率、就业增长率、物价上涨率等两组变量之间的相关程度。

二、典型相关分析的国外研究现状

典型相关分析及其改良算法已成功的应用到计算机视觉、模式识别、电子通信、生物医学、文本和图像检索和社会统计学等众多学科或领域。

很多学者都在从事这面的研究,并取得了良好的效果。

权森[2]等将典型相关分析应用到特征融合中,利用典型相关分析到达了信息冗余的目的。

拓[3]等利用典型相关分析法来抑制主动声呐直达波干扰并取得了很好的效果。

磊[4]将多集典型相关分析用于雷达辐射源指纹识别,与其他的法相比具有更好的识别性能。

洁玉[5]结合广义典型相关分析,提出一种新的仿射不变特征提取法,且在视点变换图形识别中得到很高的识别率。

Kim[6]将量典型相关分析应用于判别特征选择和动作检测,并取得很好的效果。

Hwang[7]将多重集典型相关分析与主分量分析相结合,并将这种新法应用到功能神经影像学中。

Raul[8]提出一种新型正规化CCA法,并将其应用于NCL-60微小核糖核酸癌症数据,取得了更稳定和更正确的结果。

Wang[9]利用典型相关分析进展多元回归的收缩和选择。

随着研究的深入,典型相关分析及其改良算法的理论知识越来越完善,应用的领域和学科越来越广。

三、典型相关分析的根本思想

典型相关分析是研究两组变量间整体线性相关关系的多元统计法,它借助于主成分分析的思想,对于每一组变量分别寻找线性组合,使生成的新综合变量能代表原始变量大局部的信息,同时与另一组变量生成的新的综合变量的相关程度最大,这样的一组新的综合变量称为第一对典型相关变量,同样的法可以找到第二对、第三对…,使各对典型相关变量之间不相关,典型相关变量之间的简单相关系数称为典型相关系数[10]。

四、典型相关的数学描述

考虑两组变量的向量

其协差阵为

其中Σ11是第一组变量的协差矩阵[11];

Σ22是第二组变量的协差矩阵;

是X和Y的协差矩阵。

如果我们记两组变量的第一对线性组合为:

其中:

所以,典型相关分析就是求a1和b1,使ρuv到达最大。

五、典型相关系数和典型变量

1.求法

在约束条件:

下,求a1和b1,使ρuv到达最大。

根据数学分析中条件极值的求法,引入Lagrange乘数,求极值问题,那么可以转化为求

的极大值,其中λ和v是Lagrange乘数[12]。

将上面的3式分别左乘a1’和b1’

第一对典型变量提取了原始变量X与Y之间相关的主要局部,如果这局部还不能足以解释原始变量,可以在剩余的相关中再求出第二对典型变量和他们的典型相关系数[13]。

在剩余的相关中再求出第二对典型变量和他们的典型相关系数。

设第二对典型变量为:

在约束条件

求使

到达最大的a2和b2

2.典型变量的性质

〔1〕同一组变量的典型变量之间互不相关

因为特征向量之间是正交的。

故X组的典型变量之间是相互独立的:

Y组的典型变量之间是相互独立的:

(2)不同组变量的典型变量之间的相关性

不同组一对典型变量之间的相关系数为:

同对相关系数为λi,不同对那么为零。

3、原始变量与典型变量之间的相关系数

原始变量相关系数矩阵

X典、型变量系数矩阵

y典型变量系数矩阵

六、典型相关分析适用性检验和典型相关系数的显著性检验

典型相关分析是研究两组变量之间相关关系的一种统计法,但是并非所有的截面数据都适合于典型相关分析。

典型相关分析是在原始数据满足一定条件和假设的前提下进展的,这些条件包括原始变量要服从多元正态分布,样本容量至少要大于原始变量个数,这些假设包括两组变量之间要具有相关性,每组原始变量中能够综合出典型变量,即原始变量组要有一定的相关性等[14]。

假设这些条件和假设无法满足,就不能进展典型相关分析。

所以,应用典型相关分析时,首先要对其适用性进展检验分析。

1.原始变量组相关性检验

进展典型相关分析时,既要求原始变量组存在一定相关性,但是又不能存在高度的多重共线性。

为此,典型相关分析适用性的检验,首先是从原始变量组相关性检验开场的。

具体包括:

〔1〕原始变量组存在一定相关性的假设检验。

检验的法可以借鉴主成分分析适用性的检验法,运用巴特莱特球性检验来进展。

巴特莱特球性检验是从原始数据整个相关矩阵出发进展的检验,检验的原假设是相关矩阵为单位矩阵,如果不能拒绝原假设,说明原始变量之间相互独立,不适合进展典型相关分析。

事实上,如果原始数据的相关矩阵是一个单位矩阵,各个原始变量之间互不相关,这时进展典型相关分析,那么得到和原始变量个数一样的典型变量,而且典型变量就是各原始变量自身,显然是不适合进展典型相关分析的。

〔2〕原始变量组变量高度多重共线性的检验。

典型相关分析要求原始变量组要存在一定的相关性,但同时又要求原始变量之间不能有高度的多重共线性,否那么也将不能产生典型变量,导致不能进展典型相关分析。

检验原始变量组是否存在高度的多重共线性,可以采用如下的检验法:

可决系数和差膨胀因子法[15]。

对于每组变量,分别以其中的每个变量为被解释变量(因变量),其他变量为解释变量做回归,用R2j表示任意xj为被解释变量,其他变量为解释变量做线性回归的可决系数,由于R2j度量了xj与其他解释变量的线性相关程度,这种相关程度越强,说明变量间多重共线性越重,反之,xj与其他变量的线性相关程度越弱,说明变量间的多重共线性越弱。

病态指数法。

根据矩阵行列式的性质,矩阵的行列式等于其特征根的连乘积。

因而当行列式|X’X|≈0时,矩阵X’X至少有一个特征根近似于零。

反之,可以证明,当矩阵X’X至少有一个特征根近似为零时,X必存在多重共线性。

多重共线性的程度常常用病态指数来衡量。

为特征根的病态指数,其中,这里的Km是X’X的最大特征根。

病态指数度量了矩阵X’X的特征根散布程度,可以用来判断多重共线性是否存在以及多重共线性的重程度。

一般认为,0

除上述外,还可以根据简单相关系数矩阵来判断原始变量部是否存在重多种共线性。

一般而言,如果每两个解释变量的简单相关系数比拟高,如大于019,那么可认为存在着较重的多重共线性。

2.原始变量组间线性相关性检验

典型相关分析中,原始变量总体Z中的两组变量X,Y如果不相关,即COV(X,Y)=212=0,那么有

关两组变量典型相关的讨论以及典型相关系数的计算就毫无意义了。

原始变量组间相关性检验,即是典型相关分析适用性的检验,同时又是对典型相关系数的整体检验。

所谓整体检验是同时检验所有的典型相关系数看是否有一个是显著的。

3.典型相关系数的显著性检验

计算典型相关系数是典型相关分析中最重要的环节,但是并不是所有求出的典型相关系数都是显著相关的,这就必须要对典型相关系数的显著性进展检验。

典型相关系数的本质上是两组原始变量中所提取的典型变量之间的相关,并不是两组原始变量之间的相关,典型相关系数是有多个维度的。

所以典型相关系数检验采取的是维度递减检验,即从第一个典型相关系数的显著性检验开场,然后是第二、第三,,一直到所有的各典型相关系数的显著性检验。

这种维度递减检验实际是对局部总体典型相关系数为0的假设进展检验,仍然是一种多元检验。

检验的原假设是,H(r)0:

Kr=0(r=2,3,,,m,m=min(p,q)),备择假设H1:

至少一个典型相关系数。

维度递减检验具体有两种做法:

一是采用巴特莱特大样本的V2检验,一是采用近似的F检验[16]。

 

七、对典型变量代表性的检验分析

典型变量是由原始变量进展综合得到的,典型变量的代表性如也关系着典型相关分析的效果好坏,因此还需要对典型变量代表性进展检验分析。

典型变量代表性的检验分析是通过典型变量与原始变量的相关程度以及一组典型变量代表另一组原始变量的能力来反映的。

即通过计算X、Y变量组由自己的典型变量解释与由对的典型变量解释的差百分比与累计百分比。

八、应用举例

在这里我们举例说明典型相关分析法的应用,我们根据调查数据来分析家庭特征与家庭消费之间的关系。

为了了解家庭的特征与其消费模式之间的关系。

调查了70个家庭的下面两组变量:

分析两组变量之间的关系。

变量间的相关系数矩阵如下:

 

典型相关分析如下:

 

各组变量系数如下:

 

由表可以得出,两个反映消费的指标与第一对典型变量中u1的相关系数分别为0.9866和0.8872,可以看出u1可以作为消费特性的指标,第一对典型变量中v1与Y2之间的相关系数为0.9822,可见典型变量v1主要代表了了家庭收入,u1和v1的相关系数为0.6879,这就说明家庭的消费与一个家庭的收入之间其关系是很密切的;

 

 

 

第二对典型变量中u2与x2的相关系数为0.4614,可以看出u2可以作为文化消费特性的指标,第二对典型变量中v2与Y1和Y3之间的分别相关系数为0.8464和0.3013,可见典型变量v2主要代表了家庭成员的年龄特征和教育程度,u2和v2的相关系数为0.1869,说明文化消费与年龄和受教育程度之间的相关性。

九、典型相关分析法考前须知

因为典型相关分析可以看做是多元线性回归分析的延伸,有很多考前须知,在使用时应当注意以下几点:

(1)对调查者想做出推断的总体来说,样本必需具有代表性。

一个简单的随机样本就具有这种性质。

如果做不到这一点,调查者至少应确保所选择的样本点包含了总体中能够发生的各种情况。

如果人为地限制了样本的取值围,会影响相关系数的估计结果。

 

(2)计量可靠性低的话,会导致X变量之间和Y变量之间的相关系数估计值偏低。

 (3)应该通过绘制变量序对的直图和散点图找出离群点。

 (4)调查者应该核对的一点是,典型相关系数要足够大到值得考察这些系数的程度。

尤为重要的是,这个相关系数不是只因为一个因变量和一个自变量。

应该考察差的比例,如果比例小的话,减少模型中变量的个数可能是合理的。

  (5)如果样本量足够大,建议将样本分拆,对拆成两半的两个样本分别做典型相关分析,再把结果进展比拟,看看结果是否类似。

 (6)如果典型相关系数和典型变量载荷差异相当大(即如果它们符号不同),那么,应该对两者都进展认真考察,以帮助解释结果。

与解释第一个典型相关变数相比,第二或第三个典型相关变数的解释更困难。

要求以后陆续得出的变量线性组合与已获得的线性组合相独立,这个条件对结果所施加的限制可能难于理解。

 (7)关于典型相关的假设检验,是以X变量和Y变量的联合分布是多元正态分布为前提的[17]。

如果要研究需要报告这种检验,就应该检查这个假设。

(8)因为典型相关既用到X变量集合,也用到Y变量集合,分析中包含的变量总数可能会相当多。

这可能会使因缺失值而没用上很多样本点的问题变得重起来。

此时,要么需认真选择变量,要么需要利用推算技术。

来反映典型变量与原始变量的相关程度。

 

参考文献:

[1]正群,兴华,郭丽等.基于Fisher准那么的多特征融合[J].计算机工程,2002,28(3):

41-42.

[2]权森,曾生根,平安等.典型相关分析的理论及其在特征融合中的应川[J] .计算机学报,2005,28(9):

1524.1533.

[3]拓,蔡惠智.采用典型相关分析实现主动声纳直达波干扰抑制叨应用声学,2012,2(31):

130一134.

[4]磊,史亚,姬红兵.基于多集典型相关分析的雷达辐射源指纹识别[J],电子科技人学学报,2013

(2):

164,171.

[5]洁玉,强,白小晶等.基于广义典型相关分析的仿射不变特征提取法[J].电子与信息学报,2009,31(10):

2465—2469.

[6]Tae—KyunKim,Kwan—YeeKennekennethWong.TensorCanonicalCorrelationAnalysisforActionClassification[J].puterVisionandPatternRecognition,2007,33:

l -8.

[7]HeungsunHwang,KwangheeJungBrJMamStatPsychol,2103,66

(2):

308-321

[8]RaulCruz—cano,Mei-Ling,TingLee.Fastregularizedcanonicalanalysis[J].

putationalStatistic&DataAnalysis.2014,70:

88- 100

[9]BaiguoAn,GuoJianhua,HanshengWang.MultivariateRegressionShrinkageandSelectionbycanonicalcorrelationanalysis[J].SocialScienceResearchNetwork.2012.

[10]尧庭,开泰.多元统计分析引论[M].:

科学,1999.

[11]家鼎,山泽,东风.数理统计学讲义[M].:

高等教育,2002.

[12]邓祖新.数据分析法和SAS系统[M].XX:

XX财经大学,2006.

[13]文爽,兰祥.多元统计分析.:

高等教育,1994.

[14]JinZ.,YangJ.Y.,TangZ.M.,HuZ.S..Atheoremontheuncorrelatedoptimaldiscriminantvectors.PatternRecogn-ition,2001,34(7):

2041-2047

[15]权森,曾生根,茂龙,等.基于典型相关分析的组合特征抽取及脸像鉴别[J].计算机研究与开展,2005,42(4):

614-621

[16]才扣,永俊,静宇.二维最大散度差图像投影鉴别分析[J].系统仿真学报,2007,19(4):

833-835.

[17]贺云辉,力,邹采荣.一种基于KCCA的小样本脸像鉴别法[J].应用科学学报,2006,24

(2):

104-144.

 

教育之通病是教用脑的人不用手,不教用手的人用脑,所以一无所能。

教育革命的对策是手脑联盟,结果是手与脑的力量都可以大到不可思议。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 解决方案 > 学习计划

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2