数学建模相关性分析.pdf

上传人:wj 文档编号:3432690 上传时间:2023-05-05 格式:PDF 页数:10 大小:395.15KB
下载 相关 举报
数学建模相关性分析.pdf_第1页
第1页 / 共10页
数学建模相关性分析.pdf_第2页
第2页 / 共10页
数学建模相关性分析.pdf_第3页
第3页 / 共10页
数学建模相关性分析.pdf_第4页
第4页 / 共10页
数学建模相关性分析.pdf_第5页
第5页 / 共10页
数学建模相关性分析.pdf_第6页
第6页 / 共10页
数学建模相关性分析.pdf_第7页
第7页 / 共10页
数学建模相关性分析.pdf_第8页
第8页 / 共10页
数学建模相关性分析.pdf_第9页
第9页 / 共10页
数学建模相关性分析.pdf_第10页
第10页 / 共10页
亲,该文档总共10页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

数学建模相关性分析.pdf

《数学建模相关性分析.pdf》由会员分享,可在线阅读,更多相关《数学建模相关性分析.pdf(10页珍藏版)》请在冰点文库上搜索。

数学建模相关性分析.pdf

数学建模与软件实现第7章相关性分析相关性分析是指分析两个随机变量之间是否存在一定的关系.相关分析可以发现变量间的共变关系(包括正向的和负向的共变关系),一旦发现了共变关系就意味着变量间可能存在两种关系中的一种:

(1)因果关系(两个变量中一个为因、另一个为果);

(2)存在公共因子(两变量均为果,有潜在的共因).很多时候,我们需要寻找这些因果关系,或者是寻找公共因子.相关性研究是非常有用的,它是许多深入研究必备的初始阶段工作.衡量随机变量相关性的度量主要有三种:

pearson相关系数、spearman相关系数、kendall相关系数.7.1Pearson(皮尔逊)相关系数线形相关分析(皮尔逊)相关系数线形相关分析对于二维随机变量(,)XY,根据数学期望性质,若X和Y相互独立,且和存在,则有EXEY()()()0EXEXYEYEXYEXEY所以当时,必有()()0EXEXYEYX和Y不相互独立.定义7-1设(,)XY为二维随机变量,称()()EXEXYEY为随机变量X,Y的协方差(Covariance),记为,即(,)CovXY(,)()()CovXYEXEXYEY特别地(,)()()CovXXEXEXXEXDX(,)()()CovYYEYEYYEYDY故方差,是协方差的特例.DXDY从定义中看到,协方差和变量的量纲有关.我们将随机变量标准化,得*XEXXDX,*YEYYDY*(,)XY的协方差为ov(,)()()CXYDXDY.定义7-2设(,)XY为二维随机变量,称ov(,)()()CXYDXDY为随机变量X,的Pearson相关系数(Pearsoncorrelationcoefficient)或标准协方差(Standardcovariance),记为YXY,即ov(,)()()XYCXYDXDY定理7-1设,()0DX()0DYXY为(,)XY的相关系数,则

(1)如果X,Y相互独立,则0XY;

(2)1XY;(3)1XY的充要条件是存在常数使,abPYaXb1(0a).相关系数XY描述了随机变量X,Y的线性相关程度,XY愈接近1,则X与Y之间愈接近线性关系.0XY为正相关,0XY为负相关.一般用下列标准对相互关系进行判定:

(1)0.95XY,X与Y存在显著性相关;

(2)0.8XY,X与Y高度相关;(3)0.50.8XY,X与Y中度相关;(4)0.30.5XY,X与Y低度相关;(5)0.3XY,X与Y关系极弱,认为不相关;(6)0XY,X与Y无显性相关.1第7章相关性分析2可以证明:

(1)当两个随机变量不线性相关时,它们并不一定相互独立,它们之间还可能存在其他的函数关系.

(2)若(,)XY服从二维正态分布,X与不相关和YX与Y相互独立是等价的,且概率密度中的参数就是X和Y的相关系数.即,X和Y相互独立的充要条件是0.定义7-3若对随机变量X和Y进行了次随机试验,得到样本(,n)iiXY(1,2,)in,且11niiXXn,11niiYnY,则随机变量X和对于这组样本的相关系数r为Y12211()()()(niiinniiiiXXYYr)XXYY例7-1某地29名13岁男童身高(cm)、体重(kg)和肺活量(ml)的数据如下表,试对该资料中各因素做相关分析.表7-1测试数据编号身高(cm)体重(kg)肺活量(ml)编号身高(cm)体重(kg)肺活量(ml)1135.132.0175016153.047.223502139.930.4200017147.640.520003163.646.2215018157.543.322504146.533.5250019155.144.727505156.237.1275020160.537.524006156.435.5200021143.031.517507167.841.5215022149.433.922508149.731.0150023160.840.427509145.033.0250024159.038.5250010148.537.2225025158.237.5200011165.549.5300026150.036.0175012135.027.6125027144.534.7225013153.341.0275028154.639.5250014152.032.0175029156.532.0175015160.547.22250解

(1)数据探索先做散点图和Q-Q图,看到变量间基本符合线性相关关系,变量的分布符合正态分布.这里只给出肺活量和身高的散点图、身高的标准Q-Q图,其余略.数学建模与软件实现图7-1(a)肺活量和身高的散点图图7-1(b)身高的标准Q-Q图下面作相关性分析.

(2)建立SPSS数据文件.在数据文件中定义变量名:

身高为height,体重为weight,肺活量为vc,按顺序输入相应数值,建立数据文件,如图7-2所示.图7-2数据文件的变量试图(3)点击主菜单“分析”项,在下拉菜单中点击“相关”项,在右拉式菜单中点击“双变量.”项,系统打开相关分析主对话框.(4)在对话框左侧的变量列表中选“身高”、“体重”和“肺活量”点击向右按钮使之进入“变量”框;在“相关系数”框中选择相关系数的类型,共有三种:

Pearson为通常所指的相关系数,Kendellstau-b为非参数资料的相关系数,Spearman为非正态分布资料的Pearson相关系数替代值,本例选用Pearson项;在“显著性检验”框中可选相关系数的单侧(One-tailed)或双侧(Two-tailed)检验,本例选双侧检验.如图7-3.图7-3相关分析主对话框(5)输出结果及分析输出结果如表7-2所示.表7-2相关性分析结果相关性身高(cm)体重(kg)肺活量(ml)3第7章相关性分析4Pearson相关性1.719*.507*显著性(双侧).000.005身高(cm)N292929Pearson相关性.719*1.634*显著性(双侧).000.000体重(kg)N292929Pearson相关性.507*.634*1显著性(双侧).005.000肺活量(ml)N292929*.在.01水平(双侧)上显著相关.SPSS软件中,相关性检验的零假设为“0:

H0”.身高和体重的相关系数为,0.719r0.00p,所以身高和体重中度相关,结果有统计学意义;身高和肺活量的相关系数为,0.507r0.005p,所以身高和体重中度相关,结果有统计学意义;体重和肺活量的相关系数为,0.634r0.00p,所以身高和体重中度相关,结果有统计学意义;相关系数计算两个变量之间的关系,分析两个变量之间线性相关的程度.但是,有时因为第三个变量的作用,使得相关系数不能反映两个变量间真正的线性程度.例如,上例中,我们得出肺活量和身高与体重均存在中度的线性关系,但实际上,对相同体重的人分析身高和肺活量,却没有线性关系.这种情况下,我们可以对变量进行偏相关分析.在偏相关分析中,系统可按用户的要求对两相关变量之外的某一或某些影响相关的其他变量进行控制,输出控制其他变量影响后的相关系数.例7-2对例7-1中的数据作偏相关性分析解使用SPSS操作过程如下:

(1)点击主菜单“分析”项,在下拉菜单中点击“相关”项,在右拉式菜单中点击“偏相关.”项,打开偏相关分析主对话框.

(2)选“身高”和“肺活量”入“变量”框;选“体重”作为控制变量,;在“显著性检验”框中选双侧检验.图7-4偏相关分析主对话框(3)输出结果及分析输出结果如表7-4所示.表7-4偏相关分析结果相关性控制变量肺活量(ml)身高(cm)相关性1.000.096显著性(双侧).627体重(kg)肺活量(ml)df026数学建模与软件实现相关性.0961.000显著性(双侧).627.身高(cm)df260身高和肺活量的相关系数为0.0960.3r0.627p,所以接收不相关的假设,认为身高和肺活量无显著的线性关系.此例说明体重因子影响了身高和肺活量之间相关性的分析.7.2Spearman(斯皮尔曼)秩相关系数单调性相关分析(斯皮尔曼)秩相关系数单调性相关分析为了使用Pearson线性相关系数必须假设数据是成对地从正态分布中取得的,并且数据至少在逻辑范畴内是等间距的.如果这两个条件不符合,一种方法就是采用Spearman秩相关系数来代替Pearson线性相关系数进行相关性分析.7.2.1秩秩“秩”即按数据大小排定的次序号,又称秩次号.编秩就是将观察值按顺序由小到大排列,并用序号代替原始变量值本身.用秩次号代替原始数据后,所得某些秩次号之和,即按某种顺序排列的序号之和,称为秩和.设有以下两组数据:

A组4.76.42.63.25.2B组1.72.63.62.33.7两组各有5个变量值.现在依从小到大的顺序将它们排列起来,并标明秩次,结果如下:

A组2.63.24.75.26.4B组1.72.32.63.63.7秩次12345678910原始值中有两个“2.6”,分属A、B组,它们的秩次应是3和4,然而它们的数值本来是同样大小的,哪组取“3”,哪组取“4”呢?

我们将它们的平均数(3+4)/2=3.5,作为“2.6”的秩次,称为“平均秩次”.这样两组所得的秩次及秩和如下:

A组3.558910秩和为35.5B组123.567秩和为19.5上面A组和B组中各有五个原始值,按顺序排列:

最小值设为1,再按绝对值大小对余下的变量逐个排序,最大值为两组变量个数之和10.依次可得1,2,3.5,3.5,5,6,7,8,9,10.这10个序号即是秩次.A组秩和等于3.5+5+8+9+10=35.5,B组秩和等于1+2+3.5+6+7=19.5.从两组的原始变量值也可以初步看出:

A组偏大,B组偏小.现在得出的秩和也是A组大于B组,与由变量值所观察到的结果一致.7.2.2秩相关系数秩相关系数Spearman秩相关系数通常被认为是排列后的变量秩次之间的Pearson线性相关系数.定义7-4若对随机变量X和Y进行了n次随机试验,得到样本(,)iiXY(1,2,)in,设iX、iY的秩次分别为和且ipiq1nipp1in,1nin1iqq,iidpqi.则随机变量X和Y对于这组样本的秩相关系数s为12211()()()(niiisnniiiippqqppqq)如果没有相同的秩次,则s可由下式计算2261(1isdnn)随着X和Y越来越接近严格单调的函数关系,Spearman秩相关系数在数值上会越来越大.当X、Y有严格单调递增的关系时,它们之间的Spearman秩相关系数为1;反之,当X、Y有严格单调递减的关系时,Spearman秩相关系数为-1.Spearman秩相关系数为0表示随着X的增加,没有增大或减小的趋势.Y5第7章相关性分析67.3Kendall(肯德尔)相关系数(肯德尔)相关系数Kendall相关系数又称作和谐系数,也是多列变量等级相关系数.Kendall(肯德尔)相关系数有时也称为评价者信度.一个评价者对个对象评价的秩之和为12NN

(1)/2NN,所有K个评价者对所有对象评价的总秩为KN

(1)/2N,这样每个对象的平均秩为K

(1)/N2.如果记对象的iK个秩(次序)的和为,那么,如果评估是随机的,这些与平均秩的差别不会很大,反之差别会很大,即所有对象的秩与平均秩的偏差的平方和很大.(1,2,N)iRiiRS11NNiiRR,S义为定222111()()NiNNiiiiiRSRRRN,3K如果各评价者对个对象所评的秩序列完全相同,的值为.如果评价的秩不同,则变小,一致性程度降低;如果完全没有相关,则所评对象各秩之和应该相等,其最大可能方差应为零.NS23()/KNN12SS肯德尔系数被定义为下面二者的比值:

每个被评价对象等级之和与所有这些和的平均数iRR的离差平方和,每个被评价对象等级之和与所有这些和的平均数iRR的离差平方和在理论上最大可能的离差平方和.肯德尔系数计算公式如下.

(1)同一评价者给出的评价没有相同秩时:

2312()SWKNN当评分者意见完全一致时,S取得最大,故0W1.

(2)同一评价者给出的评价有相同秩时:

2312()SWKNNKT其中,;为第i个评价者的评定结果中有重复等级的秩的个数;表示为第i个评价者的评定结果中第个重复秩的相同秩的数目.31imNijijijTnimn.3ijnjW值落在0与1之间,一般用下列标准对一致性进行判定:

(1),评价结果完全一致;1W

(2),评价结果完全不一致;0W(3),评价结果几乎完全一致;0.91W(4),评价结果几乎高度一致;0.70.9W(5),评价结果中度一致;0.50.7W(6),评价结果一般的一致性;0.30.5W(7),评价结果极低的一致性.00W例7-2某校开展绘画比赛,请6位评委对入选的6篇作品评定等级,结果如下表所示,试计算6位评委评定结果的kendall和谐系数.表7-5评委评定结果作品专家123456A312546B213456C321546D412635E312645F421536iR19811312334126iR数学建模与软件实现2iR36164121961529115423129iR解6262211()1319212654666iiiiRSR232312125465460.867()6(66)630SWKNN0.867W表明6位评委的评定结果有较大的一致性.下面使用SPSS软件求kendall和谐系数.具体操作步骤如下.

(1)建立数据文件.其中每个作品的秩为列变量,如图7-5.图7-5数据文件的数据视图

(2)点击主菜单“分析”项,在下拉菜单中点击“非参数检验”项,在右拉式菜单中点击“K个相关样本”项,系统打开多个关联样本检验主对话框.选取检验变量,选取kenall的W(k)检验,如图7-6.点击“确定”.图7-6多个关联样本检验主对话框(3)输出结果及分析输出结果为表7-6和表7-7.表7-6秩秩秩秩均值品13.17作品21.33作品31.83作品45.17作品53.83作品65.67表7-7检验统计量检验统计量检验统计量7第7章相关性分析8N6KendallWa.867卡方26.000df5渐近显著性.000a.Kendall协同系数从秩上看作品6评价最高、作品2评价最低;从检验统计量上看,KendallW系数为0.867,显著性(SPSS中假设0.000p0H:

秩次没有一致性).评定结果有较大的一致性.结果和手工计算结果一致.例7-3试计算3名专家对6篇心理学论文评定结果的kendall和谐系数.评分经等级转换后如表7-8所示.表7-8专家评分秩次表论文专家123456A142.5562.5B231564C1.531.545.55.5iR4.51051417.51263iR2iR20.2510025196306.251442791.5iR解专家A打分中2.5重复,所以11m,n112,T31226;专家C打分中1.5重复、5.5重复,所以,32m312n322n,.333(22)(22)12T3232211()1791.563130.0036iiiiRSR232312121301300.85()3(66)3(612)153SWKNNKTW=0.85表明专家评定结果有较大的一致性.利用SPSS软件计算,也可得到同样结果,如图.表7-9秩表秩秩秩均值paper11.50paper23.33paper31.67paper44.67paper55.83paper64.00表7-10检验统计量检验统计量检验统计量N3KendallWa.850数学建模与软件实现卡方12.745df5渐近显著性.026a.Kendall协同系数注意,本节所给出的Kendall系数适用于评价者数大于等于3的情况,当评价者数为2时,有三个公式计算肯德尔相关系数的值,这些系数分别为Tau-a,Tau-b和Tau-c.7.4三种相关系数的适用情景三种相关系数的适用情景1.Pearson相关系数Pearson相关系数用于双变量正态分布的数据,用来衡量两个数据集合是否在一条线上面,或用来衡量定距变量间的线性关系.对数据进行相关分析之前,我们可以先对其绘制散点图,以考察两变量的真实变化关系,散点图完成后再计算变量之间的相关系数,对相关系数进行假设检验,以量化形式表示变量间的相关关系.2.Spearman秩相关系数Spearman秩相关是最常用的非参数相关分析(秩相关),当两变量不符合双变量正态分布的假设时,需用Spearman秩相关来描述变量间的相互变化关系.此时,散点图上散点的分布形态不能完全描述两变量间的相关关系,故此时一般不需再绘制散点图.3.Kendall相关系数Kendall相关系数是等级相关系数,是用于反映分类变量一致性的指标,只能用于多列变量均属于有序分类时情景.习题习题1.某学校为调查学生学习各科目之间的能力迁移问题,随机抽取10名学生的政治与语文成绩,见表7-11,请计算其相关程度.(假设各科目成绩符合正态分布)表7-11成绩学生序号政治成绩语文成绩1748227175380814858957682677897778886884974801074872.表7-12给出了10名学生的语文成绩与阅读能力成绩的等级,试计算语文成绩与阅读能力成绩之间的相关系数.表7-12成绩等级序号语文等级阅读等级188267354432521645776910第7章相关性分析8910913101093.表7-13给出了4位专家对10个方案的可选用性的排序结果.试分析专家们的排序结果是否一致.方案专家12345678910A92410768531B10138759642C84210975631D91210673853

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 党团工作 > 入党转正申请

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2