ImageVerifierCode 换一换
格式:DOCX , 页数:16 ,大小:79.18KB ,
资源ID:1690094      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bingdoc.com/d-1690094.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(第七章方差分析.docx)为本站会员(b****1)主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(发送邮件至service@bingdoc.com或直接QQ联系客服),我们立即给予删除!

第七章方差分析.docx

1、第七章 方差分析第七章 方差分析方差分析(analysis of variance)是检验多个总体均值是否相等的统计方法。目的:通过检验多个总体的均值是否相等来判断定类变量对定距变量是否有显著影响。第一节 方差分析引述一、方差分析的基本思想和原理例1:想了解四个行业的服务质量如何,得到以下数据:消费者对四个行业的投诉次数观测值行业零售业旅游业民航业制造业15768314426639495134929216544045347753456405865351744自变量行业是分类变量,因变量被投诉次数是定距变量。想知道行业对被投诉次数的影响,就要分析不同行业的被投诉次数之间是否有显著差异,即检验四个

2、行业被投诉次数的总体均值是否相等(注意不是样本均值)。如果相等,行业对投诉次数无影响;如果均值不全相等,有影响。为什么不用均值检验的方法?均值检验一次只研究两个样本,要检验4个总体均值是否相等,需要6次检验(1-2,1-3,1-4,2-3,2-4,3-4)。每次检验犯第一类错误的概率是,作多次检验会增加犯错概率和降低置信水平。而方差分析同时将所有样本信息结合在一起,增加了分析的可靠性,降低了犯错的概率,避免拒绝真实的原假设。如何用样本均值检验总体均值即判断行业对投诉次数是否有影响?各行业被投诉次数的样本均值不相等,是否可说明不同行业被投诉次数有明显差异?不一定,也许各行业总体均值无差异,仅仅因

3、为抽样的随机性造成了彼此之间的差异/随机误差。(来自同一个总体的各个样本之间因为随机性而造成的均值差异和来自不同总体的样本之间的均值差异在散点图上是有差异的。)所以,方差分析就是对于差异来源进行分析(来源于随机误差还是不同总体间的真实差异),从而判断不同总体均值是否相等。在例1中,在同一行业(同一总体)下,样本的各观测值不同,其差异可看作抽样的随机性造成的,称之为随机误差。在不同行业(不同总体)下,各观测值也是不同的,这种差异可能是由于抽样的随机性造成的,也可能是由于行业本身的不同而造成的系统误差。衡量同一行业下样本数据的误差,称为组内误差;衡量不同行业下样本之间的误差,称为组间误差。组内误差

4、只包括随机误差,组间误差既包括随机误差也包括系统误差。如果行业对投诉次数没有影响,组间误差里就只包含随机误差而没有系统误差。这时,组间误差与组内误差的比值应接近1;反之,如果行业对投诉次数有影响,组间误差中除随机误差外还有系统误差,组间误差与组内误差之比就应该大于1。当这个比值达到某种程度时,就可以说不同行业的投诉次数之间有显著差异,即行业对投诉次数有显著影响。二、方差分析的基本假定1、自变量每一个取值对应的分布都应服从正态分布,以例1为例,每个行业的投诉次数都应服从正态分布。2、自变量每一个取值对应的分布都应有相等的方差,即自变量的各组数据是从具有相同方差的正态总体中抽取的。注意,仅要求总体

5、方差相等,而非样本方差。通常自变量各组数据的样本方差中最大值不超过最小值的二三倍,就可以视为等总体方差。3、观测值是独立的。每个被抽中企业被投诉次数与其它企业被投诉次数的次数是独立的。三、问题的提法设自变量共有m类,每类的总体均值分别用m表示,要检验m类总体均值是否相等,需要提出以下假设:H0:1=2=.=m, 自变量对因变量没有显著影响H1:至少有一个以上的类别均值不等或1、2.m不全相等。第二节 一元方差分析分析一个分类型自变量对数值型因变量的影响时使用一元方差分析/单因素方差分析。一、数据结构设自变量A共分m类,A1,A2,.,Am。现从A1类中随机抽取n1个,A2类中随机抽取n2个,从

6、Am类中随机抽取nm个(n1, n2,nm可以不等),根据各个观测值可得到如下统计表:A1A2Amy11y21.ym1y12y22.ym2.二、分析步骤1、提出假设2、构造检验统计量(1)计算各样本均值(2)计算全部观测值的总均值观测值行业零售业旅游业民航业制造业15768314426639495134929216544045347753456405865351744样本均值=49=48=35=59样本容量7655总均值=47.9(3)计算误差平方和总误差平方和TSS:全部观测值与总均值的误差平方和,反映了全部观测量的离散状况,TSS=;根据例1计算:TSS=(57-47.9)2+.+(58-

7、47.9)24164.6组内误差平方和RSSRSS=根据例1:零售业组内误差平方和=(57-47.9)2+(66-47.9)2+.+(44-49)2=700,同理,旅游业924,民航业434,制造业650,RSS=700+924+434+650=2708组间误差平方和BSSBSS=(注意要乘以ni)根据例1计算:BSS=7(49-47.9)2+6(48-47.9)2+5(35-47.9)2+5(59-47.9)2=1456.6三个误差平方和的关系:TSS= RSS+BSS总结:BSS是对随机误差和系统误差大小的度量,可以反映自变量对因变量的影响;RSS是对随机误差大小的度量,反映了除自变量对因

8、变量的影响外,其他因素对因变量的总影响,也称残差变量;TSS是对全部数据总误差程度的度量,反映了自变量和残差变量的共同影响。如果原假设成立1=2=.=m,则表明没有系统误差,BSS除以其自由度后的均方与RSS除以其自由度后的均方(即方差)就不会有太大差异(为何要除以自由度?因为误差平方和大小与观测值多少有关);如果组间均方明显大于组内均方,说明自变量各水平之间的差异不仅有随机误差,还有系统误差。所以,判断自变量对因变量的影响就是要比较组内均方与组间均方之间的差异大小。(4)计算统计量TSS的自由度为(n-1),n表示全部观测值数量BSS的自由度为 (m-1),m表示自变量的类别RSS (n-m

9、),(n-1)-(m-1)BSS的均方=BSS/ (m-1);RSS 的均方= RSS/(n-m), 检验统计量F=/F(m-1,n-m)(要比较的是组间均方和组内均方的差异)当原假设为真时,二者比值服从第一自由度为m-1,第二自由度为n-m的F分布。根据例1计算:F= =3.4073、统计决策计算出F值后,将其与给定的显著性水平的临界值相比较,从而做出对原假设的决策。在对F值进行检验时的原假设是/=1,备选假设是/1。根据给定的显著性水平,在F分布表上查找与第一自由度m-1,第二自由度n-m相对应的临界值F(m-1,n-m)。如果FF,则拒绝原假设,表明自变量对因变量有显著影响;如果FF,则

10、不能拒绝原假设,没有数据表明自变量不同水平的总体均值有显著差异,所以不能认为自变量对因变量有显著影响。根据例1计算出F=3.407,假定=0.05,查F分布表得到F0.05(3,19)=3.13。由于F=3.4073.13,所以拒绝原假设,表明行业对被投诉次数有显著影响。4、方差分析表误差来源平方和自由度均方F值临界值组间BSSm-1=BSS/ (m-1)F=/F组内RSSn-m= RSS/(n-m)总和TSSn-1三、关系强度的测量相关比率方差分析表明,组间平方和与残差平方和的比例反映了自变量行业与因变量被投诉次数的关系,当组间平方和比残差平方和大,且达到一定程度时,就意味着自变量和因变量的

11、关系显著,大的越多,关系越强。如何判断自变量与因变量的关系强度?可用组间平方和(BSS)及残差平方和(RSS)占总平方和(TSS)的比例大小来反映。其中,E2=BSS/TSS,算术平方根E可用来表示两个变量之间的关系强度。可用消减误差比例原理PRE=(E1-E2)/E1来解释。E1是不知道因变量与自变量有关时预测y所犯的错误,这时使用样本总平均值来预测y,错误大小为TSS=。E2为知道因变量与自变量有关后,预测y时犯的错误,这时使用自变量各组均值来预测的,错误大小为RSS=。E1-E2反映了知道自变量与y相关后减小的预测错误。所以E2=(TSS-RSS)/TSS=BSS/TSS。根据例1计算:

12、E2=BSS/TSS=1456.6/4164.6=0.351277=35.1277%;E=0.592686解释:行业可以解释被投诉次数差异的35.1277%,其他因素所解释的比例占64.8723%;行业与被投诉次数之间有较强相关关系。第二节 二元方差分析一、二元方差分析的类型分析两个定类自变量对定距变量的影响时,需要用二元方差分析。例2:有四个品牌的彩电在五个地区销售,为分析品牌和地区对销售量是否有影响,对每个品牌在各个地区的销售量取得以下数据,分析品牌和地区对销售量是否有显著影响?(=0.05) 地区因素地区1地区2地区3地区4地区5品牌因素品牌1365350343340323品牌23453

13、68363330333品牌3358323353343308品牌4288280298260298在二元方差分析中,如果两个因素对因变量的影响是独立的,称为无交互作用的二元方差分析;如果两个因素对因变量的影响除了各自的单独影响之外,两个因素相互之间的关系还会对因变量产生新的影响,就称为有交互作用的二元方差分析,或可重复的二元方差分析。二、无交互作用的二元方差分析/无重复情况下的二元方差分析1、数据结构获取数据时,将一个因素安排在行,另一个因素安排在列。设行因素有a个类别,列因素有b个类别,行因素和列因素的每一个类别都可搭配成一组,观测它们对因变量的影响,共抽取ab个观察数据,如下表:列因素行平均值

14、列1列2列b行因素行1y11y12y1b行2y21y22y2b行aya1ya2yab列平均值方差分析的基本假定:每一个观测值都可看作由行因素的a个类别和列因素的b个类别所组合成的ab个总体中抽取的容量为1的独立随机样本。这ab个总体中的每一个总体都服从正态分布,且有相同的方差。是行因素的第i个类别下各观测值的平均值,是列因素的第j个类别下个观测值的平均值;是全部ab个样本数据的总平均值。2、分析步骤(1)提出假设行因素的假设:H0:1=2=.=a, 行因素对因变量没有显著影响H1:i(i=1,2,a)不全相等 行因素对因变量有显著影响列因素的假设:H0:1=2=.=b, 列因素对因变量没有显著

15、影响H1:j(j=1,2,b)不全相等 列因素对因变量有显著影响(2)构造检验统计量分别确定检验行因素和列因素的统计量。TSS=+分解后的第一项是行因素所产生的误差平方和,记为BSSA,反映了行变量对因变量的影响;第二项是列因素所产生的误差平方和,记为BSSB,反映了列变量对因变量的影响;第三项是除去行因素和列因素之外的剩余因素影响产生的误差平方和,即随机误差平方和,记作RSS,反映了随机因素对因变量的影响。BSSA=BSSB=RSS=TSS= BSSA +BSSB +RSS在误差平方和基础上,计算各自均方。与各误差平方和相对应的自由度:TSS的自由度为ab-1;BSSA的自由度为a-1;BS

16、SB的自由度为b-1;RSS的自由度为(a-1)(b-1)。= BSSA /(a-1) ;= BSSB /(b-1);= RSS/(a-1)(b-1)为检验行因素对因变量的影响是否显著,采用下面的检验统计量:FA=/F【(a-1), (a-1)(b-1)】为检验行因素对因变量的影响是否显著,采用下面的检验统计量:FB=/F【(b-1), (a-1)(b-1)】(3)统计决策根据给定的显著性水平和两个自由度,查F分布表得到相应的临界值FA、FB,然后将FA 和FB与FA、FB作比较。若FAFA,则拒绝原假设H0:1=2=.=a,表明i之间的差异显著,即有1-的把握度认为所检验的行因素对因变量有显

17、著影响。若FBFB,则拒绝原假设H0:1=2=.=b,表明j之间的差异显著,即有1-的把握度认为所检验的列因素对因变量有显著影响。方差分析表:误差来源变量A变量B随机误差总和误差平方和BSSABSSBRSSTSS自由度a-1b-1(a-1)(b-1)ab-1均方= BSSA /(a-1)= BSSB /(b-1)= RSS/(a-1)(b-1)F值FA=/FB=/临界值FA FB根据例2中的数据,分析品牌和地区对销售量是否有显著影响?(=0.05)解:成立假设:行因素:H0:1=2=3=4, 品牌对因变量没有显著影响H1:1、2、3、4不全相等 品牌对因变量有显著影响列因素:H0:1=2=3=

18、4=5, 地区对因变量没有显著影响H1:1、2、3、4、5不全相等 地区对因变量有显著影响计算过程复杂,可利用SPSS或Excel软件计算结果。由于FA=18.108FA=3.49,所以拒绝原假设,表明品牌对因变量有显著影响。由于FB=2.1FB=3.259,所以不能拒绝原假设,不能认为地区对销售量有显著影响。关于概值的概念:SPSS对假设检验的输出结果当中的“Sig”,表明对原假设的拒绝把握,在方差分析中表明变量间相关关系的显著性水平,称为概值,用p表示。p越小,越能够拒绝原假设,说明变量相关关系越显著,通常有*P0.10,*P0.05,*P0.01,*P0.001。三、有交互作用的二元方差

19、分析/重复情况下的二元方差分析例3:城市道路交通管理部门为了研究不同的路段和时段对行车时间的影响,让一名交警分别在两个路段和高峰期与非高峰期亲自驾车试验,共获得20个行程时间(分钟)数据,试分析路段、时段以及路段和时段的交互作用对行车时间的影响。(=0.05)列变量A(路段)路段1路段2行变量B(时段)高峰期26192420272325222521非高峰期20181717221321161712设列变量A有a种分类,例3中为两种:路段1和路段2。行变量B有b种分类,例3中有两种:高峰期和非高峰期。对AB的每一种搭配各进行r次重复独立观测,例3中为观测5次。观测数据总数n=abr。(1)提出假设

20、对行变量、列变量和交互作用变量分别提出假设,与前面相似。也可以设原假设为:某变量的效果为零;备选假设为:某变量的效果不为零。(2)构造检验统计量总平方和:TSS= = BSSA+BSSB+IAB +RSS行平方和:BSSB= 列平方和:BSSA= 交互作用平方和:IAB误差项平方和:RSS(3)决策分析误差来源平方和自由度均方F值临界值行因素BSSBb-1BSSB/ (b-1)FB=/FB列因素BSSAa-1BSSA/ (a-1)FA=/FA交互作用IAB(a-1) (b-1)IAB/ (a-1) (b-1)FAB=/FAB误差RSSab(r-1)RSS/ ab(r-1) 总和TSSabr-1根据例3的数据,由SPSS输出的结果:误差来源平方和自由度均方F值P值临界值行因素174.051174.0544.0630.00004.494列因素92.45192.4523.4050.00024.494交互作用0.0510.050.01270.91184.494误差63.2163.95 总和329.7519*P0.10,*P0.05,*P0.01,*P0.001解释:时段对开车时间有显著影响;路段对开车时间有显著影响;时段和路段的交互作用变量对开车时间没有显著影响。

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2