10资料的统计分析2.docx
《10资料的统计分析2.docx》由会员分享,可在线阅读,更多相关《10资料的统计分析2.docx(22页珍藏版)》请在冰点文库上搜索。
10资料的统计分析2
第十章资料的统计分析(Ⅱ)
——双变量分析
授课对象:
经管类专业06级
企业管理学科赵辉
本章目录
一、变量间的关系
(一)相关关系
(二)因果关系
二、交互分类
(一)交互分类的意义与作用
(二)交互分类表的形式要求
(三)关系强度的测量
三、其他层次变量的相关测量与检验
四、回归分析
教学目的和要求
通过本章的教学使学生掌握双变量分析的方法。
1、了解变量间的关系
2、掌握交互分类的意义及关系强度的测量
3、掌握回归分析的原理
教学重点、难点
关系强度的测量
一、变量间的关系
1、相关关系
(1)相关关系的概念。
两变量之间的相关关系指的是当其中一个变量发生变化时(或取值不同时),另一个变量也随之发生变化(取值也不同)。
反过来也一样。
(2)相关关系的方向。
对于定序以上层次的变量来说,变量与变量之间的关系可以分为正关系与负关系两个方向。
所谓两个变量之间具有正的相关关系,指的是当一个变量的取值增加时,另一个变量的取值也随之增加,反之亦然。
或者说,两个变量的取值变化具有同方向性。
而两个变量之间具有负的相关关系,则指的是当一个变量的取值增加时.另一个变量的取值反而减少。
或者说,两个变量的取值变化具有反方向性。
关于相关关系的方向性还需再次强调:
它只限于定序以上层次的变量。
因为只有这些变量的取值才有大小、高低或多少之分。
而定类层次的变量只有类别之分,因此,它与其他变量相关时不存在正负方向的问题。
(3)相关关系的强度。
变量与变量之间相关关系的强度指的是它们之间相关关系程度的强弱或大小。
这种相关的强弱程度可以用统计的方法进行测量和比较。
变量问相关程度的统计表示是相关系数。
根据变量层次的不同,有各种不同的相关系数。
但是,这些相关系数的取值范围一班都在-1到+1之间,或者在0与1之间。
这里的正负号表示的是相关关系的方向。
而实际的数值则表明相关关系的强弱。
相关关系数的值越接近0,意味着两变量相关的程度越弱;而相关系数的值越接近于1(或-1),则意味着两变量相关的程度越强。
关于相关系数,有两点需要说明。
一是对于研究社会现象和人们社会行为的社会调查来说,各种相关系数的值不可能达到1(或-1)。
这也即是说,在社会研究中不存在完全的正相关或负相关。
二是相关系数只是用来表示变量间相关程度的量的指标,它不是相关量的等单位度量。
因此,我们不能说0.50的相关系数是0.25相关系数的两倍,只能说相关系数为0.5的两个变量之间的关系程度比相关系数为0.25的两个变量之间的关系程度更密切。
同样道理,我们也不能说相关系数从0、圃到0.70与从0.20到0.30增加的程度一样多。
(4)相关关系的类型。
从变量变化的表现形式上分,可以将相关关系分为直线相关与曲线相关。
所谓直线相关,指的是当变量x值发生变动时,变量y的值也随之发生大致均等的变动。
并且在直角坐标系中,每对x、y的值所对应的点分布狭长,呈直线状趋势。
在图10—2中,散点固(a)、(b)、(c)、都是直线相关的例子,而散点图(e)、(f)是曲线相关的例子。
(见教材P186)
相关关系的这种区分有助于我们正确地揭示调查数据所反映的规律。
比如,当我们用后面将介绍的回归分析的方法对一组调查数据进行分析,结果发现大学教师的年龄这一变量与他们参加体育活动的频率这一变量之间不存在任何关系。
但在实际上,这是由于我们错误地假定了两者之间的关系是直线关系,因而使用了不恰当的统计分析方法的缘故。
回归分析一般用于直线关系,但大学教师的年龄与他们参加体育活动的频率之间的关系却是曲线关系。
年青教师参加体育活动很多,随年龄增大,频率逐渐下降;但到了某个年龄段后(比如说退休年龄),可能频率又随年龄增高而增高;到了另一年龄段后,又可能随年龄增高而下降,呈现出图10—2中散点固(f)的状况。
(5)相关关系与散点图。
前面介绍中已开始涉及到散点图,这里对它稍作说明。
散点图仅适用于定距以上层次的变量,它是以直角坐标的横轴表示变量x的取值变化范围,纵轴表示变量y的取值变化范围,根据每一个案在变量x和变量y上的值来确定坐标图中的每一个点。
这样,由一组个案所确定的若干个点,就构成描述两变量间关系状况的散点图。
图10—2表明了各种不同相关关系所对应的散点图。
散点图的主要作用是使我们能对两变量间的关系有一个形象、直观的印象,是我们在对定距层次以上的变量进行相关分析时的一个重要步骤。
2.因果关系
(1)因果关系的概念。
两变量之间的因果关系,指的是当其中一个变量变化时(取不同的值时)会引起或导致另一个变量也随之发生变化(取值也不同);但反过来,当后一变量变化时,却不会引起前一变量的变化。
在这种情况下,我们称变化发生在前边,并且能引起另一变量发生变化的那个变量为自变量(常用x表示);而称变化发生在后边并且这种变化是前边变量的变化所引起的那个变量为因变量(常用y表示)。
(2)因果关系的3个条件。
事实上,并非所有存在着相关关系的变量之间,都一定存在因果关系。
相关关系与因果关系有一定的联系,但二者并不是一回事。
如果变量x与变量y之间存在因果关系,那么它们之间必定存在相关关系。
反之,如果两个变量之间存在相关关系,它们之间未必就存在因果关系。
要得出“变量X是变量y的原因”的结论,必须同时满足下列3个条件。
首先,变量x与变量y之间存在着不对称的相关关系。
即当变量x发生变化时,变量y也必定随之发生变化;但当变量y发生变化时,变量x并不随之发生变化。
这种不对称的相关关系.可以说是因果关系成立的基础。
比如,当调查资料表明家长的职业与子女的升学意愿存在相关时,我们更有可能相信前者是后者的原因。
因为家长的职业不同时.对子女的影响和期望不同,因而导致子女的升学意愿也不同;但反过来,子女的升学意愿一般是不可能引起家长的职业发生改变的。
其次,变量X与变量y在发生的顺序上有先后之别。
即先有原因变量(自变量)的变化,后有结果变量(因变量)的变化。
如果两个变量的变化同时发生,分不出先后,则不能成为因果关系。
比如前述夫妻对婚姻满意程度与夫妻交流时间多少的例子中,我们并不能肯定夫妻对婚姻满意程度的提高发生在交流时间增加之前,很可能的一种情况是,夫妻交流时间的增加导致了夫妻对婚姻满意程度的提高。
第三,变量x与变量y的关系不是同源于第三个变量的影响。
即变量x与变量y之间的关系不是某种虚假的或表面的关系。
举例来说,当我们调查发现住房的拥挤程度与夫妻间的冲突成正比时,我们不能就下结论说,住房拥挤是导致夫妻冲突的原因。
因为这两个变量之间的关系可能是由于另一个变量——家庭经济水平所导致的。
即家庭经济水平低既使得家庭的住房拥挤.又使得夫妻间的矛盾增多。
如果没有家庭经济这个变量的影响,住房拥挤与夫妻冲突是不相关的。
二、交互分类
1.交互分类的意义与作用
所谓交互分类,简单地说,就是将调查所得的一组数据按照两个不同的变量进行综合的分类。
交互分类的结果通常以交互分类表(又称列联表)的形式反映出来。
表10—1就是交互分类表的一个例子。
(教材P189)
交互分类的第一个作用,这就是可以较为深人地描述样本资料的分布状况和内在结构。
交互分类的更重要的作用则是可以对变量之间的关系进行分析和解释。
交互分类表既可以用来对总体的分布情况和内在结构进行描述,又可以用来进行分组比较,还可以用来解释变量之间的关系。
只是有一点需要记住,交互分类表所适用的变量层次是定类变量和定序变量。
2.交互分类表的形式要求
①每个表的顶端要有表号和标题。
表号的作用是明确指示,以方便阅读或讨论,减少混乱;而表的标题则概括表中数据的内容和意义。
②表格中的线条一定要规范,简洁,最好不用竖线。
只要不会引起误解或混乱,线条越少越好。
③表中的百分比符号有两种简便处理的方法:
一种是在表顶端的右角,也即是标题的尽头处,标上一个“(%)”的符号,如前面表10—6所示(P191),它表示此表中的数字都是百分比;另一种方式是在表中每一纵栏数字的头上(也即是上方变量的每个取值下面)写上一个“%”,这样就可省去在表中每一个数字后都标上一个“%”的麻烦。
④在表的下端用括号标出每一纵栏所对应的频数,以指示每一栏百分比所具有的基础(即个案数的多少),同时也可供读者据此计算每一类别中的个案数目。
⑤表内的百分比通常保留一位小数,比如35.6,42.9等等;对于那些整数形式的百分比或四舍五人后成为整数形式的百分比,仍要写出小数点后的0,比如21.0,73.0等等,以表示全部百分比的计算都是以保留一位小数为准则,同时也使得整个表内的数字具有一致性。
⑥对于交互分类的两个变量的安排,通常是将自变量、或被看做是自变量的、或用来作解释的那个变量放在上层,而将因变量、或被看做因变量、或被解释的那个变量放在表的左侧。
表中百分比的计算方向一般情况下是按自变量的方向,即纵栏的方向。
⑦交互分类的两个变量的变量值应有所限制,特别是不能同时具有多个变量值。
否则,交互分类表中的百分数就会太多,令人迷乱,反而不易看出两变量间是否存在相关。
比如当变量x有4个变量值,而变量y有5个变量值时,交互分类表中就会出现4×5=20个百分比。
通常的解决办法是将有些变量值进行合并,以缩小交互分类表的规模。
3.χ²检验
为了便于分析交量间的关系,一船是采用相对频数即百分比的形式列出交互分类表。
这样,既可以很直观地比较某一变量的不同类别在另一变量上的分布情况,也可以从中推断二者之间的关系。
χ²检验的计算公式
式中,f0为交互分类表中每一格的观察频数,fe为交互分类表中f0所对应的期望颇数。
为了计算χ²,必须先计算出每一格f0所对应的fe(即期望频数),具体的计算方法是:
用每一个f0所在的行总数乘以它所在的列总数,再除以全部个案数。
下面我们用表10-7的资料为例进行说明。
首先,我们将表10-7还原成频数形式的交互分类表(见表10-8)。
(教材P193)
知道了x²的计算方法,我们再来看看x²检验的具体步骤。
以上表为例。
首先,建立两变量间无关系的假设,即设年龄与对提前退休的态度两变量相互独立,互不相关。
然后计算出x²值。
再根据自由度df=(r-1)(c-1)和给出的显著性水平,即P值,查x²分布表,得到一临界值。
自由度计算公式中的r和c分别为交互分类表的行数和列数,因此,本例的自由度为:
df=(2-1)(3-1)=2。
假定给出的显著性水平为P=0.05,由书后的χ²分布表可查得临界值为5.991。
将计算出的χ²值与查得的临界值进行比较,若x²值大于或等于临界值,则称差异显著,并拒绝两变量独立的假设,也即承认两变量间有关系;若χ²值小于临界值,则称差异不显著,并接受两变量独立的假设,即两变量间无关系。
在本例中,由于X²=68.36>5.991,所以我们可以否定年龄与对提前退休的态度之间无关系的假设,得出在总体中二者有关系的结论。
对于交互分类来说,χ²检验发挥着这样两种作用:
一是对两变量的相关关系是否存在进行审查,此时X²检验又称作独立性检验(即两变量是相互独立,还是彼此相关);二是对较小规模的样本资料进行差异的显著性检验,即核查交互分类表中所出现的分布差异究竟是由于随机抽样的误差所引起,还是由于总体中的分布状况所导致。
χ²检验也有其弱点。
这主要是由于χ²值的大小不仅与数据的分布有关,同时它还与样本的规模有关。
当样本足够大时,一些很小的分布差异也可以通过χ²检验达到显著性水平。
4.关系强度的测量
几种常见的与交互分类有关的变量间关系强度的测量方法
(1)ø系数。
当交互分类表为2×2表(即两行两列)时,可用ø系数测量变量关系的强度。
ø系数的计算公式:
ø的取值范围在0与1之间,越接近1,说明关系强度越大。
现以表10—12的资料为例来计算ø。
(2)V系数。
由于ø系数除了在2x2表中可控制在[-1,+1]之间外,当rxc表的格数增多后,ø值将增大,因而此时的ø值是没有上限的,这样系数间就缺乏比较。
为此人们又作了进一步改进,出现了其他几种以X²为基础的关系强度系数公式。
其中的V系数公式为
式中的分母表示以(r—1)和(c—1)中较小者作为除数
(3)C系数(列联系数)。
C系数也是一种与x²有关的相关系数,其计算公式为:
当两变量不相关(即完全独立)时,C达到下限且等于0。
但C的上限却与表的行数和列数有关,且不管怎样也达不到1。
所以,在采用C系数时,要用表10-13(部分交互分类表C值的上限)进行修正。
C系数有一个突出的优点:
它不受样本规模大小的影响。
(4)λ系数。
λ系数优于前述几种相关统计量的地方,是它具有消减误差比例(proportionatereductioninerror,简称PRE)的意义。
我们知道,社会调查的主要目标是解释或预测社会现象的变化,而这种预测中难免会有误差。
对于两个有关系的变量来说,在我们知道变量x的值去预测与它相关的变量y的值时所存在的误差(E2),显然比我们不知道x的值去预测y的值时所存在的总误差(E1)要小。
所谓消减误差比例,指的就是知道x的值来预测y值时所减少的误差(E1—E2)与总误差的比。
用公式表示即是:
PRE越大,表示以x值去预测y值时能够减少的误差所占的比例越大,换句话说,X与Y之间就越是相关,或者说,x与y的关系越强。
λ系数的基本特点是以众值作为预测的准则。
其计算公式为:
式中,fy表示变量x的每一个值之下变量y的众值,Fy表示变量y的边际分布中的众值。
λ系数的优点是具有PRE意义,但其缺点是仅利用众值资料。
当表中的众值都集中在同一行时,λ系数就会等于零,比如表10—15。
在这种情况下,我们可采用Tau-y系数(简记为τy)来进行测量。
Tau-y系数属于不对称相关测量法,即要求x是自变量,y是因变量。
它的数值也介于0与1之间,同样具有消减误差比例的意义。
其计算公式为:
其中,i=X变量值;j=Y变量值;Fi=X变量的边缘次数;Fj=Y变量的边缘次数;fji=X第i列与Y第j行交叉项的频数;n=个案数目。
三、其他层次变量的相关测量与检验
----定序变量与定序变量
----定类变量(或定序变量)与定距变量
----定距变量与定距变量
1、定序变量与定序变量
如果两个变量都是定序变量,我们可以用古德曼和古鲁斯卡的Gamma系数来测量它们之间的关系。
Gamma系数通常用G表示,其取值范围是[-1,+1],适用于分析对称关系,其计算公式是:
G=(Ns–Nd)/(Ns+Nd)
式中,Ns表示同序对数目,Nd表示异序对数目。
所谓同序对是指某对个案在两个变量上的相对等级是相同的,异序对是指某对个案在两个变量的相对等级是相反的。
(1)以原始资料举例说明G系数的计算原理和方法
G系数的特点是在计算过程中,将每对个案进行对比,划分出同序对Ns和异序对Nd。
如果为Ns>Nd正相关,Ns<Nd为负相关,Ns=Nd则无相关。
G的计算公式:
统计值范围在(-1)—(+1)之间。
在个案比较中,有时会出现相同的数,称为同分对,设Tx为x的同分对,Ty为y的同分对,Txy为xy的同分对。
x
y
A
2
2
B
1
3
C
3
4
D
3
4
E
2
3
比较中:
A、E的x相同,为x的同分对Tx。
B、E的y相同,为y的同分对Ty。
C、D的xy相同,为xy的同分对Txy。
A、无同分对的计算
假设我们知道四名青年医生工作年限的名次和工作成绩的名次,试分析工作年限和工作成绩之间是否有关系。
医生
工作年限(x)
工作成绩(y)
A
4
2
B
3
1
C
2
4
D
1
3
AB比较x=4:
3y=2:
1为同序对s
AC比较x=4:
2y=2:
4为异序对d
AD比较x=4:
1y=2:
3为异序对d
BC比较x=3:
3y=1:
4为异序对d
BD比较x=3:
1y=1:
3为异序对d
CD比较x=3:
1y=4:
3为同序对s
Ns=2Nd=4
如果用工作年限名次与工作成绩名次相互预测,可以消减误差33.3%,两者之间是负相关。
B、有同分对的计算
设有6名学生的数学和统计两门功课成绩名次如下表10,试说明两门功课成绩的关系。
学生
数学()
统计()
A
6
5
B
5
2
C
3
3
D
3
3
E
2
5
F
1
1
ABsACsADs
AETyAFsBCd
BDdBEdBFs
CDTxyCEdCFs
DEdDFsEFs
Ns=8Nd=5Ty=1Txy=1
代入公式,得
(2)交互分类表的Gamma系数计算方法
A、2x2表计算方法
x
高
低
y
高
f1
f3
低
f2
f4
f1f2比较(高x高y):
(高x低y),为x同分Tx
f1f3比较(高x高y):
(低x高y),为y同分Ty
f1f4比较(高x高y):
(低x低y),为同序Ns
f2f3比较(高x低y):
(低x高y),为异序Nd
f2f4比较(高x低y):
(低x低y),为y同分Ty
f3f4比较(低x高y):
(低x低y),为x同分Tx
所以,Ns=f1(f4),Nd=f2(f3)
例题:
生活水平与健康状况交互分类表
生活水平x
高
低
健康状况y
好
50
30
差
20
40
Ns=f1(f4)=50×40=2000
Nd=f2(f3)=20×30=600
B、2X3表计算方法
x
高
中
低
y
高
f1
f3
f5
低
f2
f4
f6
根据2x2表的方法可以推导出:
Ns=f1(f4十f6)十f3(f6)
Nd=f5(f2十f4)十f3(f2)
C、3x2表计算方法
x
高
低
y
高
f1
f4
中
f2
f5
低
f3
f6
同样,依据2x2表方法可推导出:
Ns=f1(f5+f6)十f2(f6)
Nd=f4(f2十f3)十f5(f3)
根据2x3表、3x2表的推导经验,我们可以很快掌握推导方法。
同序对Ns的计算从交互分类表的左上角开始,Ns等于每一次数依次分别乘以该次数所在列以右和所在行以下各次数之总和;异序对Nd的计算则是从表的右上角开始,Nd等于每一次数依次分别乘以该次数所在列以左和所在行以下各次数之总和。
D、3x3表计算方法
x
高
中
低
y
高
f1
f4
f7
中
f2
f5
f8
低
f3
f6
f9
Ns=f1(f5+f6+f8+f9)+f2(f6+f9)+f4(f8+f9)+f5(f9)
Nd=f7(f2+f3+f5+f6)+f8(f3+f6)+f4(f2+f3)+f5(f3)
对于3×4表、4×3表、4×4表等都可以依次类推。
文化教育水平
合计
小学
初中
高中
女儿
数目
0
0
0
3
3
1
15
15
13
43
2
8
2
3
13
合计
23
17
19
59
Ns=0(15+2+13+3)+15(2+3)+0(13+3)+15×3=0+75+0+45=120
Nd=3(15+8+15+2)+13(8+2)+0(15+8)+15×8
=120+130+0+120=370
四个企业的效益水平与人均收入水平等级
企业
企业效益等级
职工人均收入等级
A
4
2
B
3
3
C
2
1
D
1
4
本例的调查对象为4,有6对个案:
A-B,A-C,A-D,B-C,B-D,C-D。
按照定义,其中A-C,B-C,是同序对,其他为异序对,于是计算其等级相关系数G=(2-4)/(2+4)=-0.33。
它表示企业的效益与其职工收入成反比,以企业的经济效益等级推测其职工人均收入,可以减少33%的误差。
上面介绍的是如何由个案的原始资料计算G的值,而在大规模调查中资料的等级分布往往是用列联表的形式给出的,这时同序对数量等于表内每个频次乘以其有下方全部频次之和,然后加总,而异序对数量等于表内每个频次乘以其左下方全部频次之和,然后加总。
计算下表中的G系数(-0.61)
表教育水平与职业声望
职业声望
教育水平
低
中
高
低
200
400
700
中
500
900
400
高
800
300
100
2、定类变量与定距变量
当两个分析变量一个为定类(或定序)变量,另一个为定距变量时,我们用相关比率(correlationratio)或eta系数来测量二者之间的相关程度。
相关比率又称为eta平方系数,记为E²,其数值范围由0到1,也具有消减误差比例的意义。
其计算公式为:
(见教材P203)
式中,y为因变量的数值,为因变量的均值;为在自变量x的每个取值Xi上的因变量的均值。
这里还有一个简便公式:
E2=(∑niYi2-nY2)/(∑Y2-nY2)
式中,ni为X变量每一取值的频数合计值,n为总的频数值,∑ni=n。
[例]职业与收入水平之间的相关程度
表10-1720名被调查者的职业与收入
工人
教师
干部
总体
收入
250
340
380
280
280
360
300
320
340
220
380
400
320
260
300
380
340
320
350
350
频数
7
6
7
20
均值yi
300
320
350
323.5(y)
≈0.20
E=(0.20)1/2=0.45
可见,用文化程度来预测或估计被调查者的收入水平,可以消减75%的误差。
用E值来解释,则说明文化程度与收入水平之间具有较高的相关。
如果将这里的结果与前面职业与收入水平的结果进行对照,我们可以说,被调查者的收入水平受文化程度的影响要大于受职业的影响。
F检验法
相关比率的E2检验采用的是F检验法,其计算公式为:
式中,k为分组数目,n为样本规模;k-1=df1,n—k=df2。
分别对前面表10-17和表10-18所得出的相关比率进行F检验。
(见教材P205)
结论:
假定所要求的显著度为p<0.05,从总体上看,被调查者的职业与收入水平无关;被调查者的文化程度与收入水平相关。
3、定距变量与定距变量
测量两个定距变量相关系数的一个最常用指标是皮尔森相关系数,用r表示,其公式为:
(见教材P206)
它具有这样几个特点:
首先,公式中x与y是对等的,即将两者的位置互换,r的值不变,它说明r是一种对称关系的测量。
其次,r的取值范围在-1到+1之间。
第三,r的取值具有方向性。
第四,r本身不具有消减误差比例的意义,但其平方r2(又称为决定系数)具有消减误差比例的意义。
例:
表10-1910名工人的年龄与收入统计表
工人代号
1
2
3
4
5
6
7
8
9
10
年龄(岁)
25
32
41
28
37
50
44
54
33
26
收入(元)
280
300
350
300
380
360
400
420
260
250