社会研究的统计应用常考内容.docx

资源描述

社会研究的统计应用常考内容.docx

《社会研究的统计应用常考内容.docx》由会员分享，可在线阅读，更多相关《社会研究的统计应用常考内容.docx（14页珍藏版）》请在冰点文库上搜索。

社会研究的统计应用常考内容.docx

社会研究的统计应用常考内容

社会研究的统计应用

第一章科学方法与社会研究历程

1、定类测量层次

定类层次是指变项的值只能把研究对象分类，即只能决定研究对象是同类抑或不同类，具有＝与≠的数学特质。

定类层次有两个原则，一是互斥性，即类与类之间要互相排斥，每个研究对象只能归入一类；另一个是无遗性，即所有研究对象均有归属，不可遗漏。

适用于简化一个定类变项资料的方法，有次数分布、比例、比率、图示和对比值等。

2、定序测量层次

定序层次是指能确定值的次序，即变项的值能把研究对象排列高低或大小，具有>或<的数学特质。

定序层次包括了定类层次的特质。

3、定距测量层次

定距层次是指能够确定值与值之间的距离，即变项之值与值间的距离是可以知道的，因为具有加与减的数学特质。

定距层次包括了定序与定类层次的特质。

4、定比测量层次

定比测量层次是最高的测量层次，其数值中的零值是绝对的、固定的，因而除了具备分类、排序以及加减的特质外，还具有×与÷的数学特质。

第二章简化一个变项之分布

第一节基本技术

一、定类层次

1、次数分布（f）：

变项内每一个值在原资料中出现的次数情况。

2、比例（p）：

就是将每类的次数（f）除以总数（N）。

3、比率：

就是把计算比例时的所用的基数变大，使读者容易领会，如可转化为百分率、千分率、万分率等。

4、对比值：

对比值就是将两类数值相除，得到一个比值。

二、定序层次

1、累加次数（cf）：

就是把次数逐级相加起来。

分为两种，一种是向上累加，另一种是向下累加。

其作用是使我们容易知道某值以下或以上之次数总和。

2、累加百分率（c%）：

就是将各级的百分率逐级相加。

三、定距层次

1、组限：

就是每组的范围，包括上限和下限。

统计表上所标示的组限不是真实的组限。

真实下限＝标示下限－0.5；真实上限＝标示上限+0.5。

2、组距：

就是每个组的宽度，即组的真实上限与真实下限之差。

3、组中点：

就是真实上限与真实下限的平均数。

4、矩形图：

以一个矩形的面积（长×宽）表示每组数值之次数或百分率的多少。

矩形图的长度与宽度均有意义，而且由于数值具有连续性，各个矩形要相连排列。

绘制矩形图时，通常是以一个坐标的横轴的宽度表示组距，以纵轴的长度表示次数与或百分率，二者的乘积就是该组之次数或百分率。

第二节集中趋势测量法

1、集中趋势测量法

就是找出一个数值来代表变项的资料分布，以反映资料的集结情况。

这种方法的特殊意义在于可以根据这个代表值（或称典型值）来估计或预测每个研究对象（即个案）的数值。

使用集中趋势测量法，定类变项最适宜用众值，定序变项最适宜用中位值，定距变项最适宜用均值。

2、众值（简写M0）

就是在样本中出现次数最多之值。

在定类层析变项中，众值最有代表性，故此具有估计或预测的意义，长远来说，以众值作预测所犯的错误总数是最小的。

众值适合于分析定类变项，也可用来分析定序或定距变项的资料。

3、中位值（简写Md）

中位值就是把一组数据按照其大小顺序排列起来，处于中央位置的数值，即高于此值的有50%的研究个案，低于此值的也有50%的研究个案。

长远来说，以中位值去估计定序变项的数值，所犯的错误总数是最小的。

4、均值（Mean）

均值是表明一组数据平均水平的数值。

即将定距资料中的各个数值相加，除以总体单位总数所得到的数值。

长远来说，以均值估计定距变项的资料，错误最小。

第三节离散趋势测量法

1、离散趋势测量法

离中趋势测量法是要求出一个值来表示个案与个案之间的差异情况。

离中趋势测量法与集中趋势测量法具有互相补充的作用。

集中趋势测量法所求出的一个最能代表变项所有资料的值，其代表性的高低要视乎各个个案之间的差异情况，即离散趋势测量法所求出的数值。

如果个案之间的差异很大，则众值、中位值或均值的代表性就就会甚低。

异众比率、四分位差、标准差是分别对众值、中位值、均值的代表性进行检验的离散趋势测量法。

2、离异比率（V）

离异比率是指非众值的次数与全部个案数目的比率。

其公式为v=（n-fmo）/n，这个公式所要求出的是在全部的个案中有多少是偏离众值。

不属于众值的个案所占的比例愈大，就表示众值的代表性愈小，以之作估计或预测时所犯的错误也就愈大。

离异比率的方法虽然道理浅显，且易于计算，但未免过于粗略，因为它将众值以外的其它类别，不加区分地统一计算，忽略了它们之间的差异，存在局限。

3、质异指数（IQV）

质异指数的作用是求出各个类别之间在理论上最多的可能差异中实际出现了多少差异。

4、四分位差（Q）

四分位差是指将个案由低至高排列，然后分为四个等分（即每个等分包括25%的个案）之后，第一个四分位置的值（Q1）和第三个四分位置的值（Q3）的差异。

四分位差反映了中间50%数据的离散程度，其数值越小，说明中间的数据越集中，中位值的代表性愈大，以之作为估计或预测的标准所犯的错误就愈小；其数值越大，说明中间的数据越分散，中位数的代表性愈小，以之作为估计或预测的标准所犯的错误就愈大。

5、标准差（S）

标准差是将各数值与其均值之差的平方和除以全部个案数目，然后取其平方根所得到的数值，是方差的算术平方根。

分析定距变项的离散情况，最常用的方法是标准差，其表示以均值来估计或预测变项值时所犯错误的大小。

标准差愈大，就表示变项数值的离势度愈大，即均值的代表性愈小。

一、离势测量法与集中趋势测量法的关系

1、离势测量法与集中趋势测量法是有互补作用的。

二法并用，就可以一方面知道资料的代表值，有助于估计或预测的工作；另一方面可以知道资料的差异情况，反映估计或预测时会犯的错误。

2、离势测量法和集中趋势测量法要选用哪一种方法要视乎变项的测量层次，在定类变项之中，集中趋势选用众值测量，离散趋势则选用质异指数测量；在定序变项中，集中趋势选用中位值测量，离散趋势则选用四分位差测量；在定距变项之中，集中趋势选用均值测量，离散趋势选用标准差测量。

第四节正态分布与标准值

1、正态分布（normalcurve）

正态分布也称“常态分布”，最早由A.棣莫弗在求二项分布的渐近公式中得到，是一个在数学、物理及工程等领域都非常重要的概率分布，在统计学的许多方面有着重大的影响力。

正态分布具有单峰和对称的特质，因此众值、中位值和均值是相同的；正态分布的另一项特质是x值与均值的差异愈大，其次数会愈少，但不会等于零。

以标准差为单位的正态分布，称为标准正态分布，标准正态分布可以将不同形态的正态分布归纳为一种分布，简化了统计分析的工作。

标准正态分布的均值是0，标准差是1。

正态曲线呈钟型，左右对称，两头低，中间高，曲线两端逐渐减降，但不会接触底线。

2、标准值（Z）

标准值代表每个变项值x在标准正态分布上的数值。

标准值是正数时，所表示的面积是在均值右边；标准值是负数是，所表示的面积则是在左边。

第三章简化两个变项之分布

第一节统计相关的性质

1、相关

（1）定义：

相关是指一个变项的值与另一个变项的值具有连带性，即如果一个变项的值发生变化，另一个变项的值也发生变化，则这两个变项就是相关了。

（2）性质：

①变项与变项之间的相关程度有强弱之分，可用统计法予以测量。

大多数统计法是以0代表无相关，以1代表全相关，介于0与1之间的数值愈大，就表示两个变项的相关程度愈强。

②变项与变项之间的相关程度有正负两个方向。

正相关（或称正比）是指一个变项的值增加时，另一个变项的值也增加。

负相关（或称反比）是指一个变项的数值增加时，另一个变项的值减少。

相关方向的分析只限于定序或定距变项，因为这些变项的值有高低或多少之分。

（3）相关的两个变项，不一定有因果之分，可能是共同变化。

若两个变项之间，X影响Y，而Y不会影响X，则称为不对称关系；若不确定或不区分影响的方向，就称为对称关系。

第二节交互分类与百分表

1、列联表（条件次数表）

（1）列联表又称交互分类表，所谓交互分类，是指同时依据两个变量的值，将所研究的个案分类。

交互分类的目的是将两变量分组，然后比较各组的分布状况，以寻找变量间的关系。

（2）列联表也称为条件次数表，条件次数表有大小之分，表的大小就是横行数目与纵行数目的乘积（即表的大小=r×c）。

在列联表中，一般将自变项放于表的上端，将因变项放于表的左端。

（3）列联表的优点是精简清晰，可以清楚地看出每个类别的个案的次数，缺点是难于比较不同条件下的次数分布，这是因为作为基数的边缘次数的值各不相同。

2、条件百分表

（1）将条件次数表中的各个条件次数转变为百分率所制成的表格，就是条件百分表。

（2）制定条件百分表时的准则：

①每个表的顶端要有表号和标题；②绘表时所用的线条，要尽可能简洁；③在表上层的自变项每个值之下的%号，表示下列的数值都是百分率；④表下层括弧内的数值，表示在计算百分率是所根据的个案总数；⑤表内百分率数值的小数位要保留多少，视乎研究的需要，但最好有一致性；在绘制条件百分表时，通常是根据自变项的方向来计算百分率；但如果依变项缺乏代表性，就要根据依变项的方向。

（3）条件百分表的优点是资料丰富，缺点是尚未够精简，尤其当表的大小很大是，百分率便会很多，不容易看出两个变项之间是否有关系。

第三节简化相关与消减误差

1、相关测量法

相关测量法就是以一个统计值表示变项与变项之间的关系，这个值，通常称为相关系数。

相关测量法的种类很多，选择何种相关测量法，首先要注意变项的测量层次，是定类、定序还是定距，属于不同测量层次的变项，使用的相关测量法也不同；其次要注意两个变项之间关系是对称的还是不对称的；第三就是最好选用统计值具有消减误差比例的意义的相关测量法。

2、消减误差比例（PRE）

假定不知道X的值，在预测Y值时所会产生的全部误差是E1，知道X的值时，根据X的每个值预测Y值所产生的全部误差是E2，则以X的值来预测Y值时所减少的误差就是：

E1-E2，这个数值与原来的全部误差（E1）相比，就是消减误差比例。

PRE的数值愈大，就表示以X值预测Y值时能够减少的误差所占的比例愈大，即X与Y的关系愈强。

PRE数值在0与1之间，当PRE为1时，表示X与Y全相关，当PRE为0时，表示X与Y无关。

PRE数值的意义就是表示用一个现象来解释另一个现象时能够减除百分之几的错误。

第四章相关测量法与测量层次

第一节两个定类变项：

Lambda，tau-y

1、Lambda相关测量法

其基本逻辑是计算以一个定类变项的值来预测另一个定类变项的值时，如果以众值作为预测的准则，可以减除多少误差。

Lambda相关测量法适用于分析两个定类变项的关系，也可以用来分析一个定类变项与一个定序变项的关系。

其有两种形式，λ假定是对称形式，λy则假定是不对称形式。

Lambda相关测量法具有消减误差比例的意义，其统计值介于0与1之间。

2、tau-y相关测量法

Tau-y系数属于不对称相关测量法，要求两个定类变项有一个是自变项，另一个是依变项，其适用于分析两个定类变项，或是一个定类变项和一个定序变项的情况。

其系数值介于0与1之间，具有消减误差比例的意义。

这个方法的特色，是在计算系数值时会包括所有的边缘次数和条件次数。

由于该测量法是考虑全部的次数，因此其敏感度高于Lambda测量法。

第二节两个定序变项：

Gamma,dy

1、简化两个定序变项的关系，可应用Gamma系数，也可应用萨默斯的dy系数。

前者适用于分析对称的关系，后者适用于不对称的关系，但两者的系数值都是由-1至+1,既表示相关的程度，也表示相关的方向，且两者都具有消减误差比例的意义。

2、Gamma系数与dy系数可以统称为级序相关法。

级序相关法的基本逻辑是要求出：

根据任何两个个案在某变项上的等级来预测他们在另一个变项上的等级时，可以减少的误差是多少。

换言之，级序相关法是以每对个案之间的相对等级作为预测的准则。

3、

（1）同序对（Ns）：

某对个案在两个变项上的相对等级是相同的；异序对（Nd）：

某对个案在两个变项上的相对等级是不相同的。

（2）Gamma系数与dy系数就是根据这两个数值来计算两个定序变项的相关程度和相关方向。

两者相差愈大，就表示两个变项的相关愈强，若同序对大于异序对，表示两变项成正比，反之，成反比。

4、肯德尔的tau系数

肯德尔的tau系数有三种形式，分别称为tau-a、tau-b和tau-c，其数值为-1至+1，都适宜于分析对称的关系。

5、斯皮尔曼rho系数

该系数的特点是计算每个个案在两个变项上的等级时，不仅要区分二者的高低差异，而且还要计算二者差异的确切数值。

Rho是对称相关测量法，要求同分情况不多。

其统计值是由-1至+1，表示相关的程度和方向，其平方值具有消减误差比例的意义。

第三节两个定距变项：

简单线性回归与积矩相关

1、简单线性回归分析

要求两个变项都是定距变项，且彼此的关系是不对称的。

简单线性回归分析法是根据一个直线方程式，以一个自变项（X）的数值来预测一个依变项（Y）的数值。

其方程式为Y=bX+a。

回归法在绘制回归线的时候所根据的准则是最小平方。

2、回归系数（b）

b值的大小,就是表示X对Y的影响有多少，b值代表每增加一个单位的X值，Y值的变化有多大。

b值是表示自变项对依变项的影响的大小和方向，它是一个分析不对称关系的统计法。

b值有正负之分，其大小是视乎变项的衡量单位而定。

3、积矩相关测量法

皮尔逊的积矩相关系数是用来测量两个定距变项之间的相关强弱的测量法。

适合于分析两个定距变项的对称关系，统计值是由-1至+1，其平方值r2具有消减误差比例的意义。

除了表示相关的程度与方向之外，r系数值也可表示简单线性回归方程式在预测时的准确程度，r系数值愈大，则准确度愈大。

但r系数是假定两个变项之间具有直线关系。

第四节定类变项与定距变项：