spss学习系列24卡方检验.docx

资源描述

spss学习系列24卡方检验.docx

《spss学习系列24卡方检验.docx》由会员分享，可在线阅读，更多相关《spss学习系列24卡方检验.docx（21页珍藏版）》请在冰点文库上搜索。

spss学习系列24卡方检验.docx

spss学习系列24卡方检验

24.卡方检验

卡方检验，是针对无序分类变量的一种非参数检验，其理论依据是：

实际观察频数f0与理论频数fe（又称期望频数）之差的平方再除以理论频数所得的统计量，近似服从

分布，即

卡方检验的一般是用来检验无序分类变量的实际观察频数和理论频数分布之间是否存在显著差异，二者差异越小，

值越小。

卡方检验要求：

（1）分类相互排斥，互不包容；

（2）观察值相互独立；

（3）样本容量不宜太小，理论频数≥5，否则需要进行校正（合并单元格、增加样本数、去除样本法、使用校正公式校正卡方值）。

卡方校正公式为：

卡方检验的原假设H0:

=0;备择假设H1:

≠0;

卡方检验的用途：

（1）检验某连续变量的数据是否服从某种分布（拟合优度检验）；

（2）检验某分类变量各类的出现概率是否等于指定概率；

（3）检验两个分类变量是否相互独立（关联性检验）；

（4）检验控制某几个分类因素之后，其余两个分类变量是否相互独立；

（5）检验两种方法的结果是否一致，例如两种方法对同一批人进行诊断，其结果是否一致。

（一）检验单样本某水平概率是否等于某指定概率

一、单样本案例

例如，检验彩票中奖号码的分布是否服从均匀分布（概率=某常值）；检验某产品市场份额是否比以前更大；检验某疾病的发病率是否比以前降低。

有数据文件：

检验“性别”的男女比例是否相同（各占1/2）。

1.【分析】——【非参数检验】——【单样本】，打开“单样本非参数检验”窗口，【目标】界面勾选“自动比较观察数据和假设数据”

2.【字段】界面，勾选“使用定制字段分配”，将变量“性别”选入【检验字段】框；

注意：

变量“性别”的度量标准必须改为“名义”类型。

3.【设置】界面，选择“自定义检验”，勾选“比较观察可能性和假设可能性（卡方检验）”；

4.点【选项】，打开“卡方检验选项”子窗口，本例要检验男女概率都=，勾选“所有类别概率相等”；

注：

若有类别概率不等，需要勾选“自定义期望概率”，在其表中设置各类别水平及相应概率。

点【确定】回到原窗口，点【运行】得到

双击上表，得到更多的描述：

结果说明：

（1）男生的观察频数为28，理论频数为25，残差=3；女生的观察频数为22，理论频数为25，残差=-3；可以计算

卡方值=[32+（-3）2]/25=

（2）卡方检验的P值=>,故接受原假设H0，即认为男女性别人数无差异。

注：

卡方检验的P值是近似P值，若用“二项分布检验”计算出精确P值=.另外，上述卡方检验也可以用：

【分析】——【非参数检验】——【旧对话框】——【卡方】

得到的结果是一致的。

二、两样本或多样本案例——比较不同类的构成比或发生率的差异

问题：

两组收入不同的受访家庭其轿车拥有率的比较。

使用【交叉表】的卡方检验来实现，需要注意：

若交叉表中存在有序分类变量，则适合用秩和检验而不是卡方检验。

有数据文件：

变量O1表示是否拥有轿车：

“1=有，2=没有”；

变量Ts9表示收入级别：

“1=万以上，2=万以上”。

1.【分析】——【描述统计】——【交叉表】，打开“交叉表”窗口，将变量“Ts9收入级别”选入【行】框，将变量“O1是否拥有轿车”选入【列】框，根据需要勾选“显示复式条形图”；

2.点【统计量】，打开“统计量”子窗口，勾选“卡方”表示进行卡方检验；

3.点【继续】回到原窗口，点【单元格】打开“单元显示”窗口，【计数】输出观察频数和理论频数，默认勾选“观察值”；【百分比】勾选“行”；【非整数权重】设置小数权重问题，保持默认；

注：

“残差”设置残差的输出方式；“z-检验”对多于两组的数据做两两组间比较；

点【继续】回到原窗口，点【确定】得到

低收入家庭有%拥有轿车；高收入家庭%拥有轿车。

脚注a说明没有单元格的期望频数<5,满足Pearson卡方检验要求，故看Pearson卡方检验结果即可：

P值=0<,拒绝原假设H0，即高低收入不同的家庭轿车拥有上的差异有统计学意义。

注：

（1）“Pearson卡方”：

最标准最常用；

（2）“连续校正”：

只适用于4格表，样本量>40,所有期望频数都>1,只有1/5以下的单元格期望频数<5；

（3）“Fisher精确检验”：

不需要近似，结果最精确，但耗时多；若样本量<40，有单元格的期望频数<1的4格表，需要用该检验；若有单元格的期望频数<1,或<5的期望频数较多，也可采用该检验；

（4）“似然比”：

用似然比公式计算卡方，在处理多维表是有更大优势；

（5）“线性卡方”：

检验的原假设H0是行列变量间无线性相关，在列联表分类变量中很少用，更多用于连续变量。

（三）检验两分类变量间的关联程度

例如，进行客户满意度研究中，价格、质量、服务都与总体满意度相关，哪项与总体满意度关系更密切

卡方值的大小可以粗略地反映两变量联系的强弱，更精确的描述可以用“相对危险度”和“优势比”。

（1）相对危险度（RR）

实验组人群反应阳性概率与对照组人群反应阳性概率的比值，即

用于反应实验因素与反应阳性的关联程度，RR=1表明二者无关联；RR<1表明实验因素导致反应阳性的发生率降低。

（2）优势比（OR）

有时反应阳性概率的估计值很难求得（如回顾性研究），往往使用优势比代替RR值。

优势比是反应阳性人群中实验因素有无的比例与反应阴性人群中实验因素有无的比例之比，即

若OR>1,则表明实验因素更容易导致结果为阳性，或者说“采用的实验因素”与“结果为阳性”有关联。

注：

当反应阳性概率<时，OR可作为RR的近似。

优势比是两个比数之比，例如，女性购买与不购买某产品的比数是男性该比数的3倍。

问题：

描述家庭收入级别与拥有轿车的关联程度

1.【分析】——【描述统计】——【交叉表】，打开“交叉表”窗口，将变量“Ts9收入级别”选入【行】框，将变量“O1是否拥有轿车”选入【列】框；

2.点【统计量】，打开“统计量”子窗口，勾选“风险”用来计算OR值和RR值；

点【继续】回到原窗口，点【确定】得到

（1）优势比OR是两个比数之比：

低收入家庭拥有轿车的比例为%，没有轿车的比例是%，其比数为%/%=;高收入家庭的比数为：

%/%=;故

OR值==

该值的95%置信区间=[,],不包含1（有统计学意义）；

（2）相对危险度RR1是两组人群拥有轿车的概率之比，其估计值为%/%=,说明高收入家庭拥有轿车的概率是低收入家庭的1/=倍，RR1值的95%置信区间=[,],不包含1（有统计学意义）；

（3）相对危险度RR2是两组人群没有轿车的概率之比，估计值为%/%=.

注：

上述三个指标实际上是等价的；另外，OR值也等于有车与无车的相对危险度之比（/=）。

（四）分层卡方检验

前文已经得到家庭收入级别会影响轿车拥有情况，那么进一步，不同城市是否存在差异即“城市”因素是否也是影响轿车拥有的协变量另外“学历”因素呢

分层卡方检验就是解决上述问题常用的一种方法。

问题：

在前文的基础上，进一步在控制“城市”的影响的前提下，更准确地描述家庭收入与轿车拥有的关联程度。

1.【分析】——【描述统计】——【交叉表】，打开“交叉表”窗口；将变量“Ts9收入级别”选入【行】框，将变量“O1是否拥有轿车”选入【列】框；将变量“s1城市”选入【层1的1】框；

2.点【统计量】，打开“统计量”子窗口，勾选“风险”、“Cochran’sandMantel-Haenszel统计量”，点【继续】；

点【确定】，得到结果

由于设置了分层变量，故按分层变量的水平值单独对每一层进行风险估计。

上海的OR值=，而广州的OR值=，说明是有地区差异的。

层间差异的检查结果（不同城市家庭收入与轿车拥有的联系是否相同），原假设H0:

层间无差异；P值=<,拒绝原假设H0,即不同城市是有差异的，因此不能简单地将不同城市数据总体处理得到结果。

分层卡方检验（即去除分层因素“城市”的影响之后，家庭收入与轿车拥有的关联性）的两种结果：

CMH卡方检验和MH卡方检验，前者是后者的改进。

P值=0<,说明“家庭收入”与“轿车拥有”有关联，但由于前面检验的层间差异有统计学意义，所以这个结论仅供参考。

给出了调整了分层因素作用后的综合OR值：

ORMH值=（原OR值=），P值=0<,说明结果显著。

注：

（1）分层卡方检验是一种很好的控制其他因素的方法，从而能得到更准确的结果，若样本量足够大还可用引入更多的分层。

（2）SPSS的CMH卡方检验只能进行两分类变量检验，而不能进行多分类变量的检验；当分层变量和要分析的变量存在交互作用时，分层卡方检验就不再适用，此时应当考虑用对数线性模型或Logistic模型来进行更为深入和准确的分析。

（五）配对设计列联表的Kappa一致检验以及配对卡方检验

一、Kappa一致检验

配对设计列联表的行变量和列变量反应的是同一事物的同一属性的相同水平，只是对该属性各水平的区分方法不同。

例如，某疾病的诊断结果表，行变量为一种诊断方法，列变量为另一种诊断方法；对某事物的评价等级表，行变量和列变量分别显示不同专家的评价。

对于配对设计列联表，希望检验两种方法给出的结果是否一致，适合用Kappa一致检验。

注意：

Pearson卡方检验只能检验两种测量结果之间是否存在关联，不能判断其是否具有一致性。

问题：

某公司扩展业务开新分店选址，请两位顾问分别对20个地址进行评价，分为好、中、差3个等级，想知道两人的评价结果是否一致

count=频数，cons1,cons2表示两位顾问的评价：

1=差，2=中，3=好；例如第一行数据：

6,1,1表示两顾问都评为“差”的有6个地址。

1.【数据】——【加权个案】，打开“加权个案”窗口，勾选“加权个案”，将变量“频数”选入【频率变量】框，点【确定】

2.【分析】——【统计描述】——【交叉表】，打开“交叉表”窗口，将变量“cons1，cons2”分别选入【行】【列】框；

3.点【统计量】，打开“统计量”子窗口，勾选“Kappa”，点【继续】；

4.由于数据量较小才用精确检验，点【精确】，打开“精确检验”子窗口，勾选“精确”，点【继续】；

点【确定】得到

结果说明：

Kappa检验的原假设H0:

Kappa值=0,即两者完全不一致；本例中，P值=<,拒绝原假设H0,即认为结果存在一致性。

注：

（1）Kappa值，即内部一致性系数。

根据经验，一般当Kappa值≥时，认为一致性较好；≤Kappa值<时，一致性一般；Kappa值<时，一致性较差；

（2）一致性检验在医学上应用较多（简单异形的诊断方法是否能替代操作复杂的诊断方法）；数据分析中，比较两种预测结果的一致性时，也可能用到一致性检验。

二、McNemar配对卡方检验

两位顾问的评价似乎不太一样，如何加以分析McNemar配对卡方检验适合解决该问题。

在Kappa一致检验的第3步，勾选“McNemar”即可。

得到结果：

原假设H0:

两顾问的评价无差别，P值=<,拒绝原假设H0，即两者评价有差别。

注：

Kappa一致检验会利用列联表的全部信息；McNemar配对卡方检验只利用非主对角线单元格的信息（更关心两者的差异）。

展开阅读全文