icc组内相关系数.docx

资源描述

icc组内相关系数.docx

《icc组内相关系数.docx》由会员分享，可在线阅读，更多相关《icc组内相关系数.docx（5页珍藏版）》请在冰点文库上搜索。

icc组内相关系数.docx

转贴）如何选择Intraclasscorrelationcoefficient（组内相关系数）

的模型

祝老师：

您好！

经常来您这看看，获益非浅。

有一个问题想向您请教。

我现在在做一个关于学龄儿童健康行为问卷的重测信度研究。

如在过去一周你有几天参与体力活动至少60分钟?

选项1,2,3,4,5,6,7天。

因为数据是intervallevel,所以打算计算ICC。

根据组内效应和项目效应是否随机-SingleMeasureICC有三种类型,ICC（1,1）,ICC（2,1）和ICC（3,1）。

按我的理解，学生在不同时间回答同一道问题可以认为是twosamejudgesindifferenttimewithfixedeffect,因此应该采用ICC（3,1）。

但是看过去的文献，针对同一道问题，如上题，三种算法都被用过，所以比较迷惑，希望您能指点，谢谢！

庄主@2009-05-17:

你提到的ICC,指IntraclassCorrelationCoefficient（通常翻成“组内相关系数'）。

ICC在心理学和教育学研究中用得较多，但本庄大多数读者来自新闻传播学界，可能不甚了解，所以我先简单交代一下有关背景。

ICC涉及到多种用途，含义各有所不同。

你是将其用于检验变量的信度（reliability）,所以我这里也就仅谈谈信度检验中的ICC模型问题。

（但是，要真正理解ICC,还是应该放在ANOVA的框架下进行。

以下涉及到一点ANOVA、但我无意从ANOVA的ABC讲起，只假定大家已经掌握了。

）

有人也许会问，检验信度不是巳经有Cronbach'salpha,为什么还要用ICC?

这与被检验的变量之性质有关。

我们通常检验的"信度"是指theconsistencybetweentwoormoreconcepts（两个或更多概念之间的一致性），这时我们确实是用Cronbach'salpha,其实alpha只是根据Pearsonr（即经典的相关系数）而计算出来的衍生物，而Pearsonr则是一种InterclassCorrelationCoefficient（注意其中的“Interclass”,即"组间相关系数”,与ICC是相反的一对统计量）。

相反，如果我们想检验的信度，涉及到的却是thestabilitybetweentwoormoremeasuresofthesameconcept（同一个概念的两个或多个测量指标之间的稳定性）,这时Pearsonr及其衍生物Cronbach'salpha不不合适了（参见我的旧贴Differencevs.Correlation,虽然文中没有出现组间和组内相关的名词，但谈到的是同一问题）,而可以用ICC。

你面临的“健康行为”的“重测信度”，就是涉及一个概念（健康行为）的两个测量指标。

内容分析中的inter-coderreliability也是一个概念（即内容分析的某个变量）的多个coders决策之间的稳定性。

顺便提一下，在ICC研究的文献中，上述“同一个概念的不同测量”是被叫做"differentvariablesofacommonclass"。

这里所涉及到的名词，$0class,cases,variable（以及可能会出现的measurements,raters,judges,items,objects等等）,如果翻成中文、都很容易产生望文生义的误导。

不知你的迷惑，是否与这些名词有所关系？

我一开始接触有关文献时，也曾迷惑过，后来把ICC的公式（右下）与Pearsonr公式（左下）比较一下，就清楚了这些名词的真正含义。

所以，我们还是不能不看公式。

Z3-x）（义-y）一工）（又2/—X）

（，L1）W "奸成在r的公式中，Xi和y,分别是概念X和Y的测量值、更和『分别是X和Y的均值、Sx和

Sy分别是X和Y的标准差，n是样本数。

（由此可见，X和Y的取值范围可以完全不一样，如X可以是从-1到1而Y可以从。

到10000；两者的标准差也由此可以完全不一样。

其结果根本不会影响r的值。

）而在icc中，为了强调“组内”的意义，我将X改写成沁、Y改写成X2（当然改写前后变量并没有本质区别）。

两个公式的真正区别在于均值及标准差的计

算，r中的X和Y均值及标准差是分别独立计算的、而icc中的*是Xi和X2的pooledmean

（联合均值）、而另也是Xi和X2的pooledvariance（联合方差、即联合标准差之平方）。

由于ICC值是每个观察值减去“联合均值”（而不是各自的独立均值）、加总后再除以“联合方差”（而不是除以各自的独立标准差之乘积），所以其计算结果反映了“组内”的相关系数。

（注意，“联合方差”背后有一个更严格的要求，即Xi和X2的方差要相等。

这一要求不是很容易满足的。

如果你的两次测试之间有一定的时间间隔而其中有发生过什么重要的事件，如学校开设了卫生课或召开了运动会，使得学生之间健康行为的差异缩小了或扩大了，那么就不适合用ICCT=）

a.DataStructureforb.DataStructure

好了，在上述简单背景的基础上，我们来讨论你的问题：

如何检验icc?

具体来说，就是如何选择合适的ICC模型。

让我们从计算ICC所需要的数据结构说起（右图）。

图a是最常见的结构，其中每个row（行）代表一个case（本例是ID从1到n的学生），每个column

（列）是同一概念的某个观测指标（本例中是冷和X2前后两次观测），每个cell（格）中是每个学生的每次观测值（即上述公式中的％或Xn，在本例中取值1到7）。

按ANOVA的术语，每个Xi受到三个来源的影响：

一是between-columnseffects（在本例中是over-timeeffects,但内容分析的inter-coderreliability则是两个coders之间的codereffects>等等）；二是within-columnseffects（在本例中是within-subjectseffects,即每个学生的特定因素）；三、无法被columns和rows所解释的残差。

三者之间，残差和within-columnseffects总是（假定为）random（随机）的，前者是ANOVA能够成立的必要前提、而后者则是因为n个学生是从N总体中随机抽取的一个样本。

剩下的between-columnseffects则需要根据研究设计、数据采集方式等各种因素而来确定是fixed（固定）还是随机的，因此而形成了你所提到的三种模型：

SourceofVariance

One-wayRandomModelICC

（1）

Two-wayRandomModel

ICC

（2）

Two-wayMixedModel

ICC（3）

Within-columnseffects

Random

Between-columnseffects

Random

Fixed

首先来看ICC

（1）o它并不考虑Xi和X2的区别，所以实际上是将数据表中的Xi和X2两列数据合成一列（即图b的结构，其中共有2n行），为了说明图a和图b的相等性，我在图b中加了变量Time,但实际上ICC

（1）模型是估算Time的，而是只含一个因子（即自变量）的one-wayANOVA（单因了方差分析）。

其自变量是ID,当只有两个重测指标时，自变量的values（即unique的ID数）很多、但每个valueT面只有2个cases（所以是个很奇怪的模型），其F值是用来检验每个学生的均值全部为零的假设。

由此可见，ICC

（1）并不能检验X的重测信度（当然它有很多其它用途，尤其是作为一个基准模型）。

你说看到“过去的文献，针对同一道问题，如上题，二种算法都被用过”。

我很难想象这种情况。

建议你搞清作者用ICC

（1）检验的零假设到底是什么。

回到图a的常见数据。

如上所说,它可以用来同时分解columns和rows的影响，也就是ICC

（2）和ICC（3）所需要的数据。

所以ICC

（1）和ICC

（2）都可以用来检验重测信度。

两者的区别在于如何看待我开始时说的“同一概念的各种测量指标”的产生机制。

这不是一个统计问题、而是研究设计问题或数据采集方法问题，即取决于每个研究的具体情况。

一般而言，如果*和X2是该概念的所有可能测量指标（最极端的例子是“匹配”样本，如夫妻、双胞胎、师生、上下级等“对子”对同一问题的回答）,那么它们应该是fixed。

反之，如果该概念除了Xk和X2之外，还可以有X3>...Xk指标，那么它们应该是random的。

同理，检验在内容分析的inter-coderreliability时,coders应该都是从一个理论上无限大的总体中抽出来的样本，所以也应该是random的。

你说你的两次测试是"twosamejudgesindifferenttimewithfixedeffect",我没有足够信息来否定你，但直觉上感到它们是无限空间中的两个时间样本点，所以为什么不是random的？

我们还可以从模型结果的使用来理解between-columnseffects到底是fixed还是random的。

如果你只想（或只能）将其结果限制在本研究的具体时空中（如这两个特定测量时间点、这两个特定coders.等等），那么可以采用fixed模型（3）；反之如果你希望将结果推及其它时间或空间（其它任何测量时点、任何coders、等等），那么就应该用random模型

（2）=除了between-columnseffects的不同选择之外，ICC还涉及其它两个层面的选择，一是估算的ICC是consistency还是absoluteagreement（两者的差别就是我上面提到的旧帖中描述的correlation与difference）,二是single还是average。

这些分别涉及到一些新的问题，暂旦不谈了。

如果谁真的要用ICC,应该认真读一下ICC的权威文献：

K.0.McGraw&S.P.Wong（1996）.Forminginferencesaboutsomeintraclasscorrelationcoefficients、以及该文的鲍错补充。

最后，想说几句感受。

常有网友在此问及各种进阶的统计问题、如SEM、multilevel.ICC等等。

我是又喜又愁。

喜的是后生可畏，敢于玩前沿。

愁的是（从提问中推测），有关网友缺乏必要的基础知识，借助于统计软件而捷径上山、一步到顶峰。

定量分析与其它绝大多数知识不同，只能循序渐进、一个台阶一个台阶往上爬。

如果对进阶的方法不甚了了，与其大胆试用（大部分情况下会用错，而且错了还不知道原因何在），我强烈建议使用熟悉的经典方法，如回归、方差、crosstabs等等。

经典方法也许用到你的数据上会有些问题、但那是已知的问题，而新方法可能带来的风险是无法预知。

如果医生不了解某一新药，绝不敢乱用，而会使用已知作用有限并有副作用的旧药。

我们是给数据看病的DataDoctor,也要有如此的基本医德。

共勉。

展开阅读全文