Ch5MeasurementIssues.docx

资源描述

Ch5MeasurementIssues.docx

《Ch5MeasurementIssues.docx》由会员分享，可在线阅读，更多相关《Ch5MeasurementIssues.docx（21页珍藏版）》请在冰点文库上搜索。

Ch5MeasurementIssues.docx

Ch5MeasurementIssues

第五章：

测量（Measurement）的基本概念及理论

黄炽森

引言

在上一章我们曾简单地介绍了测量的意思及测量结果的四个尺度。

此外，我们也介绍了统计测试的概念及在应用时一些实际的限制，其中一个限制是数据的可靠性。

在组织行为及人力资源管理（OBHR）的研究中，数据的可靠性主要涉及测量的问题，简单而言，即在把要研究的构念量化时，是否能准确地把它显示出来，例如在量化「离职意向」这个构念时，我们用以下三条问题来问受访员工：

请您圈选您对以下描述的同意程度：

（1=极不同意；2=不同意；3=没所谓同意或不同意；

4=同意；5=极同意）

1.我常想到辞职。

2.我很可能于明年另寻新的工作。

3.如果能自由选择，我不会喜欢留在这机构工作。

我们会把员工对这三题的得分计算其平均值，然后以此平均值作为「离职意向」这个构念的量化结果。

为什么我们以平均值，而不是单一问题的得分来代表「离职意向」？

这平均值是否真的能代表「离职意向」？

分数中又有多少的误差？

这些都是测量的问题，如果量化的结果不能代表其构念的状况，那么，我们便不能真的验证它与其它构念的关系了。

以下我们会介绍几个在组织行为及人力资源管理的研究中，较重要的测量课题，包括：

古典测量理论（classicalmeasurementtheory）、共同因子（commonfactor）的概念、效度（validity）的相关概念，例如构念关系网（nomologicalnetwork）、及多元特质和多重方法矩阵（multitrait-multimethodmatrix）。

古典测量理论（classicalmeasurementtheory）

对每一个员工来说，他的「离职意向」（或任何其它的构念）都有一个真的得分（真实得分；TrueScore;TS），而他在每一个测量项目（即以上所言的题目）的响应（观察得分；ObservedScore;OS），除了受真实得分的影响外，还会受两方面的影响。

第一方面是祗与这项目有关的因素，我们称为独特得分（UniqueScore；US）。

第二方面是随机误差的得分（ErrorScore;ES）。

以数学的方程式来表达我们「离职意向」的例子，便是以下三条：

OS1=TS+US1+ES1（第一题）

OS2=TS+US2+ES2（第二题）

OS3=TS+US3+ES3（第三题）

由于ES1、ES2和ES3是随机的，因此是独立的，如果US1、US2和US3也是独立无关系的，那么，把三题的观察得分（即OS1、OS2和OS3）来计算平均值，我们便可降低了ES1、ES2、ES3、US1、US2和US3的影响，得出的结果便更接近真实的得分（即TS）了。

以上我们是以某一员工的得分来说明测量的情况，但是，在科学的组织行为及人力资源管理的研究中，更重要的是构念在整个样本得分的变异量（Variance）。

承接以上「离职意向」的例子，研究人员很可能关心的是影响「离职意向」的前因及后果，因此在样本中的员工一定要在「离职意向」中有不同的得分，这样我们便可测试是否具备某种前因特质（例如外向性格的程度）的员工，其「离职意向」的得分是否会与其它员工不一样。

如果所有员工的「离职意向」都很相近或甚至是完全一样，我们便无法探索或测试它与其它构念的关系了。

因此，分析样本中构念的变异量（Variance）及其中与其它构念相关的共变量（Covariance），是许多组织行为及人力资源管理研究不可缺少的部分。

把样本整体变异量的概念用在测量的得分上，从以上对单一员工得分的了解中，我们可以知道这整体变异量（即员工得分的差异；ObservedVariance；O）的来源，应该有三方面。

第一方面是构念的真实差异（TrueVariance；T），第二方面是影响这个测量方法独有因素带来的差异（UniqueVariance；U），最后是随机误差带来的差异（ErrorVariance；E）。

我们可用以下数学的方程式来表示：

O=T+U+E

由于在探索或测试某一构念与其它构念的关系时，经测量后，我们没有构念的真实变异量（即T）的数据，因此祗能以整体变异量（即O）来进行，所以U及E占整体变异量的比重便非常重要，如果太大，那么我们在进行验证构念间的关系时，出现错误的机会便会很大，甚至变得没有意义了。

关于E占O的比重，我们称为是信度（reliability）的问题。

因为E是随机的，所以我们可把信度定义为测量的工具免于随机误差的程度。

也因为E是随机的，因此我们可理解信度为测量结果的一致性或稳定性。

例如我们以同一测量工具在不同时间测量同一构念，如果E的比重很大，我们便会得到很不一样的结果（即一致性和稳定性很低），那么这测量工具便不可信。

为了与统计上的相关系数看齐，我们一般会取此变异量比例的平方根，称之为信度系数（reliabilitycoefficient）。

以方程式表示，则为：

信度系数（reliabilitycoefficient）=

任何一种测量，尤其是关于社会科学的概念，总有或多或少的随机误差，所以不可能百分百稳定。

这些误差受随机因素所支配，误差愈小，信度愈高；误差愈大，信度愈低。

例如在测量人的智力时，与智力无关的随机因素如受测者当时的心情、当时的状态、测试时的环境等等都可能影响其结果。

如果以我们「离职意向」的例子来说，类似的随机因素（如员工在响应那三个项目时的心情和状态）也是会出现的。

既然测量工具要有一定的信度，那么我们如何估计信度（即E占O的比重）呢？

因为E是随机的，假如我们可以把同一构念测量两次，这两次变异量中的共变量（Covariance）便不应该是随机的，因为随机的变异量不会重复出现。

我们可以下图表示两次测量的变异量情况：

图中T、U及E1是第一次测量的整体变异量（即O1），T、U及E2是第二次测量的整体变异量（即O2）。

因为E1及E2是随机的，所以它们的共变量祗有T和U。

所以我们可用两次测量所得的相关系数作为信度系数的估计。

以上的例子中，我们没有特定指出两次测量是否用同一工具或方式，或在同一时间，以这样两次测量的原理，关于信度的估计，可分为几个方法：

（a）再测信度（test-retestreliability），对同一群受试者，前后测验两次，再根据受试者两次测验分数计算其相关系数。

（b）复本信度（alternativeformsreliability），如果一套测验有两种以上的复本，则可交替使用，根据一群受试者接受两种复本测验的得分计算相关系数。

（c）折半信度（split-halfreliability），常用的折半法是将受试者的测验结果，按题目的单双数分成两半计分，再根据各人在这两半测验上的分数，计算其相关系数。

（d）项目间的一致性（internalconsistencyreliability），如果我们以不同项目来测量同一构念，例如我们以三个项目来测量「离职意向」的构念，则这些项目之间应有一定程度的相关，这方面最常用的估计是Cronbachalpha，其方程式有不同形式，以下是较易明白的一种：

其中K是测量项目的数目；

是所有项目之间的相关系数之平均。

从这方程式我们可看到项目愈多，信度愈大；项目之间愈相关，信度也愈大。

（注：

在数学上，我们可证明Cronbachalpha就是所有可能的「折半信度」的平均值，所以我们在OBHR的研究中，都会报告Cronbachalpha，而不是「折半信度」。

）（e）评分者信度（inter-raterreliability），对一些由不同评分者评定的构念（例如工作表现；jobperformance可由主管及同事评定），评分者之间的相关系数也可用作估计测量的信度。

测量的信度要达到那一个水平，才可用作进一步的探索和验证构念间的关系呢？

这要视乎我们特定的研究问题，但一般而言，在组织行为及人力资源管理的研究中，信度系数最少应达到0.7或以上的水平（Nunnally,1978），如果低于0.6，那就较难接受了。

我们也可看一下信度对验证构念间关系的影响。

假设在验证两个构念的关系时，测量的工具都很理想，首先是达到等距尺度，然后两个工具的U都等于零，那就是说O等于T及E的总和（O=T+E）。

我们可以下图来表示这两个构念经测量后变异量及共变量的关系。

上图的T1p是第一个构念部分的真实变异量，但此部分与第二个构念无关；同样地，T2p是第二个构念部分的真实变异量，但此部分与第一个构念无关；C则是两个构念的共变量。

由于E1和E2都是随机的，所以它们不应该有共变量，因此不会出现在C的部分。

假如我们不理会E1和E2，那么，根据相关系数的方程式，我们为两个构念计算出来的相关系数（ObservedCorrelation；Ro）为：

而O1=T1p+E1+C；O2=T2p+E2+C。

但是，两个构念的真正的相关系数，在计算时，是不应该考虑测量中的随机误差带来的变异量的，因此，两个构念的真正的相关系数（TrueCorrelation；Rt）应为：

假如r1及r2为两个构念的测量工具的信度系数，那就是说：

如果我们把不考虑信度所计算出来的相关系数（Ro）除以r1及r2的平方根，便可求得两个构念的真正的相关系数（Rt）：

因此，两个构念真正的相关系数（Rt）与我们透过有随机误差来测量后计算出来的相关系数（Ro）可用以下方程式表示：

由于信度系数（即r1及r2）一定小于1.00，所以这方程式说明了我们透过有随机误差的测量工具来验证构念间的关系时，往往会作出较保守的估计。

这方程式也可作为更正此一低估之用（correctionforattenuation），在定量的综合（quantitativereview）过往研究发现的「聚合分析」（meta-analysis）论文中是广被应用的方程式，在第十一章介绍「聚合分析」时我们会再提到此方程式的应用。

在结束关于古典测量理论对信度的讨论时，我在这里简单介绍几个影响信度的主要因素，包括：

（a）受测量者方面：

受测量者可能因生病、疲劳、或其它如情绪等因素而影响其测量结果。

（b）主持测量者方面；主持测量者有可能带来随机的差异，例如主持者如果对不同的研究对象持不同的态度，便可能影响测量的结果。

（c）测量内容方面：

测量项目如果不清楚，或可作不同解释，或指示不清楚等，都会带来随机误差。

（d）测量情境方面：

测量的环境如温度、灯光、空气等均可能影响测量结果。

（e）时间影响方面：

测量项目过多或过少有可能降低信度，例如过多会导致「疲劳效应」，过少可能使受测者轻视测量等。

共同因子（commonfactor）的概念

如果我们相信本章测量「离职意向」构念的这三个项目，对某一员工的反应而言，真的是来自一个对这三个项目有共同影响的「离职意向」构念，那么我们可以说除了这个共同因素（commonfactor；CF）会影响这三个项目的得分（OS）外，还有影响每一项目的独特因素（UniqueFactor；UF）及随机因素（ErrorFactor；EF），下图显示了这个情形：

上图表示的，是在这三个项目的的得分（即OS1、OS2及OS3），其实是由于背后一个共同的原因（CommonFactor；CF），即构念的真正得分所影响的，另外的影响，则不是有共同来源的。

把变异量和共变量的分析应用在测量项目上，我们可把整个母体对「离职意向」三个项目的变异量和共变量用以下的图来表示：

在以上的图形中，T代表了真实得分的变异量，因为它是三个项目共同的变异量，那么即是受同一原因影响的变异量部分。

其它祗是属于单一项目的变异量（U1+E1、U2+E2和U3+E3）及两个项目的共变量（C12、C13和C23）都不是来自三个项共同的原因的，因此不可能是这构念真实的变异量。

如果我们能把T这一部分，即三个测量项目的共变量抽出来，便可得到一个没有测量误差的结果。

数学上的因子分析法（factoranalysis）是有可能帮助我们检定这共同因素（或称为因子）是否存在的。

假设我们有九个测量项目，以V1到V9代表，这九个项目的变异量及共变量构成了这九个测量项目的总体变异量。

我们可创造九个因子（F1到F9），每一因子为九个项目的加权总和（LinearCombination；附注一），以下是用数学方程式来表示：

F1=L11*V1+L12*V2+L13*V3+L14*V4+L15*V5+L16*V6+L17*V7+L18*V8+L19*V9

F2=L21*V1+L22*V2+L23*V3+L24*V4+L25*V5+L26*V6+L27*V7+L28*V8+L29*V9

F3=L31*V1+L32*V2+L33*V3+L34*V4+L35*V5+L36*V6+L37*V7+L38*V8+L39*V9

F4=L41*V1+L42*V2+L43*V3+L44*V4+L45*V5+L46*V6+L47*V7+L48*V8+L49*V9

F5=L51*V1+L52*V2+L53*V3+L54*V4+L55*V5+L56*V6+L57*V7+L58*V8+L59*V9

F6=L61*V1+L62*V2+L63*V3+L64*V4+L65*V5+L66*V6+L67*V7+L68*V8+L69*V9

F7=L71*V1+L72*V2+L73*V3+L74*V4+L75*V5+L76*V6+L77*V7+L78*V8+L79*V9

F8=L81*V1+L82*V2+L83*V3+L84*V4+L85*V5+L86*V6+L87*V7+L88*V8+L89*V9

F9=L91*V1+L92*V2+L93*V3+L94*V4+L95*V5+L96*V6+L97*V7+L98*V8+L99*V9

因为每一因子是原来九个项目的加权总和，它一定抽取了这九个项目总体变异量的一部分。

如果在设定以上方程序的L值（即L11到L99；我们称为「因子负荷量」；factorloadings；因为因子是各项目的加权总和，所以L值是从零到一或负一的数值）时，我们使它们抽取了总体变异量的不同部分。

由于我们原来祗有九个项目，所以这九个因子，应可百分之一百地把原来项目的总体变异量都抽取了。

如果平均分配，则每一因子抽取了九分一的总体变异量，由于不同情况牵涉的项目数不一样，所以我们把这平均值标准化，以1为代表，称为「固有值」（eigenvalue）。

那就是说，如果某一因子的「固有值」大于1，则代表它抽取了较平均为多的总体变异量；如果某一因子的「固有值」小于1，则代表它抽取了较平均为少的总体变异量。

（注：

由于因子是所有项目的加权总和，在数学上而言，某一因子的「固有值」（即标准单位的变异量）便是该因子的所有L值平方的总和，例如F1的「固有值」便是：

（L11）2、（L12）2、（L13）2、（L14）2、（L15）2、（L16）2、（L17）2、（L18）2及（L19）2的总和；此因子抽取的总变异量的比率便是「固有值」除以测量项目的总数；而这些L值平方我们称为「共同性」（communality），因为它代表了在此一因子中测量项目共同组成的变异量成分；请参看附注一。

）

要设定L11到L99的数值，除了限制各因子抽取了总体变异量的不同部分外，我们也可设定其它限制，例如各因子之间的相关系数为零（或不设此限，使因子间可有相关；附注二）。

但是，有一点是一致的，那就是我们都会尽量用较少的因子来抽取最大比率的总体变异量。

如果少数几个因子已经能抽取相当部分的总体变异量，我们可假定其它因子所抽取的，主要是个别测量项目的独特变异量及随机变异量，而少数的几个因子则主要代表了原来测量项目背后的共同变异量，即构念的真实变异量。

一般来说，我们假定「固有值」大于1的因子代表了构念的真实变异量，当然，这个准则可视乎特定的情况来修正。

在找到能抽取最大比率的总体变异量的少数因子后，我们便可集中在这几个因子中，尝试调整它们的L值，目的是希望用最少数的测量项目来代表这因子的变异量，在数学上而言，便是尽量扩大少数项目的L值及缩小其它项目的L值，当然，其限制是要尽量维持整个因子的变异量。

我们称这步骤为「rotation」。

此外，在第一步计算所有因子的L值时，我们是要各因子抽取总体变异量的不同部分，换句话说，因子之间是完全没有关系的。

但是，在进行「rotation」时，我们先要设定是否容许这几个少数因子互可以有关系，因为如果这些因子代表了不同的构念，在理论上，如果它们是可能有关系的，我们在「rotation」时便不应加以限制（附注二）。

让我们用一个实际例子来说明，我们曾以问卷抽样调查了182名香港的中学教师，问卷中包括了三题测量他们性格中的「同意特质」（Agreeableness；A1、A2及A3）、三题「工作满意度」（JobSatisfaction；JS1、JS2及JS3）、及三题「自评的工作表现」（JobPerformance；JP1、JP2及JP3）。

由于老师的「同意特质」性格可能与其「工作满意度」及「自评的工作表现」有关，因此在「rotation」时我们不应假定因子之间是无关的，所以用SPSS来作因子分析时，我们用以下的指令：

getfile=’nameoffilecontainingtheSPSSsavefile’.

factorvars=A1A2A3JS1JS2JS3JP1JP2JP3/extraction=paf/rotation=oblimin.

以「固有值」大于1为标准，所得的主要结果如下：

（1）L值的估计（在SPSS中的PatternMatrix，即「rotation」后的结果）

.022

.488

.080

-.030

.679

.018

.011

.708

-.122

JS1

.741

.016

.010

JS2

.763

-.013

.033

JS3

.611

.012

-.041

JP1

.033

-.069

.707

JP2

.283

.057

.588

JP3

-.127

.035

.587

percentageofvarianceexplained

20.060%

12.533%

10.700%

（2）因子的相关（FactorCorrelationMatrix）

1.000

.194

1.000

.194

.094

1.000

由以上对L值的设定，我们可看出这九个测量项目可以用三个共同因子来抽取相当部分的总体变异量，而第一个因子的主要变异量是来自「工作满意度」的三个测量项目；第二个因子的主要变异量是来自「同意特质」的三个测量项目；第三个因子的主要变异量是来自「自评的工作表现」的三个测量项目。

上述的因子分析法没有对任何L值作出限制，我们称为「探索性因子分析法」（ExploratoryFactorAnalysis；EFA）。

这个方法是有两个重要缺憾的，首先，L值的设定及最后抽出「固有值」大于1（或其它设定的标准）的因子数目，是完全取决于我们在实证研究所取得样本的数据，除非我们对不同样本反复进行，否则我们无法确定所得结果是不是一个普遍现象。

更重要的缺憾是：

虽然我们说第一个因子的主要变异量是来自「工作满意度」的三个测量项目，但它还是包括了其它六个测量项目的部分变异量，严格来说，这是不正确的，因为如果「同意特质」、「工作满意度」及「自评的工作表现」是三个构念而各为其测量项目的共同原因，它们不应该同时对其他测量项目有影响。

如果以图表示，这三个构念与其测量项目的关系应为：

上图C1、C2及C3代表三个构念，方格代表测量项目，为简单起见，我们没有划出独特和随机因素的影响。

如果上图是正确的话，那么这些因子不应对不相关的测量项目有影响，既然如此，则相关的L值应为零。

承接以上的例子，正确L值的设定应有以下的限制：

F1=0*A1+0*A2+0*A3+L14*JS1+L15*JS2+L16*JS3+0*JP1+0*JP2+0*JP3

F2=L21*A1+L22*A2+L23*A3+0*JS1+0*JS2+0*JS3+0*JP1+0*JP2+0*JP3

F3=0*A1+0*A2+0*A3+0*JS1+0*JS2+0*JS3+L37*JP1+L38*JP2+L39*JP3

把等于零的数值删除及简化L的符号，即：

F1=L11*JS1+L12*JS2+L13*JS3

F2=L21*A1+L22*A2+L23*A3

F3=L31*JP1+L32*JP2+L33*JP3

当我们设定了这样的限制而进行因子分析时，我们称为「确认性因子分析法」（ConfirmatoryFactorAnalysis；CFA），因为我们先对这些构念和它们的测量项目有一个清楚及符合测量理论的关系假设，然后以实证的样本数据来验证这关系假设。

这样一来，就与我们上一章所说统计测试的逻辑及步骤相符，而统计学家也设定了一些标准指针，让我们由样本的数据检定是否接受原来的关系假设。

但是，CFA也有它的限制，因为样本必须提供足够的数据，才可验证原来的关系假设。

对CFA而言，测量的项目一定要足够，一般而言，对每一构念最好有不少于三个测量项目，否则CFA可能因数据不足而无法进行（关于数据是否足够的问题，在第十章讨论「结构方程模型」时我们会再加以介绍）。

让我们用实例来说明，由于上述对182名香港中学教师的问卷抽样调查，我们原先便是为每一构念设定其测量项目，严格来说应以CFA，而不是EFA来检定这些测量项目是否恰当。

由于用LISREL的软件来进行CFA较方便，我们便以此说明。

在软件中可用简易的指令来进行CFA，以下是其简易的指令（关于LISREL简易指令的介绍，可在第十章的附录中找到）：

Title:

ConfirmatoryFactorAnalysisIllustration

ObservedVariables:

A1A2A3JS1JS2JS3JP1JP2JP3

LatentVariables:

AGREEJOBSATJOBPERF

RawDataFromFile:

nameofafilecontainingthedata

Relationships:

A1A2A3=AGREE

JS1JS2JS3=JOBSAT

JP1JP2JP3=JOBPERF

EndofProblem

所得的主要结果包括：

（1）因子的相关（FactorCorrelationMatrix）

AGREE

JOBSAT

JOBPERF

AGREE

1.000

JOBSAT

.19

1.000

JOBPERF

.13

.42

1.000

（2）检定是否接受原来关系假设的标准指标（GoodnessofFitStatistics）

从以上的结果，我们可看出「工作满意度」及「自评的工作表现」两个构念的相关较高（0.42），但不致于分不开二者。

关于检定是否接受原

展开阅读全文