经典测量理论.docx

资源描述

经典测量理论.docx

《经典测量理论.docx》由会员分享，可在线阅读，更多相关《经典测量理论.docx（30页珍藏版）》请在冰点文库上搜索。

经典测量理论.docx

经典测量理论

第四节经典测量理论

　　本节首先简要论述了题库同教育测量理论的关系以及两种基本的教育测量理论，并且对教育测量理论和教育测量理论中的经典测量理论作了详尽的论述。

一、题库同教育测量理论的关系

　　如果我们想对题库有一个透彻的理解，就很有必要了解题库建设所依据的教育测量理论，他们是使题库变得可以使用的科学的依据。

题库是按照一定的教育测量理论利用计算机技术构成的某种学科题目的集合。

题库中的题目属性有一些其量化指标是一个统计量，如题目的难度、区分度，这是题库的重要指标项，被称为项目统计量（或项目参数）。

项目统计量要根据教育测量理论的方法计算出。

教育测量理论不仅为题库的项目统计量提供计算方法，也为题库中题目属性项目的建设提供依据，同时为测验的有效性、可靠性分析与评价提供方法和标准。

二、两种不同的教育测量理论

　　在题库建设中使用的测量理论有两种，即：

经典测量理论（CTT:

ClassicalTestTheory）

　　　　　　　　　　　　　项目反应理论（IRT:

ItemResponseTheory）

　　两种理论的核心部分是数学模型，它们是基于不同的假设提出的。

经典测量理论采用的是线性的定性模型；项目反应理论采用的是非线性的概率模型。

尽管如此，两种理论仍有许多相同及相互联系的地方，经典理论中的项目统计量与项目反应理论中的项目参数有着很高的相关性，只是项目统计量依赖于被试团体，不具普遍性；而项目参数与被试原体无关，项目参数具有不变性，这可使各个被试团体所得到的项目参数具有可比性。

参数不变对提高题库的质量、对于测验的编制和实施适应性测验都是非常重要的。

三、测量理论

（一）教育测量的应用

　　教育测量是对教育领域内的事物或现象，根据一定的客观标准，作慎密的考核，并依据一定的规则将考核的结果予以数量的描述。

　　教育测量是学校教育常用的基本手段之一。

平时的单元测验和期中、期末考试，都是属于教育测量。

　　在教育科学研究中，特别是实验研究，为了给选择和组合基础条件基本相仿的实验组和对照组提供客观依据，或要掌握单组实验的实验对象的初始水平，一般都要进行事前测量；在实验结束之后，为了要显示因变量的变化情况，又要进行测量。

因此，教育测量也是教育科学研究，特别是实验研究的必不可少的工具。

（二）教育测量的要素

　　任何一种测量都要定义单位、确定参照点和使用体现单位、参照点的测量工具。

例如，摄氏温度的测量，人们规定了在标准大气压下，水的沸点和凝固点之差的1/100作为一个摄氏温度单位，确定水的凝固点为摄氏温度零度，并以此为参照点；在此基础上，把体现单位、参照点的摄氏温度计作为测量温度的一种工具。

由此可见，测量的三要素是单位、参照点和体现单位和参照点的测量工具。

教育测量作为一种特殊的测量，毫不例外地要有单位、参照点和体现单位、参照点的测量工具。

　　1、单位　　单位是计算数量的名称。

在物理特征的测量时，千克是测量重量的单位，米是测量长度的单位，分贝是测量声音的单位。

任何测量都离不开计量单位。

教育测量也是如此。

目前，在中小学教育中，教育测量最常用的单位是百分单位和等级单位。

百分单位就是规定一项测验的满分为100分，把满分的1/100作为一个计量单位。

等级单位是根据一项测验结果的上限和下限，把结果分成若干个等级，每一个等级作为一个计量单位。

　　2、参照点　　所谓参照点是指计量的起点。

有了参照点，就可以比较两个测量结果的异同。

否则，测量的结果就无法进行比较。

根据测量理论，参照点可分成两类：

一类是绝对参照点；另一类是人为参照点。

　　教育测量中的参照点，除了某些体育测量之外，其余测量的参照点，全部是人为参照点。

例如，在百分单位的测量中，习惯上将60分作为及格的参照点。

　（三）教育测量的特点

　　1、测量的间接性一个物体的物理特征，诸如重量、长度和温度等，可以用秤、尺和温度计等予以直接测量。

但是，由于学生的知识和技能的掌握、能力的发展、思想品德等情况，都是人的大脑活动情况。

今天的科学发展水平，人们还没有办法直接测量人类的心理活动情况。

目前，我们只能通过学生的外显行为，间接地测量学生与教育有关的精神特征。

具体地说，我们主要是通过学生对文字测验题的反应和其它的一些行为表现，根据教育学和心理学的理论，用逻辑推理的方法来间接地测量他们的知识和技能水平、能力发展情况和思想品德情况的。

　　2、测量的不稳定性物理特征的测量结果基本上是稳定不变的。

但教育测量则不然。

例如，在百分单位中，A、B两个不同年级的学生，在期中语文考试中的成绩都是88分。

完全有可能A学生是班上的高分获得者，而B学生在班上是低分获得者。

这是由于A、B两学生各自所在年级的语文考试试题的难易程度不一致，评分标准不一样，所在班级的学生考试成绩的分布情况有差异等，造成了分数的价值不相等。

　　3、计量单位的不等距性　　重量、长度、体积和温度等物理特征的计量单位，大部分是等距的。

例如，100米与95米的差是5米，41米与36米的差也是5米，这两个差是相等的。

但是，教育测量中的计量单位就未必是等距的。

如，在百分单位的测验中，A、B两个学生的数学测验成绩是60分和59分，C、D两个学生的数学测验成绩是90分和89分。

虽然A、B两个学生的分数之差与C、D两个学生的分数之差都是1分，但前者1分的价值和后者1分的价值是完全不同的。

　（四）测验的基本指标

　　测验的信度、效度、难度和区分度是衡量测验质量的基本指标。

　　1、信度　　所谓测验的信度是指测验的可靠性或者可靠程度。

具体地说，测验的信度是指同一组学生用同一测验实施两次后所得分数的一致性，或者同一组学生经过一次测验后，用另一个同质的测验再测一次，这两次测验所得分数的一致性。

　　2、难度　　难度是指测验的难易程度。

在教育测量中，某测验的难度一般是用正确解答该测验题的人数与参与测验的学生数的比值来刻划的。

　　3、区分度　　区分度又叫鉴别力，它是测验对学生实际水平的区分程度的指标。

一个具有良好区分度的测验题，实际水平高的学生应该得高分，实际水平低的学生应该得低分。

测验的区分度有积极区分度和消极区分度两种。

积极区分是指区分的方向与测验总分的方向一致的区分，区分的方向与测验部分的方向不一致的区分是消极区分。

测验题的区分度的取值范围在-100至100之间。

如果区分度是负值，则表示该区分是消极区分；如果区分度为0，则表示该测验题没有区分；如果区分度是正值，则表示该区分是积极区分。

四、经典测量理论的内容

（一）成绩分析

　　对于被试群体的成绩分析，经常使用的测量指标有平均分和标准差。

　　1.平均分数

　　平均分数是用得最多的一种集中量数。

所谓集中量数是指反映分数集中位置这个特征的数值，它代表一批分数，反映一批分数的典型情况，因此常用它进行不同分数组之间的比较。

集中量数的形式有多种，如算术平均数、中位数、众数等。

算术平均数则是最常用的一种。

　　设一组分数分别用X1，X2，…，Xn表示，则这组有n个分数的分数组的平均分为：

　　　　　　　　　　　　　　　简记为:

　　2.标准差

　　对于一批分数，除了要了解它的集中量数外，还应了解它的差异量数，即分数的分散程度或离散程度。

差异量数的形式也有多种，标准差是最重要的差异量数。

　　若有n个分数X1，X2，…，Xn,这组分数的标准差定义为:

而称为该组分数的方差。

（二）项目分析

　　通常，对考试的分析与评价分两方面进行。

一是对各个试题进行的分析，称为"项目分析"，二是对整个试卷或考试进行的分析和评价，称为"整体分析"。

　　学业成绩测验可以用来衡量学生的相对水平，也可用于衡量学生的实际水平。

在教育测量中，把用于衡量学生相对水平的测验叫做常模参照测验；把用于衡量学生实际水平的测验叫做目标参照测验。

常模参照测验中的"常模"是指某一规定的学生群体在该测验中的成绩，在标准化测验中，"常摸"实际上就是标准化样本在测验中的平均成绩。

某-指定学生的学习成绩的好坏，是根据该生的成绩在规定群体中所处的地位来判断的，例如与群体的平均分进行比较。

目标参照测验的"目标"是指某门课程既定的标准，即教学目标。

目标参照测验是以学生必须达到的标准来决定他是否具备某种能力的测验。

它所关心的是测知一个人所能做的是什么，而不是要参照别人的学习能力水平来决定名次。

当然，对一次测验也可以同时提出这两方面的要求。

由于存在着常模参照测验和目标参照测验，因此，对项目分析和整体分析也有不同的要求。

常模参照测验的项目分析包括难度分析、区分度分析和迷惑答案的有效性分析。

　　1.难度分析

　　难度是指试题的难易程度，确定试题难度的方法有多种，其中一种常用的方法是利用下式计算：

其中:

　　分别表示第j题的难度，考生的第j题的平均分和第j题的满分分数。

如果有n个考生，则可利用下式，由考生在第j题上的得分直接求得第j题的难度。

　　　　　　　其中:

　Xji

　　表示第i个学生在第j题上的得分。

　　如果采用0、l记分法，即答对时记1分，答错时记0分，也可用下式求得Pj的值。

　　由上面的式子可知：

Pj的最大值是l，表示无一人答对该题，该题的难度高。

最小值是0，表示每个学生都答对了该题，该题的难度低。

　　在编制试题时，一般取难度适中的题目。

一个试题，如果受试者全部答对或全部答错，即难度为0或l，这样就无法区分受试者之间的能力差异。

难度越接近0.5时，其区别力越高，所以应选择难度为0.5的试题来组成试卷，但这也不是绝对的，如果一份试卷的各个题目的难度都是0.5，由于题目太同质，又会降低总分数的区别力。

因此，在选择试题时，除尽量使试卷的平均难度接近0.5外，还要使试题的难度适当分散为宜。

　　事实上，试题难度的选取还应考虑考试的目的。

例如，某次考试要录取15％的人进行重点培养，试题的难度应选在o．85左右；如果要选15％的困难同学参加辅导，测试题的难度应在0.15左右。

如果要测验学生对学习内容的掌握情况，学习的内容简单；试题也应该简单；学习的内容难，试题也应该难。

在这种情况下，我们的目的是要了解学生能否完成学业，而不是区分学生的等级，则可不去追求试题的难度。

　　2.区分度分析

　　区分度即鉴别度，是指测验项目对被试者的区分程度或鉴别能力。

计算区分度的方法有多种，用得比较普遍的一种方法是两端分组法。

它是比较得分在高、低两端的受试者通过该题目的比率。

　　假设PH和PL分别为高分组和低分组通过某个题目的百分比，则下式提供了该题目的区分度的　　指标：

　　　　　　　　　　D＝PH-PL

　　D是区分度指数。

D的值在-l和+1之间。

D＝+l，表示高分组全部答对，而低分组全都答错；D=-1则与上面的情形相反，低分组的全部答对，高分组的却全都答错；D=0，则表示两个分数组的通过率相等。

一般认为，D在0.4以上就非常好了。

　　上式也可表示为：

　　其中PH及PL分别表示高分组和低分组通过该题的人数，n为每组的人数。

　　显然，两个组越是处于极端，二者之间的差异越是明显。

但很极端的分组（例如最高10％和最低10％），由于每组的人数太少，会降低结果的可靠性。

有人证明，在常态分布中，高低分的分组最佳点是上下27％，以此为分界点，既可以使两个对比组间的差异尽可能大，又可使两组人数尽可能多。

当分布比常态曲线更平缓或更陡时，最佳分界点可比27％稍大或稍小些。

当被试的人数不太多时，分界点可取25％一33％之间的任何数字，若被试少于1O0人，甚至可用50％作分界点，把上下各半作为高分组和低分组。

　　3.迷惑答案的有效性

　　迷惑答案的有效性分析是对选择题而言的，它是在难度分析和区分度分析的基础上进行的。

可以根据迷惑答案的有效性分析，为教师提供修改试题的参考信息。

　　例如，一次测验的考生人数为100人，按考试成绩取前面27人和后面27人构成高分组和低分组。

表3.41表示该测验的部分试题的项目分析。

　　　　　　　　　　　　　　　　　　　　　　　　　　"（）"表示正确的选项

　　根据表中列出的各题的回答情况，可对每题的设计质量进行分析。

　　第一题，选项C无论是高分组或是低分组无一人选择，说明C对该试题没有贡献，应予修改或删除。

对选项A，高分组和低分组几乎有相同的选择，说明该选项有意义含糊之处，也需要修改。

本题的难度和区分度比较合适。

　　第二题，高分组和低分组对正确选项选择的人数一样多，区分度为0，四个错误选项也具有同等的迷惑力。

这很可能是因为题目的编制不当，因此需要进一步修改。

　　第三题，低分组的答对人数反比高分组的答对人数多，区分度出现负值，这样的题要么删掉，要么重新编制。

　　第四题，高分组的学生有80％以上的学生答错，低分组的无一人答对，可见题太难。

而且答错者较多地集中在选项C上，说明选项的迷惑力太强了。

　（三）整体分析

　　整体分析是利用测验的结果对试卷进行全面的分析和评价。

它是通过两个数量指标来描述的。

这两个指标称为效度和信度，它们是表明测验的有效性和可靠性的数量指标。

　　1.信度

　　信度又称可靠性，它是指测验的一致性程度。

表现在同一个测验在不同时间上所得结果的一致性。

通常以相关系数为数据指标，称为信度系数。

如果信度系数大，则测验信度高；如果信度系数小，则测验信度低。

　　信度的概念是个理论上的构想概念，在实际测量中是无法得到的，通常是以估计的方法求得信度系数，以它的大小来表示测验信度的高低。

常用的估计方法有：

　　第一，再测法。

以同一份试卷，在不同的时间内对同一组受测者施测两次，根据两次测验分数计算得到的相关系数称为再测信度。

如果两次测验分数相关程度高，表明测验结果稳定，可靠。

但是，两次测验结果的稳定性受它们之间的时间间隔长短的影响，因此，一般标准化测验很少用再测信度来估计测验结果的可靠性。

　　第二，复本法。

编制两套题目不同、形式相同的试卷，题目的难度和区分度类同，在最短的时间内用两卷考试同一个群体，所得结果的相关系数称为复本信度。

　　第三，分半法。

一测验施予受测者后，将全部试题分为相等的两部分（一般采用奇、偶题分半），并分别计算每个学生在两半试题的得分，再求得两半试题得分的相关系数，这是半个考试的信度系数。

为了估计整个测验的信度，可采用斯布公式计算：

　　其中rtt为整个测验的信度;　　rhh为两半试题得分的相关系数。

　　第四，库理法。

这是一种常用的方法，使用K-R20公式与K-R21公式估计测验的信度。

　　K-R20公式：

式中，K表示测验所有的题目数；Pi为题目i通过率；是测验总分的变异数；r为测验的信度系数。

　　如果每个题目的难度相近，可利用K-R21公式：

式是测验总分的平均数，其它符号的含义与K-R20公式中的相同。

　　用库理法估计测验的信度只适于客观性测验，对于主观性测验可用克伦巴赫α系数公式估计其信度：

式中α为克伦巴赫系数值，即信度系数；　K为题目数；为题目j的分数变异数；S为测验总分数的变异数。

　　2.效度

　　效度即测验的有效性，指测验结果的正确性程度，即是说测验在多大程度上测量到了所要测的东西，由于测验的目标不一样，因而便产生了几种效度形式：

内容效度、效标关联效度和结构效度。

　　第一种形式是内容效度，指测验内容与预定要测量的内容间的一致性程度。

测验内容是对测验题目而言，预定要测量的内容不但指教学内容，而且还包括教学目标。

因此，教学内容和教学目标是内容效度的两大要素。

如果测验题目与所要测量的教学内容及教学目标的一致性程度比较高，则测验的内容效度比较高，否则，测验的内容效度比较低。

内容效度的值常由该领域的专家判定。

为了保证测验有较高的内容效度，在编制试题之前，认真地建立一个双向纲目表，然后再依据双向纲目表编制试题。

　　第二种形式为效标关联效度，在特定条件下测验对被测验的操作行为所作预测的有效性，一般以测验分数与效标分数之间的相关系数来度量。

所谓效标是衡量测验有效性的参照标准，它是指测验所要测量或所要预知的行为特征，这种特征又常用另一种测验的结果来表示，例如，对大学生来说，可用他们的"大学的成功"作为大学入学考试的效标。

"大学的成功"的标准通常用效标分数来表示，即用大学期间的学习成绩或一年级的学年平均成绩作为效标分数。

　　根据测验分数与效标分数之间的时间关系，效标关联效度分为同时效度和预测效度。

如果测验分数和作为效标的分数两者获得的时间间隔很短，称为同时效度；若获得这两种分数的时间间隔较长（通常是测验分数在前，效标分数在后），则称为预测效度。

　　第三种形式为结构效度结构效度是指测验能测量理论上的结构或心理特性的程度。

所谓结构是指用来解释人类行为的理论体系或心理特质。

如"理解能力"、"研究能力"、"智力"、"动机"、"自尊心"等等。

当把考分用作测量某种心理特质时，亦即根据考分的高低来推论具有这种心理特质的程度时，就需要结构效度来作为衡量的指标。

　　按照经典理论计算难度、区分度、信度等质量指标的方法，存在着严重依赖于样本的问题。

那怕从同一总体抽样，就同一试题而言，被试样本组的水平如果较低，求出的难度值就会偏高；如果水平高，求出的难度值就会显得低。

对区分度来说，如果被试样本组的程度参差不齐，较为异质，求出的区分度值就会高；若较为同质，程度相当整齐，求出的区分度值就会显得低。

信度也有与区分度类似的情况。

这样，质量指标随测试样本而变化，得不到普遍适用于整个被试总体的值。

　　在应用方面，经典理论也表现许多不足。

例如，它主要适合于常模参照测验，而难以较好地满足目标参照测验的要求；主要适合于进行观察分数等值，难以较好地满足题目参数等值的要求；特别是，它不能为自适应测验（AdaptiveTesting）这类新型测验提供坚实可靠的理论基础。

经典测量理论的精华

一般将测量理论分为经典测量理论、概化理论和项目反应理论三大类，或称三种理论模型。

人们将以真分数理论（TrueScoreTheory）为核心理论假设的测量理论及其方法体系，统称为经典测验理论（ClassicalTestTheory，CTT），也称真分数理论。

　　真分数理论是最早实现数学形式化的测量理论。

它从十九世纪末开始兴起，二十世纪30年代形成比较完整的体系而渐趋成熟。

５０年代格里克森的著作使其具有完备的数学理论形式，而1968年洛德和诺维克的《心理测验分数的统计理论》一书，将经典真分数理论发展至颠峰状态，并实现了向现代测量理论的转换。

　　所谓真分数是指被测者在所测特质（如能力、知识、个性等）上的真实值，即（TrueScore）真分数。

而我们通过一定测量工具（如测验量表和测量仪器）进行测量，在测量工具上直接获得的值（读数），叫观测值或观察分数。

由于有测量误差存在，所以，观察值并不等于所测特质的真实质，换句话说，观察分数中包含有真分数和误差分数。

而要获得对真实分数的值，就必须将测量的误差从观察分数中分离出来。

为了解决这一问题，真分数理论提出了三个假设：

其一，真分数具有不变性。

这一假设其实质是指真分数所指代的被测者的某种特质，必须具有某种程度的稳定性，至少在所讨论的问题范围内，或者说在一个特定的时间内，个体具有的特质为一个常数，保持恒定。

其二，误差是完全随机的。

这一假设有两个方面的含义。

一是测量误差的平均数为零的正态随机变量。

在多次测量中，误差有正有负。

如果测量误差为正值，观测分数就会高于其实际的分数（真分数）；如果测量误差为负值，则观测分数就会低于其实际的分数，即观察分数会出现上下波动的现象。

但是，只要重复测量次数足够多，这种正负偏差会两相抵消，测量误差的平均数恰好为零。

用数学式表达为：

E（E）=0。

二是测量误差分数与所测的特质即真分数之间相互独立。

不仅如此，测量误差之间，测量误差与所测特质外其它变量间，也相互独立的。

其三，观测分数是真分数与误差分数的和。

即Ｘ＝Ｔ＋Ｅ。

　　在上述三个基本假设的基础上，真分数理论作出了如下两个重要推论：

第一，真分数等于实得分数的平均数（T=E（X））；第二，在一组测量分数中，实得分数的变异数（方差）等于真分数的变异数（方差）与误差分数的变异数（方差）之和。

即（S2X=S2T+S2E）。

经典测量理论在真分数理论假设的基石上构建起了它的理论大厦，主要包括信度、效度、项目分析、常模、标准化等基本概念。

（1）信度（Reliability）。

信度是测量理论中最重要的核心概念，指测量果的一致性程度，亦称可靠性程度。

在经典测量理论中信度被定义为：

一组测量分数的真分数的方差（变异数）在总方差（总变异数）中所占的比率。

　　由于真分数的方差和误差分数的方差是无法获得的，因此这个信度概念还只是一个理想的构想的概念，不能直接计算。

为了解决这一问题，CTT提出了平行测验（ParallelTest）的概念。

　　所谓平行测验是指能够对同一被试的同一特质作相同准确测量的不同测验形式（测验题目）。

如果某一测验有许多平行式，则某被试可以在每一形式上获一个观测分数，这样就产生了一个观测分数的分布，这一分布的平均值就称作该被试的真分数。

实际上，平行测验是一个构想的概念，要在实际的测验的编制中实现是非常困难甚至是不可能的，最多也只能说是比较接近。

在平行测验假设的基础上，CTT提出了估计测验信度的一系列方法，如采用相关法进行重测信度（Test-retestReliability）、复本信度（Equivalent-formsReliability）、分半信度（Split-halfReliability）的估计，提出同质性的概念以保证反应的一致性，如克伦巴赫（Cronbachα）系数、库德和理查逊（G.F.Kuder＆M.W.Richardson，1937）提出的估计一致性的两个公式Ｋ－Ｒ20公式和Ｋ－Ｒ21公式、荷伊特信度（Hoyt，1941）等都是进行同质性估计的重要方法。

（２）效度（Validity）

　　测量的效度是指测量结果的有效性程度，也就是已测到的质和量与主试者欲测的质和量相符合的程度，有的也称效度为正确性。

效度是任何一种测评必须解决的首要问题，因为有效性决定了一种对测量效度的考查是一个很复杂的问题，特别是对人的潜在特质的测量，因为潜在特质并不是一个看得见摸得着的物质实体，而是一种观念构想。

对潜在特质的测量只能采用间接的方法，其测量模型可表示用行为主义的公式Ｓ－Ｒ表示，在测量过程中我们所能控制的是呈现给被试的刺激Ｓ，所能观测到的是被试在一定测量情景下对刺激Ｓ的反应Ｒ。

而潜在特质是介于Ｓ和Ｒ之间的，在这一中间过程对Ｓ传入大脑的信息作出了处理，处理后的信息以Ｒ方式输出。

简单地说，效度要弄清楚的是在Ｓ信号传入大脑后，哪种（哪些或最主要是哪一种）特质参与了对输入信号的处理。

　　CTT对效度问题提出了诸多解决方案，因而有很多效度名称。

如，同时效度，预测效度，表面效度，相容效度，协同效度，假设效度，效标关联效度，实证效度，经验效度等等。

为了规范效度问题的研究与解释，美国心理学会在1974年将测量的效度分为三大类，即，内容效度（ContentValidity），是指测验的内容对欲测范围内内容的代表性程度；结构效度（ConstructValidity），测量结果与测验的理论假设之间的一致性程度；效标关联效度（Criterion-relatedValidity），又称实证效度，指测量的结果与某种外在效标之间的一致性程度，一般用测验分数与效标之间的相关系数表示。

　　成就测验或学科测验（以检测知识为主的考试）较容易获得较高的内容效度，而对这类测验也往往注重考察它们的内容效度。

对于能力测验、个性测验、态度测验、品德测评等，其内容效度的考察往往比较困难，而采用效标关联效度较多。

效度的检验不是一次就能完成的，往往要通过累积证据的方法不断积累效度资料来

展开阅读全文