心理测量学笔记备考北师大.docx

资源描述

心理测量学笔记备考北师大.docx

《心理测量学笔记备考北师大.docx》由会员分享，可在线阅读，更多相关《心理测量学笔记备考北师大.docx（37页珍藏版）》请在冰点文库上搜索。

心理测量学笔记备考北师大.docx

心理测量学笔记备考北师大

心理测量学

第一章心理测量的理论基础

第一节心理测量的理论基础

1.心理测量的基本概念

（1）心理测量的定义

依据一定的法则，用数字对人的行为加以确定。

测量就是依据一定的法则，使用工具对事物的特征进行定量描述的过程。

（2）测量的基本要素

参照点：

在测量工作中，必须有一个量的起点，这个起点就叫做测量的参照点。

两种：

绝对参照点，即以绝对的零点作为测量的参照点。

划分“有无”的界限。

相对参照点，即以认为确定的零点为测量的起点。

人为主观规定的标准。

注：

心理测量一般为相对零点；物理测量一般为绝对零点。

物理测量也有相对零点的情况，如温度、时间、海拔等。

单位：

应具备两个条件：

有确定的意义；有相等的价值。

（一般以标准差为单位）

（3）测量的量表

命名量表：

最低水平的测量量表，只是用数字代表事物或用数字对事物进行分类。

名称量表：

用数字指代个别事物。

类别量表：

用数字指代事物的种类。

统计方法：

百分比、次数、众数、X2检验。

顺序量表：

次低水平的测量量表，不仅能够指代事物类别，而且能够表明不同事物类别的大小、等级或事物具有某种特征的程度。

既没有相等的单位，也没有绝对的零点。

不能进行代数运算。

心理测量量表一般是在顺序量表上进行的。

统计方法：

中位数、百分位数、等级相关系数、肯德尔和谐系数。

等距量表：

较高水平的测量量表，不仅能够指代事物的类别、等级，而且具有相等的单位，可以进行加减运算。

没有绝对的零点，是假定的相对零点。

统计方法：

平均数、标准差、积差相关系数、t检验、f检验。

比率量表：

最高水平的测量量表，不仅可以知道测量对象之间的相差程度，而且可以知道它们之间的比例。

除了具有类别、等级、等距的特征外，还具有绝对的零点，可以进行加减乘除运算。

统计方法：

平均数、标准差、积差相关系数、t检验、f检验、几何平均数、变异系数。

2.心理测量的特征与分类

（1）心理测量的特征

间接性：

只能通过一个人对测验项目的反应来推论出他的心理特质。

相对性：

测量就是看每个人处在这个序列的什么位置上，由此测得一个人智力的高低、兴趣的大小等，都是与所在团体的大多数人的行为或某种人为确定的标准相比较而言的。

客观性：

是对一切测量的基本要求，实际上就是测量的标准化问题。

（2）心理测验的分类

按功能（测量对象）分：

能力测验、成就测验（学绩测验）、人格测验

按对象分：

个别测验、团体测验

按形式分：

纸笔测验、操作测验、口头测验、电脑测验

按目的分：

描述性测验（调查性测验）、诊断性测验、预示性测验

按要求分：

最高作为测验、典型作为测验

按速度和难度分：

速度测验、难度测验

按性质分：

构造性测验、投射性测验

按解释分：

常模参照测验、标准参照测验

按应用分：

教育测验、职业测验、临床测验

补充：

1）能力测验：

能力可分为实际能力和潜在能力。

实际能力指个人当前“所能为者”，代表个人已有的知识经验与技能。

潜在能力指个人将来“可能为者”，是可能达到的水平。

测量潜在能力的测验称为能力倾向测验。

能力测验又可以分为普通能力测验（通常说的智力）和特殊能力测验（音乐、美术、体育等特殊方面）。

2）纸笔测验（文字、图形材料）；操作测验（不宜团体实施）

3）速度测验——测反应速度；难度测验——测最高能力。

4）最高作为测验：

有正确答案，分数越高越好；（能力测验、成就测验）

典型作为测验：

没有正确答案，通常的习惯方式；（人格测验）

5）构造性测验：

刺激和被试的任务是明确的

投射性测验：

刺激、问题模糊，被试任务不明确；能投射出更真实的结果

3.经典测量理论及其模型

（1）心理特质：

表现在一个人身上所特有的相对稳定的行为方式。

①特质是一组具有内部相关的行为的概括，具有一定的抽象性。

②特质是“一种一般的神经心理系统，可以综合不同刺激，使人对这些刺激做出相同反应”。

③特质是一个人身上比较稳定的特点。

④一个人的精神面貌是由多种特质分多个层次有机组合而成的。

⑤特质可以决定一个人对特定刺激的反应倾向，可以对人的行为进行预测。

（2）经典测量理论（CTT）的模型

①观察分数：

实测分数，记作X。

②真分数：

反映被试某种心理特质真正水平的数值。

操作定义：

多次测量结果得到的平均数，记作T。

（理论上构想出来的抽象概念）

③误差分数：

这里只是指测量产生的随机误差，记作E。

（E是个服从均值为0的正态分布的随机变量）

④X=T+E这就是CTT的数学模型。

（引申3个假设公理）

⑤观察分数的变异等于真分数的变异与误差分数的变异之和。

（3）基本假设

①观察分数的平均值接近于真分数。

即ε（X）=T或者ε（E）=0

②真分数与误差分数的相关为零。

即ρ（T，E）=0

③各平行测验的误差分数的相关为零。

即ρ（E1，E2）=0

平行测验：

如果两个题目不同的测验测的是同一特质，并且题目形式、数量、难度、区分度以及测查等值团体后所得分数的分布（均值和标准差）都是一致的，则这两个测验被称作是彼此平行的测验。

第二节测量的信度与效度

1.测验的信度——受随机误差的影响

（1）

信度……一致性、稳定性

信度是测量结果的可靠性，等于一组测量分数中真分数的变异与总变异之比。

信度指的是测量结果的稳定性程度；若能用同一测量工具反复测量某人的同一种心理特质，则其多次测量结果间的一致性程度就叫信度。

定义1：

信度乃是一个被测团体的真分数的变异数与实得分数的变异数之比。

定义2：

信度乃是一个被试团体的真分数与实得分数的相关系数的平方。

定义3：

信度乃是一个测验X（A卷）与它的任意一个平行测验X’（B卷）的相关系数。

信度的作用：

①信度是测量过程中所存在的随机误差大小的反映。

②信度可以用来解释个人测验分数的意义。

测量的标准误计算公式

③信度可以帮助进行不同测验分数的比较。

（2）信度的估计方法

1重测信度：

用同一个测验，对同一组被试前后两次施测，两次测验分数所得的相关系数为再测信度。

★皮尔逊积差相关系数

注：

重测信度具有跨时间上的稳定性。

使用的前提条件：

1）所测量的心理特性必须是稳定的。

2）遗忘和练习的效果基本上相互抵消。

（适度的时间间隔，几分钟、几小时甚至几年）

3）在两次施测间隔期内，被试没有获得更多的学习和训练。

2复本信度：

根据一组被试在两个平行（等值）测验上的得分计算的相关系数即为复本信度。

★皮尔逊积差相关系数

注：

1）同时连续施测——等值性系数

相距一段时间分两次施测——稳定性与等值性系数（此种复本信度最小）

2）稳定性与等值性系数是对信度最严格的检验，其值最低。

3）为抵消顺序效应，可以一半被试A卷B卷，另一半被试B卷A卷

使用的前提条件：

1）要构造出两份或两份以上真正平行的测验（即A、B卷）。

真正平行：

复本测验之间必须在题目内容、数量、形式、难度、区分度、指导语、时限以及所用的例题、公式和测验等其他方面都相同或相似。

2）被试要有条件接受两个测验。

3分半信度：

按正常的程序实施测验，然后将全部项目分为相等的两半，根据个人在这两半测验的分数计算其相关系数。

有时也被称作内部一致性系数。

★斯皮尔曼—布朗公式等价：

弗朗那根公式、卢仑公式

注：

一般使用奇偶分半法；相关系数需要校正。

使用的前提条件：

1）分半信度通常是在只能施测一次或没有复本的情况下使用。

2）分半方法很多（如按题号的奇偶性分半、按题目的难度分半、按题目的内容分半等），同一个测验通常会有多个分半信度值。

④同质性信度：

也称内部一致性系数，指的是测验内部所有题目间的一致性程度。

*一致性：

测的是同一种心理特质；所有题目得分之间都具有较高的正相关。

*当一个测验具有较高的同质性信度时，说明测验主要测的是某一单个心理特质，实测结果就是该特质水平的反映；若同质性信度不高，说明测验结果可能是几种心理特质的综合反映。

*测量单一特性是同质性高的必要而非充分条件，同质性高是测得单一特质的充分条件。

★库德—理查逊信度系数克龙巴赫α系数

1）KR20公式——适用于（0、1）记分的测验【客观试题】

2）KR21公式——适用于（0、1）记分的测验【客观试题】

3）克龙巴赫α系数——适用于（0、1）记分的测验【客观试题】和【主观试题】

*KR20、KR21只是α的特例

4）荷伊特信度——用方差分析的方法来计算信度

⑤评分者信度：

随机抽取部分试卷，由两个或多个评分者独立按评分标准打分，然后求其间的相关。

当评分者人数为2时——★积差相关系数、等级相关系数

当评分者人数多于2时——★肯德尔和谐系数

（3）信度的影响因素

1、被试方面

就单个被试而言，被试的身心健康状况、应试动机、注意力、耐心、求胜心、作答态度（猜测）等会影响测量误差。

就被试团体而言，整个团体内部水平的离散程度以及团体的平均水平都会影响测量信度。

2、主试者方面

就施测者而言，若不按指导手册中的规定施测，或故意制造紧张气氛，或给以暗示、协助等，则测量信度会大大降低。

就评分者而言，若评分标准掌握不一，或前紧后松，甚至随心所欲，则也会降低测量信度。

3、施测情境方面

考场是否安静、光线和通风情况是否良好、所需设备是否齐全、桌面是否合乎要求、空间阔窄是否恰当等都可能影响测量信度。

4、测量工具方面

测量工具是否性能稳定是测量工作成败的关键。

一般的，试题的取样、试题之间的同质性程度、试题的难度等都是影响测验稳定性的主要因素。

5、两次施测的间隔时间

计算重测信度和稳定性与等值性系数时，两次测验相隔时间越短，其信度值越大；间隔时间越长，信度值就可能越小。

★斯皮尔曼—布朗公式（计算测验项目数量变化对信度的影响）

（4）信度的改进方法

1）适当增加测验的长度。

（测验越长信度越高）

【新增项目必须与试卷中原有项目同质；新增项目的数量必须适度】

2）使测验中所有试题的难度接近正态分布，并控制在中等水平。

3）努力提高测验试题的区分度。

4）选取恰当的被试团体，提高测验在各同质性较强的亚团体上的信度。

5）主试者严格执行施测规程，评分者严格按标准给分，实测场地按测验手册的要求进行布置，减少无关因素的干扰。

6）间隔时间要适当。

测验的效度——受随机误差、系统误差的影响

（1）效度的含义……有效性、准确性

效度是指一个测验或量表实际能测出其所要测的心理特质的程度，等于一组测量分数中与测量目的有关的变异与实得变异之比。

注：

1）效度是一个相对的概念（相对于测量目的而言；只能通过行为进行推测）。

2）效度是测量的随机误差和系统误差的综合反映。

3）判断测量是否有效要从多方面搜集证据。

（2）效度的估计方法

1内容效度：

指项目对欲测的内容或行为范围取样的适当程度。

指一个测验实际测到的内容与所要测量的内容之间的吻合程度，它通常包括欲测的知识范围，以及该范围内各知识点所要求掌握的程度。

【内容范围；题目代表性】

注：

内容效度应用于成就测验和职业测验；不适合用于能力倾向测验和人格测验。

★表面效度不能算是一种效度。

内容效度的确定方法

a．专家判断法（逻辑分析法）——题量适当、题目的代表性、题目覆盖范围广

b．复本法（统计分析方法）——平行测验的复本信度

<若相关低则两个测验中至少有一个缺乏内容效度；若相关高则测验可能有较高的内容效度>

c．再测法——前测、后测

d．经验法

2效标效度：

考察测验分数与效标的关系，看测验对我们感兴趣的行为预测的如何。

效标效度（效标关联效度）也叫实证效度，是指一个测验对处于特定情境中的个体的行为进行估计的有效性。

也就是说，一个测验是否有效，应该以实践的效果来作为检验标准。

*效标效度可以分为同时效度（用于诊断现状）

预测效度（用于预测某个个体将来的行为）

效标——存在于测量之外；可以独立进行测量；能够量化。

1）被估计的行为是检验测验效度的标准，简称为效标。

效标就是衡量一个测验是否有效的外在标准，它是独立于测验并可以从实践中直接获得我们所感兴趣的行为（观念效标）。

观念效标具有多样性、复杂性、特殊性和时间性。

2）常用效标有学业成就、等级评定、临床诊断、专门的训练成绩、实际工作表现等。

例如：

考察“高考”的效度，用“大学学习成绩”作为效标。

效标效度的确定方法

a．相关法——计算测验分数与效标测量的相关系数

【积差相关法、等级相关法、二列相关法、四分相关法】

b．区分法（分组法）——能够把好坏两组人有效地区分开来

——差异越大，说明测验越有效

思路：

被试接受测验后，让他们工作一段时间，再根据工作成绩（效标测量）的好坏分为两组，回过来分析这两组被试原先接受测验的分数差异。

c．命中率——用于选拔性测验，影响因素：

录取率、基础率

——正命中率的比率越高，测验越有效

总命中率：

根据测验选出的人当中工作合格的人数，以及根据测验淘汰的人当中工作不合格的人数之和与总人数之比。

正命中率：

用测验选出的人中合格者所占的比例。

d．预期表法

e．功利率法

3构想效度：

指测验对理论上的构想或特质的测量程度。

又称结构效度，是指一个测验实际测到所要测量的理论结构和特质的程度，或者说它是指测验分数能够说明心理学理论的某种结构或特质的程度。

构想或结构指心理学理论所涉及到的抽象而属假设性的概念或特质，如智力、焦虑、动机等。

注：

构想效度主要用于智力测验和人格测验。

构想效度的确定方法

a．测验内法（测验内部寻找证据法）

确定测验的内容效度——内容效度高实质上也就说明结构效度高

分析被试对项目做反应的答题过程

考察测验的同质性信度——测验同质只是必要条件

b．测验间法（测验之间寻找证据法）

相容效度—考察新编测验与某个已知的能有效测量相同特质的旧测验间的相关

区分效度—考察新编测验与某个已知的能有效测量不同特质的旧测验间的相关

因素效度（因素分析）—对一组测验进行因素分析，找出影响测验的共同因素

补充：

1）相容效度与区分效度

相容效度：

和测量相同特质的旧测验有高相关

区分效度：

和测量不同特质的旧测验有低相关

2）因素分析：

每个测验在共同因素上的负荷量（即测验与各因素的相关）就是测验的因素效度。

c．效标关联法（实证效度法）

两种：

①根据效标把人分成两类，考察其得分的差异

②根据测验得分把人分成高分组、低分组，考察两组人在所测特质方面是否确有差异。

d．多种特质—多种方法矩阵法——相容效度和区分效度的综合运用

原理：

用多种极不相同的方法测量同一种特质相关很高（用极为相似的方法测量不同特质相关很低），说明测量效度较高。

e．实验操作法

（3）效度的影响因素【只要影响信度就一定影响效度】

测验本身：

项目质量；项目数量

测验的实施

被试：

身心状态；样本特点

主试因素

所用效标

*凡是与测量目的无关的、稳定的和不稳定的变异来源都会影响测量的效度。

①测验的构成

当试题样本没有较好的代表欲测内容或结构时，或题目语意不清、指导语不明、题目太难或太易、题目太少或安排不当时，都会降低测量效度。

&测验长度与效度的公式

②测验的实施过程

在测验实施过程中，如不遵从指导语的要求，或出现意外干扰，或评分、计分出现差错等，都会降低测量效度。

③接受测验的被试

就单个被试而言，被试的应试动机、情绪、态度、身体状态等，都会造成较大的随机误差，进而影响测量效度。

就被试团体而言，如果缺乏必要的同质性（年龄、性别、文化程度、职业等），则很可能会得到不恰当的效度资料。

4所选效标的性质

由于同一个测验可以有不同的效标，同一个观念效标也可以有不同的效标测量，因此在评价测量效度时，所选效标的性质是很重要的考虑因素。

【在考虑效标与分数的相关时，必须注意：

测验分数与效标之间是否符合线性关系】

⑤测量的信度

（4）效度的改进方法

①通过标准化全面减少各种测量误差。

②精心编制测验量表，避免出现较大的系统误差。

③妥善组织测验，控制随机误差。

④创设标准的应试情境，让每个被试都能发挥正常的水平。

⑤选好正确的效标，定好恰当的效标测量，正确地使用有关公式。

（5）信度与效度的关系

①信度高是效度高的必要非充分条件。

一个测验效度高，其信度也必然高；但一个测验信度高，其效度不一定高。

②测验的效度受它的信度制约。

<信度系数的平方根是效度系数的最高限度，效度永远小于信度>

③效度等于测验信度系数与效标信度系数乘积的开方。

统计推导公式

第三节心理测量的误差

1.误差的种类与控制

（1）随机误差的来源及控制：

测验本身、施测情境、主试因素、被试因素

（2）系统误差的来源及控制：

测验本身、主试因素、被试因素

控制：

标准化施测、严格控制测验条件、取样要有代表性

测量误差的估计

测量的标准误差异的标准误

*误差分数分布的标准差称为标准误。

1）测量误差的定义

测量误差是指在测量过程中由那些与测量目的无关的变化因素所产生的一种不准确或不一致的测量效应。

它的含义包括：

①测量误差是由那些与测量目的无关的变因所致；②测量误差表现为不准确或不一致两种方式。

心理测量的误差可分为两类：

随机误差和系统误差。

随机误差是由与测量目的无关的、偶然因素引起的，而又不易控制的误差。

它使多次测量产生不一致的结果，其方向和大小的变化完全是随机的，只符合某种统计学规律。

系统误差是由与测量目的无关的变因引起的一种恒定而有规律的效应。

这种误差稳定的存在于每一次测量中，尽管多次测量结果非常一致，但实测结果仍与真实数字有所差异。

系统误差：

按规律变动，成比例

恒定误差：

固定数值不变

*系统误差只影响准确性，不影响稳定性；随机误差既影响稳定性又影响准确性。

2）测量误差的来源及控制

心理测量的误差主要来自三个方面，即测量工具、测量对象和施测过程。

在测量工具方面，心理测量与物理测量有所不同。

心理测量工具通常是以一套测验（问卷）为核心的刺激反应系统（通常称作量表）。

当量表在测查人的某种心理特质时，若项目所测的东西与我们欲测的目的之间出现偏差，则测量会出现误差。

测量工具信度不好、效度不高是造成误差的两种主要原因。

在测量对象方面，造成测量误差的主要原因是受测者真正水平是否得到正常发挥。

一般的，受测者的某种心理特质水平是相对稳定的，但是他在接受测量时的生理和心理状态会影响其水平的正常发挥。

此外，受测者应试动机的强弱、受训时间的长短、受训内容的多少、答题反应的快慢等都会产生测量误差。

在施测过程方面，产生测量误差的原因主要是一些偶然因素，包括施测物理环境，主试的某些属性，评分记分环节出现的疏漏，以及意外干扰等。

知道了误差的来源，就可以根据来源的不同，采取针对性的措施减少误差。

3）测量误差的估计

经典测量理论假定：

X=T+E，X为实得分数或观测分数，T为假设的真分数（一种测量工具在测量没有误差时得到的纯正值，其操作定义是：

无数次测量所得结果的平均值），E为测量误差。

其他关于误差的假设：

①如果对一个人测量无数次，其误差之和为0，平均误差为0，即E=0。

②误差与真分数相互独立；其中的误差是指随机误差，只与偶然因素有关，而与真分数大小无关，即真分数与误差分数的相关系数为0。

③一个团体的平均真分数T等于该团体中所有被试实得分数的平均值X。

在一个团体中，由于每个人的误差都是随机的且方向不同，只要团体足够大，其误差就会相互抵消。

因此，其误差和为0。

④真分数的变异可以分为两部分：

与测验目的有关的变异（有效的变异数）和与测验目的无关的变异（无效的变异数），公式为。

则总体的关系式为。

第四节测验的项目分析

要求：

心理测验的项目分析——难度；区分度；项目的综合分析和筛选（讲义p249）。

项目分析包括定性分析及定量分析。

定性分析包括考虑内容效度、题目编写的恰当性和有效性等，重点在于分析测题的内容和形式；定量分析主要是采用统计方法来分析试题的品质。

1.难度

（1）难度的含义

难度是指测验项目的难易程度。

（2）难度的计算

①二分法记分项目的难度（客观题）

通过率法：

主要利用项目的通过率作为衡量难度的指标，即以答对或通过该项目的人数的百分比P来表示。

P值越大，题目越容易。

极端分组法：

当被试的人数较多时，可以先将被试分为三组，取最高的27%被试和最低的27%被试作为高分组和低分组，并分别计算通过率，最后求两个通过率的平均值作为该项目的难度。

②非二分法记分项目的难度（主观题）

计算公式

*在对两个非二分法记分的项目进行难度比较时，要对它们分别进行校正，排除由于猜测而答对某些题目致使通过率增大的可能性。

校正公式为

（3）难度水平的确定

项目难度水平的确定取决于测验的目的和性质。

对于效标参照测验和掌握测验，可不考虑难度。

对于选拔测验，应将测验的项目难度控制在录取率左右。

对于选择题，难度应该大于猜测概率。

无论何种测验，一般都应防止被试得满分，因为满分的意义是不明确的。

（4）难度的等距变换（教材p75）

以项目的通过率来表示项目的难度，这类难度指标属于顺序变量，不具有相等的单位，所指出的仅仅是项目的相对难度。

于是需要把顺序量表转换成等距量表（仅有名次不能计算，必须要有具体测验分数才可以）。

当样本容量很大时，测验分数将接近正态分布。

根据正态分布曲线表，将试题的难度P作为正态曲线下的面积，转换成具有相等单位的等距量数，即Z分数。

标准分数（Z分数）具有相等的单位，属于等距量表。

较难的项目难度为正值，较易的项目难度为负值，P为0.5时难度为0。

（5）难度对测验的影响

①项目难度普遍较大的测验，分数分布将呈现为正偏态；项目难度普遍较小的测验，分数分布将呈现为负偏态。

一般能力测验和成就测验的平均难度在0.5左右为宜，正偏态分布适合于筛选性测验。

②过难或过易的测验会使测验分数相对的集中在低分端或高分端，从而使分数的全距缩小。

项目的难度以集中在0.5左右为最佳，以集中在两端最差。

2.区分度

（1）区分度的含义

区分度是指测验项目对被试心理品质水平差异的区分能力或鉴别能力。

区分度被用作评价项目质量，筛选项目的主要指标和依据。

具有良好区分度的项目，能将不同水平的被试区分开来。

即在该项目上水平高的被试得高分，水平低的被试得低分。

把试题的区分度称为测验是否具有效度的“指示器”。

区分度（D）的取值范围介于-1.00至+1.00之间。

通常D为正值，称作积极区分；D为负值，称作消极区分；D为0称作无区分作用。

具有积极区分作用的项目，其D值越大，区分的效果越好。

*评价测验项目区分度高低依赖于对被试水平的准确测量，通常称作为效标分数。

测验项目区分度的效标分数多用测验总分，称为内部效标。

（2）区分度的计算

①项目鉴别指数法——二分法记分

当效标成绩是连续变量时，可以从分数的两端各选择27%的被试，分别计算出每道题目上各自的通过率，二者之差便是鉴别指数（D）。

D值越高项目越有效。

计算公式为。

当D=1.00时，高分组被试全部通过，低分组被试全部失败；如果低分组被试全部通过，高分组被试全部失败，则D=-1.00；如果两组的通过率相等，则D=0。

项目鉴别指数法只利用了一部分信息，浪费了很多信息，统计结果准确性差一些。

而且当项目与效标之间并非为直线关系时，甚至会得出错误的结论。

②相关法——大规模或标准化测验

以项目分数与效标分数或测验总分的相关作为项目区分度的指标。