完整版心理测量考试复习Word文档下载推荐.docx

资源描述

完整版心理测量考试复习Word文档下载推荐.docx

《完整版心理测量考试复习Word文档下载推荐.docx》由会员分享，可在线阅读，更多相关《完整版心理测量考试复习Word文档下载推荐.docx（18页珍藏版）》请在冰点文库上搜索。

完整版心理测量考试复习Word文档下载推荐.docx

如同所有相关系数—样,信度系数受分数的分布范围所影响，而分数范围与被试团体的异质程度有关。

一个团体越是异质，其分数范围越大；

而一个经过筛选,相对同质的团体分数较为均匀。

提高信度系数,需要测验团体的异质性高。

团体异质性不同，分数的标准差亦不同。

当将测验用于标准差不同的团体时，可用克莱公式推算出新的信度系数。

（二）团体的平均水平

对于不同水平的团体，题目具有不同的难度。

每个题目在难度上的微小差异累积起来便会影响信度。

这种影响都不能由统计公式来推估，只能从经验中发现它们。

比如：

斯坦福一比奈测验的信度系数从0。

83到0.98不等。

年龄较大的比年龄较小的信度高，智商较低的比智商较高的信度高。

二、测验长度的影响

一般说来,在—个测验中增加同质性的题目，可以使信度提高。

假设有一个包括10个题目的测验，信度为0。

50，若把测验增加到50个题目，其信度将增加到：

当由于测题过少而导致信度较低时,增加多少个题目可以达到理论的信度指标，可以用下式来推算：

三、测验难度的影响

当测验过难且题目形式为选择题时，受试者会对许多题目作随机反应——瞎猜，这样我们就无法对其分数置信。

若大部分人随机作答，分数的差别将主要取决于随机误差,因而信度将趋近于零.因此，如果题目确实允许猜测，应使整个测验稍容易一点,以减少猜测机会,增加可靠性.

洛德（Lord）提出在学绩测验中,为了保证其可靠性，各类选择题的理想平均难度为:

五选题0。

四选题0。

三选题0。

是非题0。

四、间隔时间

以再测法或复本法求信度，两次测验相隔时间越短，其信度系数越大;

间隔时间越久,其它变因介入的可能性越大，受外界的影响也越多,信度系数就越低。

效度（validity）,与测量目标有关的真实分数方差（即由测量目标变量所产生的方差）与总分方差的比率。

P33效度是一个测验对其所要测量的特性测量到什么程度的估计。

通俗的说,也就是测验是否精确的测量了想要测的东西。

社会赞许性做答,有的受测者可能会掩饰自己真实情况,按照社会认可的方式去做出自我评价，使自己看起来更“好”。

效度指标主要包括：

①效标关联效度

②内容效度

③构想效度

rXY=Sv2/SX2，Sv其中是有效方差，SX是总方差。

P170

而SX2=ST2+SE2=SV2+SI2+SE2

可见，造成测验分数变化的原因出自三大来源:

测量对象本身的变化，量具的精度造成的系统误差，量具使用中造成的随机误差.

二、效度评定的方法

（一）内容效度

1.定义：

检查测验内容是否是所要测量的行为领域的代表性取样的指标。

内容效度分析时要注意两方面的问题：

1）应避免将测验取样的行为领域过于泛化。

2）要注意测验分数中无关因素的影响。

2．内容效度的评估方法

（1）没有可用的数量化指标，只能靠推理和判断评估。

（2）依赖条件:

●测验内容范围明确；

●测验内容的取样有代表性。

（3）确定方法：

通常是由专家根据测验题目和假设的内容范围作系统的比较判断。

也可间接借用其他统计指标说明，如评分者信度，复本信度等。

克朗巴赫法：

由两个独立取自同样内容范围的测验的得分之相关来作数量的估计.

3。

确定内容效度的步骤

1）确定总体范围，即描述有关的知识与技能及所用材料的来源；

2）编制双向细目表，确定内容和技能各自所占的比例,并由测验编制者确定各题所测的是何种内容与技能；

3）制定评定量表来测量测验的整个效度及其他特点。

4.内容效度的应用

（1）最适合于评估教育和职业成就测验。

内容效度的评价可以回答以下两个问题：

①样本的代表性;

②无关因素的影响程度。

（2）评价某些用于选拔和分类的人事测验。

（3）不适用于能力倾向测验和人格测验。

5.表面效度（facevalidity）

表面效度是指测验在采用者或被试的主观

认识上觉得有效的程度.

有时为了取得被试的合作和信任，表面效度是不容忽视的。

适用领域：

职业兴趣测验、成就测验等

不适合领域：

人格测验

（二）效标关联效度（效标效度）

1.定义:

反映测验分数与外在标准（效标）的相关程度,即测验分数对个体的效标行为表现进行预测的有效性程度。

效标关联效度往往用于预测性测验。

这种测验中，根据测验分数作出的预测一般用于甄选决策.

效标关联效度的类型

（1）预测效度

①定义：

反映由测验分数对任一段时间间隔后被试行为表现的预测程度。

②适用范围：

对人员进行选拔、分类和安置的人事测验。

（2）同时效度

①含义：

效标材料和测验分数同时搜集。

②应用范围：

因为同时效度的评估不需要长期追踪，所以应用比较普遍。

（3）同时效度和预测效度的差异——测验目的不同。

前者多用于诊断现在的状态，后者多预测未来的结果。

3.效标和效标测量

（1）效标:

衡量测验有效性的参照标准。

（2）效标测量：

可操作的测量指标。

（3）效标分类：

观念效标：

效标的实质概念内容。

效标测量：

即效标的具体度量方法。

（3）保证效标测量客观性的要点：

①避免偏见的影响（特别是等级评定）。

②防止效标污染。

效标污染—-由于评定者知道测验分数而影响个人的效标成绩的情形。

（三）构想效度

定义：

测验的构想效度是指测验能够测量到理论上的构想或特质的程度。

也称为结构效度.

所谓构想通常指一些抽象的、假设性的概念或特质，如智力、创造力、言语流畅性、焦虑等。

这些构想往往无法直接观察，但是每个构想都有其心理上的理论基础和客观现实性,都可以通过各种可观察的材料加以确定。

构想效度关注的问题是：

测验是否能正确反映理论构想的特性.

确定构想效度的步骤

（1）建立理论框架，以解释被试在测验上的表现;

（2）依据理论框架，推演出各种有关测验成绩的假设；

（3）以逻辑和实证的方法来验证假设，根据这些累积材料决定这种理论是否能恰当地解释现有材料，如果不能作出恰当解释，则应该修正上述假设，直到能作出恰当的解释为止。

收集有关结构效度资料的方法P177

（1）测验内方法

这类方法主要是通过研究测验内部构造（如测验的内容、对测题反应的过程，以及项目间或分测验间的关系）来界定所测量的结构范围。

举例：

☐独生子女“合群性”的结构描述：

☐1．见老师、小朋友主动匆“招呼与否；

☐2．是愿意自己独自玩,还是与其他孩子一起玩？

☐3．言语较多还是较少，见生人时害羞？

大方否?

☐4．在做游戏时，与人交往时，能与人合得来吗？

（2）测验间的方法

测验间的方法是同时考虑几个测验间的相互关联,从而获知这些测验所共有的特点是什么或这些测验是否测量相同的结构。

测验间方法有多种：

因素分析；

相容效度；

会聚效度和区分效度。

①相容效度

相容效度是求一个新编好的测验（即一个需要确定其结构的测验）与另一个已知其结构的测验分数之间的相关。

例如,新的智力溯验的分数通常与已作过效度确定的个别测验如斯坦福一比纳智力测验来比较,假如相关高,则两测验所测且的是相同的结构，而且新测验的得分也可像已确定结构的测验的分数一样解释。

②会聚效度和区分效度

坎贝尔（D．T．Campbell）和费斯克（D．W．Fiske）1959年提出的构想效度的一种考验方法。

会聚效度：

一个测验与测量相同特质或构想等理论上有关的变量有高的相关。

区分效度:

一个测验与测量不同特质或构想等理论上不同的变量有低的相关.

P184重叠量的计算

四、影响效度的因素P185

（一）测验的因素

1．测题中所用词汇和句型不能过于困难。

2．试题的意思应该清楚。

3．所编制的测题应该适合所要测量的学习结果.

4．测题中不能提供额外线索。

5．测题的编制要合理。

6．选择题的正确答案不能有明显的组型。

7．测题数目——增加测题的数目

8．测题的难度要适当.

（1）常模参照测验—-测题平均难度应在0.5左右,并有适当的难度分布。

（2）标准参照测验——测题难度应该与教学目标的要求相一致，不需要区分学生的优劣，

（二）测验实施和计分方面

1.测验情境,如场地的布置、材料的准备等。

是否遵照测验使用手册的各项规定进行标淮化的施测。

3.指导语是否已将答题方式说明清楚；

4.是否按要求进行时间限制。

（三）被试的主观方面

被试的兴趣、动机、情绪、态度和身体健康状况以及是否充分合作与尽力而为等，都会影响

到测验结果的可靠性和正确性,即效度和信度.

（四）进行效度化所依据的有关准则

效度系数值受到三方面影响：

测验信度、准则变量测量的信度、预测变量与准则变量间真正的相关程度

（五）样组方面

1．样本的代表性

2．样本规模：

3．样本的异质性

总的来说，提高效度必须对测验编制和实施标准化.

五、效度与人才选拔P190

1.基本概念

（1）基础率：

在总体中自然存在的合格人员比例。

（2）录取率：

采用测验作为筛选工具时所录取的人员比例。

录取率=录取人数/总人数

（3）取舍正确性

命中—-正确的接受和正确的拒绝

失误-—错误的接受和错误的拒绝

（4）正命中率（录取正确率）

各比率值之间的关系

（1）临界分数越高，正命中率也越高，但录取率降低.

（2）随录取率增加，取舍正确性比率先增后减。

（3）临界分数的中间范围内，取舍正确性比率最高。

P173信度和效度的关系

（1）信度考虑的是随机误差的影响，而效度的误差还包括系统误差。

例:

游标卡尺，钢琴

（2）信度是效度的必要条件。

效度高必然信度高,但信度高并不保证效度必然会高。

效度的最大值是信度系数的平方根。

例：

磅秤测量身高；

南辕北辙

①难度——被试通过每个项目的百分比.P34

测验题目的难度水平影响到测验的客观性。

天花板效应（ceilingeffect）—-测验题目过于容易，致使大部分个体得分普遍较高的现象。

地板效应（flooreffect）-—测验题目过难,大部分个体得分普遍较低的现象。

（一）什么叫项目的难度P202

所谓难度,即项目的难易程度.在能力测验里，称为项目的难度水平；

在非能力测验里,称为“通俗性”或“流行性”水平（popularitylevel）。

所谓“通俗性"

或“流行性”，并不是指“合乎社会需要的东西”，而是指一总体中被试在答案范围里回答项目的程度。

（二）难度的指标

以受测者答对或通过每个项目的人数百分比,作为难度的指标。

这里P代表项目难度，N为全体受测者人数，R为答对或通过该项目的人数。

P值大小与难度高低成反比。

项目难度的判断标准：

容易：

0.85～1.00

中等：

0.50～0。

困难：

0.00～0.49

（三）难度的计算

二分法记分的项目

通过记1分，错误记0分.

简便方法：

先将受试者依照测验总分的高低次序排列，然后划出高分组（27％）和低分组（27％），再分别求出此两组在每一题目上的通过率，以两组通过率的平均值作为每一题目的难度。

计算公式:

难度水平的矫正：

为了避免猜测的影响，利用下述公式对难度水平加以矫正：

这里CP为校正后的通过率，P为实得的通过率，K为备选答案的数目。

2.当测题不是二值计分时

P=全体考生的平均分数/满分分数

②鉴别力—-不同水平的被试通过每个项目的百分比,用来衡量测题对不同水平被试区分程度的指标。

P34

通常以得分最高的27％的被试（高分组）与得分最低的27%的被试（低分组）答对该题的人数比率之差（D）来衡量。

D值越大，项目鉴别力越大,表示项目的质量越好。

鉴别力（或称区分度），指项目对不同水平的被试反应的区分程度和鉴别能力。

P208

鉴别力能帮助研究者发现如下项目：

模棱两可的

答案出错的

太简单或太难的

没有区分度（不能测量个体差异）的

项目鉴别指数

把被试按总分高低排序，然后取高分组（27％）和低分组（27％），再分别求出此两组在每一题目上的通过率,以两组通过率的差作为每一题目的鉴别指数。

D=PH-PL

PH：

高分组答对人数的比率;

PL:

低分组答对人数的比率.

标准化测验中，27％的高分组和低分组的人数都应不少于100人，或总人数不少于370人。

D值越大，项目的鉴别力越大,表明项目的质量越好。

测题的鉴别指数优劣评价标准：

区分度较好:

0.31~1.0

区分度一般:

0.1~0。

区分度较差：

负数到0.19

P217实例

1.智龄（MA）P44

智龄即智力年龄（MentalAge,简称MA），指每一个年龄（段）应该完成的难度最适宜的题目个数（即该年龄恰好有60％的被测者能完成的题目）。

2.比率智商P45

智商即智力商数（IntelligenceQuotient，简称IQ）,用来表示智力的相对水平,亦即反映人的聪明程度。

智商（IQ）=智力年龄（MA）/实足年龄（CA）＊100

比率智商是斯坦福-比奈智力量表中使用的智力判断术语。

比率智商

（1）公式：

（2）问题

①高年龄组儿童的智商，其实际年龄无法确定.

②智力生长是曲线，智龄不是等距单位，求高年龄组智商就需要对实际年龄加以修订。

③如果各年龄组的标准差编制的不相等,则一个儿童在各年龄所得的智商不相同，这样智商在不同年龄组的意义就不同了.P247

离差智商

离差智商实际上是同年龄组的标准分,是根据同年龄组测得的平均数和标准差计算而得出来的。

离差智商是韦克斯勒智力量表中使用的智力判断术语。

基本原理：

把每个年龄阶段儿童的智力分布看作是常态分布，某个儿童的智力高低,视其与同年龄伙伴智力分布的均数的离差大小而定。

（3）计算

第一次转化:

第二次转化:

智力的理论：

二因素说P75

斯皮尔曼（Spearman，1904）提出,智力分为两类:

（1）一般因素（G因素）：

代表个人的普通智力．是一切心智活动的主体和智力的基础，个体间智力的差异决定于G因素量的多寡。

（2）特殊因素（S因素）:

代表个人的特殊智力，只有在某些特殊情况下（特殊工作或特殊活动）才会表现出来。

吉尔福特的智力结构立体模型P77

美国著名心理学家吉尔福特（J.P.Guilford，1959）用内容、操作和产品三个维度建构了智力结构的立体式模型。

内容维度：

引起个体心智活动的各种刺激物，包括图形,符号，语义，行为，听觉

操作维度:

智力的加工活动，包括评价,发散思维,聚合思维，记忆,认知

产品维度：

智力活动的结果，包括单位，类别，关系，系统，转换，蕴涵

卡特尔的流体智力和晶体智力理论P78

美国心理学家卡特尔（R。

B。

Cattell）于1963年到1971年，相继完整地提出了流体智力和晶体智力理论.

（1）流体智力：

信息加工和问题解决过程中洞察复杂关系的能力，是个体的生物潜能.

如:

对关系的认识、类比、演绎推理的能力、形成抽象概念的能力等。

流体智力在不同的环境和条件下都会显示出来,因而是一种普遍性能力,它更多地依赖于遗传，在个体发育的早期就有明显地发展，14岁左右达到高峰，成年后逐渐衰退.

（2）晶体智力是指知识与技能有效结合的一种能力，主要用于完成某种固定的任务。

晶体智力更多地依赖于环境的作用,决定于后天的学习,与社会文化有密切的关系。

晶体智力在人的一生中都在发展，但到25—30岁之后，发展的速度渐趋平缓.

斯滕伯格的智力三重结构理论P80

这一理论包括智力的三个亚理论，即智力的情境亚理论、智力的经验亚理论和智力的成分亚理论。

（1）智力的情境亚理论

认为社会文化大背景对智力内涵有制约作用,智力主要体现在主体对环境的适应、选择和改造的能动作用方面.

（2）智力的经验亚理论

智力行为要由产生这个具体行为的任务在主体经验中所处的位置来决定.

处理新异性的能力和加工自动化的能力是智力的最基本的特质之一。

（3）智力的成分亚理论（核心）

阐述智力活动的内部结构和心理机制。

成分：

信息加工的最基本单元。

①操作成分：

智力任务实施过程中的具体信息加工过程，如编码、推断、应用、比较、证实等具体操作成分。

执行元成分的指令并提供反馈。

②元成分：

在问题解决过程中的计划、监控和决策等高级的意识活动,如选择信息加工成分、选择信息加工成分的组合策略、决定注意资源的分配等。

③知识获得成分：

获得新知识的过程，包括学习成分、保持成分和迁移成分。

戴斯等的智力PASS模型理论P81

（1）PASS模型四种认知成分

计划—注意—同时性加工-继时性加工

（2）PASS模型中的三个系统：

①注意一唤醒系统（第一机能区）

使大脑处于一种适宜的工作状态.

②同时性加工一继时性加工系统，又称编码系统（第二机能区）

负责对外界输入信息的接收、解释、转换、再编码和存贮。

③计划系统（第三机能区）

执行计划、监控、评价等高级功能。

（4）DN认知评价系统（DN-CAS）：

第一分测验（测查计划性功能系统）：

①视觉搜索（visualsearch）

②计划连接（plannedconnection）

③数字匹配（matchnumber）；

第二分测验（测查注意一唤醒功能系统）：

④表现的注意（expressiveattention）

⑤找数（numberfinding）

⑥听觉选择注意（auditoryselectiveattention）；

第三分测验（测查同时性加工成分）:

⑦图形记忆（figurememory）

⑧矩阵问题（matrics）

⑨同时性的言语加工（simultaneousverbal）；

第四分测验（测查继时性加工成分）：

句子重复（sentencerepetition）

句子问题（sentencequestion）

字词回忆（wordrecall）

P121

投射在心理学上指个人把自己的思想，态度，愿望，情绪，性格等人格特征，不自觉地反应于外界事物或他人的一种心理作用,即个人的人格结构对感知、组织、解释环境的方式发生影响的过程，是个人的情结对外界事物的影响，也是个人从一种经验出发作出的错误推断。

投射测验：

通过提供一些未经组织的刺激情境，使用意义不明确的各种图形、墨迹或数字，以没有结构性的测题，让受试者在不受限制的情境下，自由地作出反应，由对反应结果的分析来推断其人格.

主要测验工具：

罗夏墨迹测验，主题统觉测验,完成句子/文字联想测验，绘画（画人、画树）测验等.

投射测验与其它人格测验的差异

（1）投射测验就是给被试一个模糊而暖味的刺激情境，使用非结构的任务，使被试有一个机会来表示出内心的需求，以及许多特殊的知觉，和对该情境所作的许多解释.

（2）人格调查测验是有若干标准化了的问题，要被试回答其在一些不同的情境中是何感情和活动。

而投射测验不能告诉被试测验的目的，只告诉这是一种想象测验，测量目标具有隐蔽性,它只是提供给被试相当自由的情境，使其有充分表示知觉上个别差异的机会,减少伪装可能性，让被试间接说明他自己。

（3）投射测验注重整体人格的分析，具有解释的整体性，而一般的人格测验，往往只能测量某些人格特征。

此外,投射技术可以用来考察个人的智能、创造力、解决问题的能力。

1.优点：

通过投射技术可以使被试不愿表现的个性特征、内在冲突和态度更容易地表达出来,因而在对人格结构、内容的深度分析上有独特的功能。

投射技术在临床领域有一定的应用前景。

2.批评

①由于投射测验结果的分析一般是凭分析者的经验的主观推断,缺少充分常模资料,测验结果不易解释，其科学性有待进一步考察。

原理复杂深奥，经专门训练才能使用。

②投射测验在计分和解释上相对缺乏客观标准，难以量化，人为性较强，不同的测验者对同一测验结果的解释往往不同,并且，投射测验的重测信度也很低。

信效度难以建立。

③投射技术是否能真正避免防御反应的干扰，在研究上并未得出一致结论。

投射测验在应用时不便之处

1）一般为个体测验，测验和分析结果所需时间很长,实施起来耗费精力。

2）对主试和评分者的要求很高，一般只能由经验丰富、有专业背景的人担当.这种局限使一般的人事管理人员无法直接应用投射测验，测验的传播受到影响.

3）对投射测验结果的评价带有浓重的主观色彩，不能满足人事测验的公平性原则。

标准分数常模P246

线性转换的标准分数

①z分数（zscore）

最典型的线性转换的标准分数，它是指以标准差为单位所表示的原始分数与平均数的差距.

z=（X—M）/SD，其中，X为原始分数；

M为平均数；

SD为标准差。

由于z分数中会出现小数点和负值，而且单位过大，所以通常又将z分数转换成Z量表分数，转换方法是：

Z＝A十Bz

Z为转换后的标准分数,A、B为常数。

由于加上或乘以一个常数并不改变量表中的比较关系，所以Z分数与z分数是同质的。

例如:

IQ分数实质上就是一种Z分数,其平均分为100，标准差为10。

（IQ＝100十10z）

展开阅读全文