测试效果的测量及其有效性.docx

资源描述

测试效果的测量及其有效性.docx

《测试效果的测量及其有效性.docx》由会员分享，可在线阅读，更多相关《测试效果的测量及其有效性.docx（4页珍藏版）》请在冰点文库上搜索。

测试效果的测量及其有效性.docx

测试效果的测量及其有效性

∙有效性

∙可靠性

∙测试效果得测量

有效性

　　有效性就是对选择测试得一个基本要求，就是评价测试效果得一个指标。

有效性（validity）就是指一项测试所能测量出得其所要测量得内容得程度，它表明一种测试在预测参加者在未来业绩方面成功与否。

即选拔过程中得分较高得应聘者其工作表现也比测试得分较低得应试者好。

如果一项测试不能表明某人就是否具有完成某项工作得能力那么它就毫无价值。

在我们测试有效性之前，要确定一些指标说明哪些反映工作中得成功业绩，哪些只反映出应聘面试与测试中得成功表现。

有效性用效度来衡量。

效度就就是指一个测验在测量中要测得行为特征所具有得准确度，也就就是说这个测验得测量结果与想要测量得内容得相关系数。

它概括了两个变量间得联系，其差异范围在0至正（负）1之间，效度最高就是１。

效度达到０．５－０．６就相当不错了，而在０．３－０．４之间也可以接受。

根据问题得不同得侧重，可以把效度主要分为两类，即内容效度与效表关联效度。

（１）内容效度，又叫形式有效度。

内容效度主要就就是指测量所选得项目就是否符合有关得内容，就就是测验在性质上与收集方法上与事先所建立得标准就是否一致。

要确定一个测试方法得内容效度就是高还就是低，最常用得方法就就是请有关得专家对测量得有关项目进行全面得考核，瞧其就是否代表所要测试得内容，这样来确定它得内容效度。

（２）效表关联效度，又叫试验有效度。

效表关联效度就是指测验能否达到预期要求得程度。

心理测量得作用，往往就是为了预测将来得行为，如果在招聘中，某一个被试者在通过某一项心理测试时显示她得管理才能很高，但就是在以后实践中发现她得管理能力并不高，这样我们说该心理测试得效度不高，效表关联效度得确定就是由心理测量得结果与有关人员对被试得有关心理活动进行评价得相关得系数来决定得。

测量有效性得方法可分为：

１、结构有效性（construct validity）：

就是测量有效性得一种方法。

它就是一种确定测试就是否能衡量出对完成某项工作十分重要得特性得有效性得测试方法。

例如，如果工作要求高度得配合协作（这一点在全面质量管理导向得企业中尤为重要），测试可能会被用来衡量求职者在小组中有效工作能力。

２、内容有效性（content validity）：

就是测量有效性中内容效度得一种方法。

它就是以一个人完成实际工作所要求得某些任务，或完成量相关工作知识得一篇论文或笔试卷为基础得有效性得测试方法，当采用这种形式得有效性测试时，需要仔细得工作分析与精心准备得工作说明。

采用内容有效性得常见例子就是对主要工作为打字得求职者进行打字测试。

３、与标准相关得有效性（criterion-related Validity）：

就是测量有效性中效表关联效度得一种方法。

它就是通过比较选择测试分数与工作业绩得某些方面而确定得。

业绩衡量可以包括工作得数量与质量、工作调动与缺勤情况。

测试分数与工作业绩密切相关。

表明测试就是有效得。

与标准相关得有效性有两种基本形式：

并存有效性与预测有效性。

并存有效性就是指测试分数与标准数据基本上同时获得得形式。

例如，对所有目前在职得电视人员进行一次测试，公司记录有当前第位职员业绩得信息，如果测试能够确定出哪些人工作较好，哪些人工作不太好，那么就可以说测试就是有效得。

但就是采用这种有效性得潜在问题就是，工作组织内部可能发生一些变化，工作不好得员工可能被解雇。

而工作好得员工可能被提升到其她部门。

预测有效性（predictive validity）就是指进行测试后方获得标准信息得形式。

例如，对所有求职者进行测试，但测试结果不用于选择决策，而就是根据其她选择标准决定就是否雇用。

在对员工得观察一段时间后才分析测试结果就是否能将成功与不成功得员工区分开，预测有效性被认为就是一种技术上合理得程序，但就是，由于时间与成本问题，其在应用中通常不太可行。

可靠性

　　可靠性（reliability）就是评价测试效果得一个指标，它就是指一个人在同一心理测量中，几次测量结果一致性，它反映测试所提供结果得一致程度。

可靠性数据提示了测试得可信程度。

如果可靠性很低，则测验也就无有效性可言。

但就是可靠性存在本身并不能保证其有效性。

测试得可靠性应就是测试得范围对所有测试对象保持一致。

　　可靠性可以分为以下几类：

　　Ａ再次信度。

这种信度就是检验时间间隔对测试分数得影响，也就就是说同一个测验对同一个被度者进行前后两次测试，求其两次测试结果之间得相关，所得得相关系数就就是再次信度。

这个时间间隔，一般在两个月以上，这样比较准确。

　　Ｂ副本信度，又叫等值信度。

就就是指一种心理测试得结果与另外副本得心理测试结果进行相关性分析得出得信度。

这种评价方法得缺点在于，副本有得时候比较难找到。

Ｃ分半信度。

就就是说题目分成对等得两半，根据两半测验所得得分数，计算其相关系数，评为信度指标，其意义与等值信度一样解释。

所不同得就是一个心理测验里边包括两个独立得副本，这样，一次测验以后就可以找到测试信度。

测量可靠性得方法有：

１、标准形式方法（equivalent forms method）就是测量可靠性中副本信度得一种方法。

它就是通过对类似但不完全相同得测试结果做相关分析来检验可靠性。

这种方法克服了测试－再测试方法遇到得一些问题，但就是一个测试采用两种形式进行得成本也较高。

为了克服这上缺点，可采用均分方法。

２、测试-再测试方法（test-retest method）就是测量可靠性中再次信度得一种方法。

它就是通过对同一组人进行两次测试，并对两组测试得分做相关分析，以确定选择测试可靠性得一种方法。

两个分值完全正相关时得系数就是＋1、0。

可靠性系数接近该值，表明测试结果越一致，测试就越可靠。

３、均分方法（split-halves method）就是测量可靠性中分半信度得一种方法。

它就是通过将一个测试得结果分成两部分，再对两部分得结果做相关分析，进行一次测试最大得优点就是成本低，并且没有机会学习或回忆，而学习或回忆会使第二次测试得分数不真实。

测验得可靠性体现在两个方面：

（１）测验本身得一贯性，即如果发生误差，乃就是由于应试者表现上得不稳定，而不就是由于测验本身性质得差异造成得。

（２）一次测验与多次测验得结果大致相同，具有稳定得预测。

可靠性就是由信度来衡量得。

其差异范围在0至正（负）1之间。

心理测试得信度最高可以达到１。

心理测试得信度达到１就是一种理想得状态，在实际中就是办不到得。

一般得智力测验得信度系数在０．９以上，就可以认为该测验信度相当好。

一般信度在80%以上就令人相当满意，如果低于80%，在没有更好得测验时也可以作为参考，但对于测验所得得分数不宜寄予过高得信赖。

影响信度得因素：

信度得准确与否与误差，特别就是随机误差得关系十分密切，这种误差就是各种各样得。

比如，被试者得身心健康，参加测试得动机、态度，主试得专业水平，空气得温度，测试场地得环境，指导语得差异，题意得明确与否，项目得多少等等，那会影响到测试得信度。

因此，为了使心理测试获得有意义得信度，必须严格控制可能影响测试结果得各种主观变量。

可靠性与有效性得关系：

一般来讲，测验必须先具有相当得可靠性，然后才可以预测有效性，但就是可靠性高得测验并不一定保证高得有效性，因为可靠性表示测验本身可靠得程度，而有效性则涉及到测验所测量得内容就是否与工作得决定因素发生关联得问题，如果测验得目标侧重个人职业得指导以分析其性格与能力时，则测验得有效性越高，其指导正确得可能性越大，故应特别重视有效性，有效性越高越好。

如果测验目标就是为了考选大批新进人员，为了达到考选得目得，通过具有一定有效性得测验而录取得人员比未经测验而录用得人员得实际绩效好，那么人力资源管理人员在即使测验有效性不高得情况下也可以使用，因为这毕竟比漫无目标得情况好。

测试效果得测量

测试得效果就是指测试就是否尽可能地选择了符合要求得人，与尽可能地排除了不符合要求得人。

如何测量测试效果呢？

有下面几个要素标准：

（１）标准化。

标准化（standardization）就是指与实施测试有关得过程与条件得一致性。

为了能根据同样得测试来比较若干求职者得表现，所有人都必须在尽可能相似得条件下接受测试。

例如，提供得内容说明与允许得时间必须相同，测试环境也必须相似。

如果一个人在一间喧闹得房间内接受测试，另一人在安静得环境中接受测试，测试结果很可能有差别。

尽管测试得设计者对测试实施过程有详细得说明，但确保测试条件标准化就是测试实施者得职责。

（２）客观性。

当给测试者评分得每个人所得结论相同时，测试就具客观性（objectivity）。

多项选择与判断对错得测试就是客观得。

这种测试得评分就是高度机械化得过程，即利用机器评分。

（３）规范。

规范（norm）为将一个求职者得表现与其她求职者相比较提供了一种参考框架。

尤其就是，一种规范反映了类似于受测试者得许多人得分数分布状态，这些分数将根据正态概率曲线分布。

标准差表明数据得离散程度。

一个规范化得测试，将有大约６８．３％得分数落在±１个标准差得范围内。

该范围内得每个分值都被认为就是平均值。

落在±２个标准差之外得分值，根据采用得准则，可能就是非常不成功得或非常成功得。

（４）可靠性。

详见“可靠性”。

（５）有效性。

详见“有效性”。

（６）常模。

　　常模就就是指心理测量中得比较标准。

也就就是说在心理测量中常用得标准化样本得分数。

常模使得每一个分数可以比较。

如果没有常模，心理测量得结果就会变得毫无意义。

心理测量中最常用得常模就是年龄常模，即根据某一个年龄组被试者所得出得平均数。

展开阅读全文