数学教育测量与评价.docx

资源描述

数学教育测量与评价.docx

《数学教育测量与评价.docx》由会员分享，可在线阅读，更多相关《数学教育测量与评价.docx（21页珍藏版）》请在冰点文库上搜索。

数学教育测量与评价.docx

数学教育测量与评价

1. 学习目的：

通过学习了解数学教育测量与评价的基本原理，运用数学教育测量与评价获得信息，对数学教学进行测量与评价，从而指导数学教学实践。

2．内容介绍：

了解和掌握数学教育测量与评价的基本概念，学会运用教育统计学的基本理论进行教学测量与评价。

3．考核或方案：

运用教育测量与评价的基本原理，结合教学实践，选一个课题进行教学评价。

4. 主要参考书目：

[1]田万海等著数学教学测量与评估上海教育出版社，1995年12月第1版

[2]王孝玲编著教育统计学，华东师范大学出版社，2001年7月第1版

[3]王孝玲编著教育测量华东师范大学出版社，2001年4月第1版

第一章绪论

§1.1教育统计学的内容

一、什么是教育统计学

教育统计学是运用数理统计的原理和方法，研究教育问题的一门应用科学。

它的主要任务是研究如何搜集、整理、分析由教育调查和教育实验所获得的数字资料，并以此为依据，进行科学推断，揭示教育现象以蕴含的客观规律。

二、统计学研究的内容

分成描述统计、推断统计、实验设计

1．描述统计

对已获得的数据进行整理、概括，显现其分布特征的统计方法，称为描述统计。

通过教育调查和教育实验获得大量的数据。

用归纳、编表、绘图等统计方法对之进行归纳、整理，以直观形象的形式反映其分布特征；通过计算各种特征量，来反映它们分布上的数字特征。

例如，计算集中量（算术平均数、中位数、众数、加权算术平均数、几何平均数、调和平均数等）来反映它的集中趋势；计算差异量（如全距、四分位距、百分位距、平均数、标准差、差异系数等）来反映它们的离散程度；计算偏态量及峰态量来反映它们的分布形态；计算相关量（如积差相关系数、等级相关数、点二列相关系数、相关系数、四分相关系数、C相关系数、肯德尔和谐系数、多系列相关系数等）来反映一个事物的中特性之间变化的一致性程度（尤其是测量评价中）。

这些均属于描述统计范围。

目的：

在于将大量零散的、杂乱无序的数字资料进行整理、归纳、概括，使事物的全貌及其分布特征清晰，明确的显现出来。

2．推断统计

根据样本所提供的信息，运用概率的理论进行分析，论证，在一定可靠程度上，对总体分布特征进行统计、推测，这种统计方法称为推断统计。

例如，对总体参数值，即总体数字特征值（如总体平均数、总体标准差、总体相关系数等）的估计；对总体数字特征值或总体参数之差（如总体平均数之差、方差之差、总体相关系数之差等）的假设检验；对总体分布是否服从某种分布的假设检验等，都属于推断统计的范围。

其目的在于根据已知的情况，在一定概率的意义上估计、推测未知的情况。

3．实验设计

教师为了揭示实验中自变量与因变量的关系，在实验之前所制定的实验计划，称为实验设计。

其中包括选择怎样的抽样方式；如何计算样本容量；确定怎样的实验对照形式；如何实现实验组和对照组的等组化；如何安排实验因素和如何控制无关因素；用什么统计方法处理及分析实验结果等。

以上三部分内容，不是截然分开，而是相互联系的。

描述统计是推断统计的基础，推断统计可以通过样本信息估计，推测总体。

从已知情况推测、估计未知情况。

良好的实验设计才能使我们获得真实的有价值的数据，对这样的数据进行统计处理才能得出正确的结论。

而良好的实验设计又必须以统计就原理为根据，符合统计方法的要求才能对实验结果进行统计处理。

§1.2 学习统计与测量评价的意义

1．可以顺利地阅读运用统计方法进行走量分析的科研报告和文献，从中可以间接地学习国内外先进地研究成果。

2．可以提供一种科学方法为教科研服务——工具。

3．可以提高教育工作的科学性和效率（学制的改革、课程的建设、课程分量的确定、数学效果的考核、各种教法和学法的比较、学科成绩的评定、各类调查、学业成绩的比较）。

§3 几种基本概念

一、随机变量

二、总体与样本

三、统计量与参数

四、数据的分类

1．名称量表——点计数据

测量与统计中最简单的形式——分类。

即属于同一类的事物用同一个数字表示。

属于另一类的事物用另一个数字表示。

用来描述各类事物的数字仅仅是事物的名称或符号。

没有数量大小的含义，只具有相同与不同的特性。

即只能区分事物的类别，没有数量的大小、多少、位次和倍数关系。

也就是说，它只具有数的同一性和区分性，而不具有等级性、等距性和等比性。

因此，不能将之进行加、减、乘、除四则运算。

所进行的统计处理，只是归入每一类中个体的数目（频数），对这类数据所允许和运用的统计方法，有比率、百分比、相关系数、 x2检验。

2．等级量表——等级数据

对于事物的属性按一个标准进行分类，用来描述各个类别的数字，不仅具有区分性，而且还具有等级性（位次性）。

这些数字之间能表示事物大小的位次关系。

但不具有等距性和等比性。

甲、乙、丙三个等级，甲 3，乙 2，丙 1。

构成3>2>1的位次关系。

但这些数字只能确定事物相等或不等的关系。

在不等的情况下，只能确定大于或小于的关系。

如3>2，2>1，则3>1的关系。

不能确定甲等的3比丙等的1大多少个相等的单位。

因为3与2和2与1之间的差距是不相等的。

不能进行四则运算。

它们所适用的统计方法：

中位数、百分位数、等级相关系数。

肯德尔和谐系数（多列等级相关），以及符号检验，秩次检验、秩次方差分析（3-2 2-1）。

3．等距量表——等距数据

有相等单位和人定参照点德测量数据，不仅具有区分性、等级性，还具有等距性。

例如9℃与6℃之差=6℃与3℃之差。

但是参照点（零点），而是人定德零点，0℃并不意味着没有温度。

钟表上的0点，并不意味着没有时间。

同样，并不意味着9℃是3℃的3倍。

这类数据只能作加减运算，不能作乘除运算。

适用的统计方法有平均数，标准差、积差相关系数的n级Z、t、F检验等。

4．比率量表——比率数据

这是最高水平的测量。

有相等单位和绝对零点的数据，不仅具有区分性、等级性、等距性，还具有等比性。

具有绝对零点。

所谓绝对零点，就是量表上称表0的地方，表示所要测量的属性是无。

这类数据既可以确定一个事物比另一个事物大多少，又可以确定大多少倍。

因此，数据可以进行四则运算。

例如长度、身高、重量等。

它所运用的统计方法。

除了等距数据所运用的统计方法外，还可以计算几何平均数和差异系数。

注：

一般而言，学生知识、技能的测验分数多属于等级数据。

因为测验分数之间只能表明哪个大，哪个小，不能表明大多少，小多少。

例如，一次数学测验的平均分为70分。

在这里，60分与70分之间和90分与100分之间，虽然都差10分。

但是，它们的差异是不相等的。

众所周知，90分与100分之差要比60分与70分之差难度大得多。

已表明，测验分数是不等距的。

另外，测验得零分的学生，并不意味着他在所测验的知识、技能方面为零。

这表明，测验分数不是绝对零点开始的。

虽然测验分数属于等级数据，但我们通常把测验分数作为等距量来处理。

这是因为：

第一：

在统计就上可以将总体呈正态分布的测验分数转换成单位相等的标准分数。

第二：

如果测验编造得较好，特别是对于测验结果的极端分数的微小差异可能反映着巨大差异的这一现象给予注意的情况下，就可以使本来属于等级数据的分数，作为等距量表来处理所造成的误差减少到最小程度。

第三：

如果测验的编制程序能使测验分数接近等级数据，而且对测验分数当作等距数据处理时所得到的结果也确实是有意义的。

那么，也就表明这种做法是可行的。

第二章测验数据的处理与解释

§2.1 测验分数的解释

当我们用一个信度效高，效度经过检定合格的测验，对一个学生施测后，就获得一个测验分数。

对这个测验分数应当如何解释，便是这一章所要论述的问题。

一、测验分数与所测量的属性

当我们用测验来测量人的某种心理属性时，总是假定：

测验分数的单位是相等的；测验分数相同的增量反映着心理属性的同等增量。

因为，这样的假定对于统计运算的使用是不可缺少的。

但是，由于人的心理属性只能通过其行为反应进行间接测量，而且人的行为反应常因多种因素的影响而容易发生变化。

也就是说，测量的误差较大。

因此，对于人类心理属性的测量很少有绝对的测度。

即使以时间、空间或能力作为单位的测量分数，它们的相同增量也很难代表着相同的心理增量。

例如，用一个、十几个题目组成的数学测验，对甲、乙两个学生施测，如果甲生全部答对，得100分，而乙生全部答错得0分。

这时，甲生的100分和乙生的0分，只能分别表示他们在这个特定的测验上所表现出的能力，并不能代表甲、乙两个学生学习数学的全部能力。

因此，我们不能根据这两个测验分数就作出关于甲生对于数学知识、能力全部掌握，而乙生对于数学知识、能力全部没有掌握的判断。

因为，若用另一套测验对他们施测，甲生就不一定得100分，而乙生也不一定得0分。

假如在上述测验中，甲生得100分，而乙生得50分，这也并不意味着甲生在数学方面知识和能力是乙生的两倍。

用理，甲生和乙生在同一个测验上获得相同的分数，也不能判定他们两人这方面的知识与能力是相同的。

甚至用同一个测验对同一个学生先后施测两次，可能由于在两次测验中学生的动机、情绪、态度、健康、睡眠、学习以及测验环境的光线、气压、湿度和考试的指导语不同，所获得的两个测验分数也不一定相同。

二、原始分数和导出分数

根据测验的记分标准，对被试的测验结果所计算出的测验分数称为原始分数。

例如，一个学生在数学测验上获得72分，这72分就是原始分数。

原始分数的本身意义甚高，因为仅从个别学生的原始分数，我们既无法了解他学习成绩的好坏，知识能力的高低，也无法与其他学生相互比较。

对于同一个学生不同学科的原始分数。

由于缺乏参照点和一定的单位。

因此，既不能相比较，也不能相加求和。

例如：

某生期末考试成绩：

语文为69分，数学为86分，英语为90分。

根据这三门学科的分数。

我们还是不能了解该生三门学科哪一门学科学得好。

哪一门学得差。

即我们不能说，该生英语最好，数学次之，语文最差。

为了使原始分数本身具有意义，使不同测验得分数可以相互比较，就必须将原始分数转化成导出分数。

所谓导出分数，就是经过统计整理过的。

具有一定参照点和单位的，可以相互比较的分数。

在教育测量中，常用的导出分数，有百分等级，标准分数，年级等值分数，年龄等值分数等。

如果对一个标准化的样本施行某一个测验之后，将所获得的原始分数以常模（平均数）为参照点转模成某种导出分数。

并以等值表的形式将原始分数与导出分数之间的对应值表示出来，这就是测验量表。

根据这种测验量表，我们可以为某个学生的原始分数寻找到在这个测验量表上的相对位量，以确定其测验成绩的优劣。

与上述的导出分数相对应，常用的测验量表有百分等级量表、标准分量表、年级和年龄量表等。

§2.2 测验的种类

一、根据测量的属性分类

1．智力测验——主要目的在于测量智力的高低，它是最早发展起来的一种心理测验，目前从出生到老年人都有不同年龄阶段的智力测验。

2．智力倾向测验——主要目的在于发现被试的潜在能力。

所谓潜在能力是指经教育或训练以后，能够发挥出来的能力。

这类测验在职业训练或就业指导方面应用最为广泛。

3．人格标准——主要目的是测量人的态度、情绪、兴趣、品德、动机、意志、性格、美感等方面的行为。

4．教育测验—目的在于测量学生某些学科经过教育，训练之后所获得的知识、技能。

二、根据测验的标准化程度分类

1．标准化测验

它是由测验专家精心周密编制的。

测题根据试训的结果客观的筛选，测验经过客观地评价，应具有较高的信度和效度。

测验的手续——指导语，评分标准，环境布置，测验时限，分数的解释等都有详细明确的规定。

必须严格遵守，不得随意更改。

它一般以大量测验结果为基础，求出常模，建立测量验量表。

2．教师自编测验

教师自编测验的客观性和标准化程度不如标准化测验。

例如，测验的编制不如标准化测验那样精心周密，一般不进行试测，不求信度，效度和常模。

测验的记分也不那么严格。

优点：

它与教师日常的数学工作息息相关，使用频繁，它可在一个数学单位的中途和结束，或期中和期末，就较短时间的学习内容施行测验，随时了解学生的学习情况，及时地改进教学。

测验内容与教材内容，教学目标，教学进度完全相一致；测验的难易程度适合学生的水平；对于学生经常发生的错误针对性强；教师自己编制测验可省时、省力、灵活、方便。

教师自编测验的标准化程度虽然不如标准化测验，但编制的原则和程度与标准化测验基本一致，而且教师自编测验有时也可以使用标准化测验的有关内容。

三、根据记分标准分类

1．常模参考性测验

常模参考性测验是以被测团体的常模（平均数）为参照标准来衡量个体成绩的测验。

其评分基准在测验以后，产生于被测团体之内，它是以个体在团体中所处的位置来解释个人成绩的优劣。

一般用百分等级和标准分数等相对分数来表示。

例如，某生数学成绩为第70百分等级，这表明在团体中有70%的人在他之下。

该测验的主要功能是区分学生的个别差异的相对水平，常用于选拔性和竞赛性活动。

以及能力分组方面。

测验编制所基于的假设是：

团体测验成绩呈正态分布，要求组成测验的题目，大多数为中等难度，少数为较难，较易的题目，即难度呈正态分布。

2．目标参考性测验

它是以预定的目标（大纲）为参考标准来衡量测验成绩的测验。

其评分基准是在测验之前，建立在被测团体之外，个体的成绩只需与既定的目标相比较，不必与团体重的他人相比较就可以确定其优劣。

一般用合格与不合格、达标与未达标来表示。

主要功能：

确定被试达到目标的程度，多用于合格性，达标性活动。

如学校中的期中、期末、毕业证书考试、执照考试。

优点：

除了甄选之外，在教学中既可以确定学生知识、技能达到目标的实际水平，又可以判断学习中的困难，有助于提高学生学习的目的性，并为教师的教学及时地提供反馈信息。

其他分类：

根据测验功能分类

受测人数分类:

略、

四、常模与标准

常摸是某年级、某年龄或具有某种共同特征地被试团体，在某一测验上实际达到地平均水平。

而标准是某年级、某年龄或具有某种共同特征地被试团体、在某一测验上应达到的水平。

常模是一个相对的数量，而不是一种绝对的永久性的固定不变的标准。

常模随着时间和空间的不同而变化。

例如，由于时代的进步，科学技术的发展，教育的改革，师资的提高，设备的完善，学生学习水平也随之提高。

十年前求得的常模不一定能适用于沿海各省的常模，不一定适用于内地各省。

就是在同一地区，不同类型的学校，所求得的常模也不见得相同。

常模和标准虽然不同，但是，从某种意义上来说，常模起着标准的作用。

因为常模为了个别被试的测验分数提供了比较的基础，如果一个学生某科测验成绩在常模以上，很少有人认为他的学习成绩是差的，反之，在常模之下，也很少有人认为他的学习成绩是好的。

常模是根据标准化样本的测验分数经过统计处理而建立起来的。

所谓标准化样本就是对于使用该测验的总体具有代表性的那部分个体。

在建立常模时，由于人力、物力、时间和经济条件的限制，不大可能将总体中的每一个个体一一施行测验。

往往是从总体中按照一定的方式抽取相当数量的个体施于测验。

然后用这些测验分数所建立起来的常模作为比较的尺度来解释该总体中某个个体测验分数的优劣。

而该常模是否能用来解释该总体中的测验分数，那就取决于标准化样本对总体的代表性程度。

1.合理的抽样方法——分层随机抽样

2.较大的样本容量——但分数的差异性较大

§2.3 百分等级量表

一、百分等级量表的意义

百分等级量表是以标准化样本测验分数的中位数为参照点，以百分等级（百分位）为单位的测量表。

它将同一年级或同一年龄组的被试，在某个测验上所得的分数分成100个等级。

每个百分等级表示其相应的测验分数在该年级被试中所占的地位。

即低于这个分数的人数百分比。

例如，某年级数学测验最高分为92分，其百分等级为100；最低分为40分，其百分等级为0，在40~92分之间分成100个等级。

如果其中甲生测验分数为54分，他处于第10个百分等级，这表明有10%的学生测验分数比他差，而有90%的学生测验分数比他好。

因此，百分等级实际上是一个地位量数。

与百分等级相对应的原始分数称为该百分等级的百分位数，如上例的第10百分位数为54分，可表示P10=54；若根据标准化样本的测验分数计算出各相应的百分位数。

也就是说，建立百分等级与原始分数的等值对照表。

即为百分等级量表。

二、百分等级量表的编制方法

1．用原始分数直接计算其百分等级的方法

在使用计算机的条件下，可直接计算每一个可能的原始分数的百分等级，来建立百分等级量表。

例1．初二50个学生数学测验分数为例，说明计算各原始分数百分等级的步骤与方法。

初二50个学生数学测验分数为例，说明计算各原始分数百分等级的步骤为方法

85 70 67 50 87 70 68 52 53 67

72 86 89 71 42 74 60 45 83 73

62 48 82 64 72 82 79 74 61 71

81 84 96 75 65 55 57 66 77 91

76 68 58 60 69 70 94 79 67 57

①所有分数找最大值、最小值：

96、42。

从41按班顺序从小到大排至97。

（公差学生没有获得的分数）

②计算各原始分数的步骤

③从下至上计算各分数的累积频数

④计算各分数中点的累积频数——该分数频数的一半加上小于该分数的频数总和，或者，某一个分数中点的累积频数，就等于该分数频数的+小于该分数的累积频数。

⑤计算各分数中点的百分等级——将各分数中点的累积频数除以总频数，再乘100。

分数频数累积频数中点累积频数百分等级

97 0 50 50 100

96 1 50 49.5 99

95 0 49 49 98

94 1 49 48.5 97

93 0 48 48.0 96

92 0 48 48.0 96

91 1 48 47

90 0 47 46.5

89 1 47 46

88 0 46 45.5

87 1 46 44.5

86 1 45 43.5

85 1 44 42.5

84 1 43 41.5

83 1 42 40

82 2 41 38.5

81 1 39 38

80 0 38 37

79 2 38 35.5

78 1 36 34.5

77 1 35 33.5

76 1 34 33

75 1 33 32.5

74 2 32 31

73 1 30 29.5

72 2 29 28.0

2.同频数分布表编制百分等级量表的方法

第一步，编制频数分布表

①求全距最大值——最小值

②决定组数和组距。

各组的组距等于全距组数，而组数可根据总频数的多少而定，一般在10~20之间，本例拟分12组，组距为5412=4.5。

取整数为5。

③决定组限

④列出组中值

⑤登记频数（边界数较大组[]）

⑥计算各组的至上限的累积频数

分数组中值频数至上限的累积频数至组中值的累积频数至组中值的累积比率组中值的百分等级

95— 97.5 1 50 49.5 0.99 99

90— 92.5 2 49 48 0.96 96

85— 87.5 4 47 45 0.90 90

80— 82.5 5 43 40.5 0.81 81

75— 77.5 6 38 35.0 0.70 70

70— 72.5 9 32 27.5 0.55 55

65— 67.5 8 23 19.0 0.38 38

60— 62.5 5 15 12.5 0.25 25

55— 57.5 4 10 8 0.16 16

50— 52.5 3 6 4.5

展开阅读全文