第十一章教育评估统计论.docx

资源描述

第十一章教育评估统计论.docx

《第十一章教育评估统计论.docx》由会员分享，可在线阅读，更多相关《第十一章教育评估统计论.docx（12页珍藏版）》请在冰点文库上搜索。

第十一章教育评估统计论.docx

第十一章教育评估统计论

第十一章教育评估统计论①

统计是通过对事物量的综合分析来研究其质的一种技术和方法。

应用教育评估的测量技术与方法所获得的关于教育评估对象的信息，只有经过统计分析后才有评估意义。

本章重点探讨对教育评估对象的量进行综合分析的统计技术和方法。

第一节教育评估统计概述

一、统计学的分类

统计学是研究统计原理和方法的科学。

从广义来说，统计学是

对于事物总体信息的收集和分析，并以此为根据进行推断的方法和理论。

统计学基本上分为两大类：

一类是与研究对象的特征密切结合的应用统计学；另一类是数理统计学，它为应用统计学提供方法，其主要研究应用概率论分析和解释统计数据数量关系的模式。

另外，近年来发展起来的模糊统计学则是研究应用模糊集合论为基础分析和解释统计数据数量关系的模式。

本章则以数理统计学的原理为依据，研究如何科学地运用统计技术，以提高教育评估的质量。

关于模糊统计技术在教育评估中的应用问题，我们将在下一章讨论。

二、教育评估统计技术与方法的主要内容

从统计技术应用于教育评估领域的角度来看，教育评估的统计

技术和方法包括描述统计、推断统计、实验设计三部分主要内容。

（一）描述统计

何兆华：

《教育评估的技术和方法》，教育管理专业教材，陕西教育学院教育系，1990年2月。

对应用教育评估测量技术与方法所获得的信息进行整理、制表、绘图，并计算各种代表量，如集中量数、差异量数、相关系数等，使大量杂乱无章或零散的资料简缩、概括，进而揭示其分布特征的过程，称为教育评估的描述统计。

1.集中量数

描述集中趋势的量数，在统计学上称集中量数。

在教育评估中,集中量数是一组教育评估准则测值的代表值，能够描述其典型情况；集中量数也可用于评估对象之间的比较，以分析评估对象之间

的差异。

集中量数主要有平均数、中位数、众数。

（1）平均数

1算术平均数

算术平均数是评估对象某种属性的测量值X的总和与评估对

象总数目之比，或所有评估对象在同一评估量表上的得分与评估对象数目之比。

常用X表示。

不利于

育评估的许多场所。

但是，由于其没有考虑各项评估指标的相对重要程度，而把不等值的指标测量值叠加起来，显然不科学；另外，其不能反映评估对象在各评估指标测量得分上所处的地位，

优化工作，故在以改进为目的的形成性评估中，不宜采用这种方法

来比较评估对象的集中程度。

2加权算术平均数

加权算术平均数是若干个价值大小不同的算术平均数的平均

数，常用Xt表示：

即Xt

q1q2qn

式中qi是评估指标i的权重。

加权算术平均数是算术平均数的改进，其不仅考虑了评估对象在各项评估准则上的测量值，而且体现了准则体系中各指标的权

重，是客观性较强的统计方法。

但是，应用加权算术平均数可能会削峰填沟，使不同特色的评估对象分值拉平，故仅从加权平均数的大小上很难判断评估对象之间的差异。

n个测量值连乘积的n次方根，常用Xg表示。

Xg7X1^2Xn（11.3）

几何平均数常用于判断分析评估对象速率的集

几何平均数

在教育评估中,

几何平均数是

中程度。

如求学龄儿童的增加率、学校教育经费的增长率、教师工资的增加率、学生阅读能力的进步率等。

4调和平均数

调和平均数是一组测量值倒数的算术平均数的倒数，常用表示。

XH:

（11.4）

1n1n1

调和平均数（倒数平均tfei）1一（般用于求平均速率等测量值可能表现为正逆两种指标的场合。

'在教育评估方面主要是用来描述学习的速度，如阅读速度、解题速度、识字速度等。

（2）中位数

中位数是位于按一定顺序排列的一组测量值中央位置的数值，在这一数值上、下各有一半次数分布，常用M表示。

根据中位数的定义，将一组测量值按大小顺序排列后，其计算

方法是：

若测量值的次数为偶数，则以中间的两个测值的算数平均数为中位数；若测值的次数为奇数，则以位居中央的测值为中位数。

在教育评估中，若一组测量值有特大或特小的极端数值，对测量单

位的性质有怀疑，且采用百分制计量体系时，可用中位数粗略地描述评估测值的趋中程度。

（3）众数

众数是频数分布理论曲线最高点相对应的横坐标上的一点，俗而粗略地说，众数是一组测量值中次数出现最多的那个测值，用MO表示。

众数的理论值求法很繁，一般是用经验公式求理论众数的近似值，或用直接观察法寻找粗略的众数。

统计数学家皮尔逊（K.Pearson）关于计算众数的经验公式为：

Mo3Md2X（11.5）

众数在教育评估中用来作为集中量数的价值很小，它只能大略

地估计一组测量值的集中趋势。

2.差异量数

描述离中趋势的量数称为差异量数。

在教育评估中，差异量大，表示评估测量值分布得范围广、不整齐；差异量小，表示评估测量值分布较集中，变动范围小。

在教育质量的综合评估中，差异量数可以较好地反映若干个评估对象之间的差异情况，便于比较鉴别。

方差和

差异量数主要有全距、四分位距、百分位距、平均差、标准差等，其中方差是最完善的差异量数。

（1）全距、四分位距、百分位距

1全距

也称极

全距是教育评估的一组测量值中最大值与最小值之差，值差，常用R表示。

RXmaxXmin（11.6）

全距虽然具有意义明确、计算十分简单之优点，但它没有充分利用中间测量值的信息，因此，它是一种灵敏性很差的、十分粗略的差异量数，只能作为判断评估测值差异程度的辅助量数。

2四分位距

将评估对象在某一方面的测量值按大小顺序排列或构成频数分布表，并把总频数分成相等的四等分，每等分含总频数25%勺测

75殆分位数的那一点。

四分位距常

值。

所谓四分位就是第3四分位数（Q3）与等1四分位数（Q1）差的一半。

其中第1四分位数是指量表上相应于第25%百分位数的那一点。

所谓第3分位数是指量表上第用Q表示。

四分位距这种差异量数不受极值的影响，因此比全距可靠。

在

教育评估中，一般地若用中位数表示集中量数时，则用四分位距表

示差异量数。

但是，由于四分位距忽略了左、右各25%勺测量值

的差异信息，且不便于进行代数运算，故一般很少用它来表示评估对象之间的差异。

3百分位距

百分位距就是两个百分位数之间的差距。

常用的百分位距有两种，一种是P10与P90百分位距，中间包括80%勺频数；另一种为P7与P93百分距，中间包括86%勺频数。

实际上，四分位距是第25%与第75%百分位距的一半，即

QdP75P25

（2）平均差

（或算术平均数）

（11.8）

平均差是每一个测量值与该组测量值的中位数离差的绝对值的算术平均数，常用MD表示。

|XiMd|

MD—L_!

n度越大，即测值参差不齐，分布范围广泛，评估对象在各项指标上的达成度差异越大。

因此，方差和标准差是最重要、最常用的差异量指标，在教育评估中适用于由评估等距量表获得的测量信息的分析处理，并与算术平均数配合试用。

上述全距、四分位距、方差和标准差都是与原测量值有相同的单位名称，统称为绝对差异量。

但在教育评估实践中，往往要对不同单位的测量值（如身高与体重）的差异，或者需要对单位相同而平均数相差较大的两组测量值的差异进行比较分析，这就需要借助相

对差异量数（标准差系数）来比较。

（4）标准差系数

就是标准差与其算术平均数的百分比，常用

所谓标准差系数，

CT」100%（11.12）

X为单位来衡量差异的程度。

标准差系数越

CV表示。

相对差异量是以

大，表明评估对象之间的差异程度越大，反之亦然。

3.相关系数

集中量数和差异量数限于对单一变量数列分布特征的描述。

为

了探讨双变量数列之间的联系，统计学中提出了“相关”的方法，并用相关系数来表示。

在教育评估过程中，常常要研究某种教育现象与另一种教育现象及其与教育效果的关系，如在学生评估中，学生两门学科成绩之间的关系、知识获得与智力发展的关系、智力因素与非智力因素及其与学习效果的关系等；在学校办学水平的综合评估中，要研究办学条件、管理水平、教育成果等各自与办学水平的关系，等等。

这些，都需要借助反映两个变量之间的变化关系的相关系数进行描述。

（1）积差相关系数

英国统计学家皮尔逊（K-Pearson）将积差相关系数定义为两个变量标准分数乘积之和除以N所得之商。

用公式可表示为：

rXy

式中：

bXX变量的样本标准差；

by――Y变量的样本标准差。

在实际计算时，一般不用定义式

（XX）（YY）

（11.13）

（11.16）

（n1）SxSy

在教育评估中，，对于等距量表获得的连续测量值，可用积差相关系数来描述其相关程度，如初一（X）与初二（Y）数学成绩，某年级某班的某科成绩与另外学科之间的相关，以加强基础学科的教学等。

严格地讲，只有两个变量的总体都接近正态分布，至少是单峰

对称的分布，且样本容量的总体大于30时，才能应用积差相关系

数描述两列连续变量之间的相关程度。

（2）等级相关

当两个变量值以等级次序排列，或以等级次序表示，两个变量的总体分布不一定是正态分布，或者根本不是正态分布，样本容量

n小于30时，表示这两个变量之间的相关量，称为等级相关。

统计学家斯皮尔曼（Spearman）的等级相关系数计算公式为：

rp1■（壬⑴.17）

式中：

rp——等级相关系数n

D两个变量每对测量值等级的差数；

n――两个变量测量值的对数。

等级相关不受变量分布特点的限制，不管双变量是否是正态分

布，也不管双变量是否是连续变量均可采用。

对于连续变量，也可

按测值大小变换为顺序变量，然后作为等级来计算相关系数；其不

受样本变量n的大小的限制，当nv30时使用更为方便。

因此，它

的应用范围较广，在教育评估中，对用顺序量表获得的测量信息，用等级相关系数描述其间的相关程度，更具有评估意义。

除上述积差相关和等级相关外，还有表示只有质没有量的两个变量之间关系的“相关”，表示一个连续变量与一个真正的二分称各变量之间相关的“点二列的相关”，以及“二列相关”等。

有兴趣的读者可参阅教育统计学的有关章节，并研究其在教育评估中的应用。

（二）推断统计

抽样评估的结论能否推论，这就是推断统计技术所要解决的问

集中量数、差异量数、相关量数作为描述评估测值分布特征或变量之间相关程度的统计技术，一般是以大量的测值为前提的。

在教育评估的实际工作中，往往只能根据评估对象的样本进行抽样评估，题。

推断统计技术包括统计估计和假设检验两部分主要内容。

1.统计估计统计估计以中心极限定理为统计理论，分为点估计和区间估如：

我们要评估某普通中学学生的合格率，数值（如92%）作为估计量；也可用一个区间（如89%-95%）来估计，前者称为点估计，后者称为区间估计。

在教育评估中，应用较多的是评估对象总体的平均数估计。

2.假设检验假设检验是根据教育评估对象的样本信息，按照一定的概率要求，对于某一评估对象总体的特性的假设作出拒绝或保留及其程度的决断。

（1）假设的类别及意义假设检验一般都有零假设和备择假设两个对立的假设。

所谓零假设（用符号H0表示）就是关于当前评估对象的样本所属的总体与原设总体无区别的假设。

它往往是评估研究者根据样本信息期待拒绝的假设。

备择假设（用符号H1表示）是关于当前教育评估的样本

所属的总体与原设总体不同的假设，是根据样本测量信息认为实际

可能性很小而否定了零假设时应采取的假设。

假设检验的基本思想

是概率反证法。

即间接运用概率论上的“小概率事件实际上不可能性”原理（小概率原理），拒绝那种在一次具体实践中竟然出现小概率事件的不合理的Ha如果实践所导致的结果没有发生小概率事件的不合理现象，则不能拒绝H0,而说H0是相容的。

（2）假设检验的显著性水平和两类错误

通常把概率不超过0.05的事件，有时也把不超过0.01或0.10事件，当做“小概率事件”。

这也就是通常所设的显著性水平，用符号a表示。

在假设检验中，不论选择哪一显著性水平a作出推断时，难免都要发生两类错误。

一类是，H0被拒绝，但实际上是正确的，即犯了“以真为假”的“弃真”错误，这种“弃真”错误称为I型错误，用a表示。

另一类是，接受了H0而实际上它是假的，即犯了“以假为真”的“存伪”错误，这种“存伪”错误称为n型错误，用B表示。

实际上，a和B成相反的联系，这一个错误减少，另一个就增大。

a是在研究人员直接控制之下的，对于只有通过它和a的相反联系进行间接控制，同时，两类错误的重要性也是相对的。

（3）假设检验的一般步骤

例如：

某县高中入学考试某科总平均分为65,标准差为8.8,该县某初中100名学生此次考试的该科总平均分数为67,问该校该科分数与全县有无显著性差异？

检验步骤：

提出假设：

H0：

u65H1：

u65

选择统计量并计算其值

6/65/扁

j=2.273

8.8/』00确定检验形式

由于没有现有资料能够证明该校学生入学考试的平均分数必然高于（或低于）该县的平均分数，故采用双侧检验。

D统计推断

取a=0.05,查正态分布表，得临界值Z=1.96。

由于实际计算的Z值大于Z的临界值（2.273>1.96），故表明Z值等于和大于2.273的面积（即概率）小于0.05,实际计算出来的Z值已落入了拒绝区域，即小概率事件发生了，故在0.05的水平上拒绝H0,接受

H1,可以以95%勺可靠度作出关于该校高中入学考试某科总平均分与全县高中入学考试各科总平均分有显著差异的结论。

（三）实验设计技术

教育评估的实验设计技术一般分为三类：

非实验式设计、实验

式设计和准实验式设计。

非实验式设计一般主要有“单组后测设计”、“单组前后测设计”、“不同组前后测设计”、“静态群体比较设计”。

实验式设计主要有：

“后测对照组设计”、“前后测对照组设计”、“多组后测设计”、“多组前、后测交替设计”。

准实验式设计主要有：

“单组时间连续设计”、“不等组设计”、“三组设计”、“四组变化设计”。

现代教育评估实验设计的技术还有“完全随机化设计”、

“随机化完全区组设计”、“不完全区组设计”、“拉丁方、希腊拉丁

方和尧敦方设计”、“析因实验设计”、“2K析因设计”、“3K

析因设计”、“正交设计”等等。

展开阅读全文