自考《教育统计与测量》.docx

资源描述

自考《教育统计与测量》.docx

《自考《教育统计与测量》.docx》由会员分享，可在线阅读，更多相关《自考《教育统计与测量》.docx（14页珍藏版）》请在冰点文库上搜索。

自考《教育统计与测量》.docx

自考《教育统计与测量》

与其平均数的离差绝对值的平均值AD。

从平均的角度反映了各个数据偏离中心位置的整体差异程度，直观易理解，科学性较强。

实用性好，应用广泛。

方差：

一组数据的离差平方数的算术平均数S2。

标准差：

一组数据方差的算术平方根用S表示。

标准差运算性质。

1、全组数据每一个观测值都加上一个相同的常数C后,计算得到的标准差不变。

2、若每一个观测值都乘以一个相同的常数C后，所得到的标准差等于原标准差乘以这个常数的绝对值。

3、每个观测值都乘以同一个非零常数C，再加上另一个常数d，所得数据的标准差等于原标准差乘以这个常数C。

差异系数：

把差异量数与集中量数两相比较后所形成的相对差异量数。

CV=S/X×100。

反映相对离散程度的系数，即相对差异量数，失去单位。

地位量数：

反映次数分布中各数据所处地位的量。

百分等级（百分位）PR反映某个观测分数以下数据个数占总个数的比例的百分数，在0到100之间取值。

百分位数：

位于特定百分中的相对地位的组内常模。

未归类数据确定各数百分比步骤：

1、把观测数据从大到小依次排列。

2、按不同的数据逐个统计次数，并列表记录。

3、从低端开始向高端方向，计算各个观测点数据以下的累计次数（不包括本得分点次数）4、计算各观测数据的“以下累计相对次数”，即比例数，计算方法是把“以下累计次数”cf除以数据总个数n。

5、确定各观测点数据的百分等级PR，方法是把各数据的“以下累计次数”乘以100即可。

难度：

被试完成项目作答任务时所遇到的困难程度。

难度指数：

定量刻画一个测验项目的被试作答困难程度的量数。

信度：

测验在测量它所测特质时得到的分数的一致性。

测验效度：

测验实际上测到它打算要测的东西的程度。

内容效度：

测验项目构成应测行为领域代表性样本的程度。

效标关联效度：

测验预测个体在类似或某种特点情景下行为表现的有效度。

结构效度：

测验测得心理学理论所定义的某一心理结构或特质的程度。

效标污染：

效标测量质的评定受到了测验分数值的信息的影响。

随机现象（不确定现象）：

相同条件下其结果也一定相同的现象。

随机变量：

记录各种随机实验结果的变量（学生测验分数）。

正态分布：

是连续性随机变量中常见的一种概率分布形态。

正态分布：

正态分布是由平均数和标准差唯一决定的，且平均数为0，标准差为1。

从形态上看，是一条单峰、对称呈种形的曲线。

其对称轴为过X=u的纵线。

曲线在X=u点取的最大值。

从X=u点开始，曲线向正负两个方向递减延伸，不断向X轴逼近，但永不与X轴相交，因此曲线在正负两个方向上都以X轴为渐进线。

一般的正态分布可以转化为标准正态分布。

T分布:

单峰、对称呈种形的分布,对称轴过分布的平均数,曲线在正负两个方向上以横轴为渐进线,与正态相比T分布中间低而尖,两头高而平缓,特点是一族分布每一个T分布的形态受自由度的制约.对应一个自由度就有一个T分布,随自由度的增大,曲线的中间高而平缓,两头低而陡,曲线接近正态分布,自由度接近无穷大时,变成正态分布.

X2分布的一般形态，与正态分布及T分布的异同点：

X2分布通常是正态分布，X值永远不会有负值。

Ζ分布，即正态分布与T分布均为对称分布，平均数所在的点是对称轴所经过的中心点。

X2分布是非对称分布，但与T分布曲线的形态随着自由度df改变而有所改变一样，X2分布曲线的形态也随着自由度的改变而有所改变，但当自由度df趋向无穷大时，X2分布曲线就会变成一条正态分布曲线。

总体：

客观世界中具有某种共同特征的元素的全体。

样本：

从总体中抽取的部分个体组成的群体。

总体和样本区别：

是不是具有同一特征的个体都已包含在所研究的群体内，是的话该群体为总体，否则为样本。

二者在同一研究中是绝对的。

在不同研究中两者的区分又是相对的。

样本是总体的一部分，具有承接总体各种特征的固有特点，对总体具有代表性。

影响样本对总体代表性的因素：

总体本身的离散性；抽取样本容量的大小；抽样方法，随机抽样是一种优良的统计抽样方法。

简单随机抽样原则：

机会均等，相互独立。

分层抽样：

总体较大，所抽样本容量比较小，总体内部结构复杂使用。

原则是总体中各部分元素之间的差异要大于各部分元素之内的差异。

实质是将总体中各部分按其容量在总体规模中的比分派到样本结构中去，然后抽样。

优点是基本保持总体的分布形态。

等距抽样：

适用于总体很大样本较小总体无中间层次结构的抽样。

抽样分布：

从一个总体中随机抽取若干个等容量的样本，计算每个样本的某个特征量数，由这些特征量数形成的分布，称为这个特征量数的抽样分布。

平均数的抽样分布：

（1）原总体正态、总体方差已知。

平均数抽样分布的平均数等于原总体平均数，标准差等于原总体标准差的n（根号）分之一.SEx=σ/n.

（2）原总体正态,总体方差未知.t=X-μ/SEx.（3）

原总体正态,样本较大

.参数：

在总体数据基础上求取的各种特征量数。

统计量：

应用样本数据计算的各种特征量数。

检验统计量：

根据检验目的和抽样分布设计，专门用于统计假设检验的统计量。

计算积差相关系数的条件：

rXY，适合于对两个连续变量之间的相关情况进行定量分析。

1、样本容量要大（n大于30）。

2、两列连续变量（比率变量或等距变量）。

3、两总体分布呈正态。

4、两变量之间存在线形关系。

等级相关适应:

rR，根据两列顺序变量数据中各对等级数据的差计算相关系数的方法。

1、两列观测数据都是变量数据，或其中一列数据是顺序变量数据，另一列数据是连续变量数据。

2、两各连续变量的观测数据，其中有一列或两列数据的获得，只要依靠非测量方法进行粗略评估得到。

点双列相关适应:

Rpb。

适用于双变量数据中。

有一列数据是连续变量数据，如体重、身高以及许多测验与考试分数。

另一列数据是二分类的称名变量数据，如性别、态度、学习经历、考试结果等数据。

分数：

通过测量获得的、描述测量对象身心特性水平的数字。

原始分数：

在测量工具上直接得到的测值（数字）。

教育与心理测验分数--相对评分分数：

通过被试间相互比较而确定意义的分数。

绝对评分分数：

通过拿被试测值跟应有标准作比较来确定其意义的分数。

常模：

一定人群在测验所测特性上的普遍水平或水平分布状况。

发展常模（年龄常模、年级常模）和组内常模（百分等级常模、标准分数常模）。

常模建立：

科学抽样,从清楚明确地定义的特定人群总体中，抽取到容量足够大,有代表性的被试样组（标准化样组或常模组）。

用拟建立常模的测验，采用规范化施册测手续与方法对标准化样

组中的所有被试，实施测验，以便恰当准确地收集所有被试在该测验上的实际测值。

对收集道德全部资料进行统计分析处理，把握被试样组在测验上的普遍水平或水平分布状况。

标准分数常模及单位:

标准分数是以它所属分数组的标准差为单位的,它所属分数组的平均数的距离。

标准分数常模：

用被试所测的测验分数转换成的标准分数来揭示其在常模团体中的相对地位的组内常模。

因为不论在一组分数分布的尾端还是中部，两原始测验分数之差若相等，转换出的标准分数的差也相等。

即标准分数是等单位的量度，不存在尾端单位大而中部单位小的问题。

标准分数是一个比值。

分子是原始测验分数的离均差，它是会随测验分数取值不同而变化的；但分母却是一个固定值，是所属分数组的标准差，不随测验分数是在尾端或中部而变化，这样，就位置不同测验分数的离均差来求比值时，被比的基数都是相同的。

标准分数：

以它所属分数组的标准差为单位的，对它所属分数组的平均数的距离。

测验常模及作用:

一定人群在测验所测特性上的普遍水平或水平分布状况。

作用是解释测验分数意义的参照体系，通过将被试测验分数与常模比较来确定受测者的水平。

1、科学抽样,清楚而明确低定义的“特定人群”总体中，抽取到容量足够大，并确具代表性的被试样组。

2、用拟建立常模的测验，采用规范化实测手续与方法对标准化样组中的所有被试，实测该测验，以便准确收集到所有这些被试在该测验上的实际测值。

3、对收集到的全部资料进行统计处理，真正把握被试样组在该测验上的普通水平或水平分布状况。

组内常模:

解释被试原始分数的参照体系，以常模组的测验分数分布状态作为参照体系，说明被试特质水平在常模组内的相对位置。

分为百分等级常模和标准分数常模。

Z值作线形变换的必要及办法:

一组测验分数转换成Z值后会出现负值与多位小数，可以明确测验分数在全组分数中的相对位置，但对一般人来说，表现成负值并带有多位小数的Z值，不好理解，引起误会，所以不方便适用。

办法是对所有要作变换的值，都乘以同一个确定值然后再都加上另一个确定的值。

项目区分度P=0、50被试能区分。

标准化常模参照测验目的是要尽可能把握住被试的个别差异，因此希望测验后所有被试的分数尽可能拉开距离，好中差被试都能得到相应的彼此有足够差异的分数。

测验项目的恰当难度应该是P值尽量接近0、50。

测验项目的难度取值接近0、50，项目难度的分布全距就狭窄，理想状态就是点状分布。

所以对一般常模参照测验，恰当难度就是P=0、50，测验所含项目的恰当难度分布，就是围绕P=0

、50，这个点尽量作窄全距分布，被试才能最好被区分。

项目区分度及确定：

项目区分度就是项目区别被试水平高低的能力的量度。

确定项目区分度是确定项目

区分度的标准是测验总分，要考察总分高的被试在该项目上是否也得高分，总分低的被试在该项目上是否也得低分即求取各个项目上被试的题分与测验总分的相关。

测验信度及影响信度的因素：

测验信度就是测验在测量它所测特质时得到的分数的一致性，它是对测验控制误差能力的量度，是反映测验性能的一个重要的质量指标。

因素有：

1、测验项目抽样不妥或语言表达引起误解。

2、施测环境影响。

3、施测时指导语、完成时限、主被式关系的影响。

4、评分过程的偏向于误差。

效度种类，内容效度：

测验项目构成应测行为领域代表性样本的程度。

效标关联效度：

测验预测个体在类似或某种特点情景下行为表现的有效度。

结构效度：

测验测得心理学理论所定义的某一心理结构或特质的程度。

学业成就测验分类及用途：

安置性测验-学期教学或单元教学开始，确定学生实有水平针对性作好教学安排。

学生是否具备成功学习这一课程或单元必须的基本知识和技能；对于学习的内容，已经了解和掌握那些内容，提示教师处理教材；不同学生的学习能力兴趣习惯特点是什么，提供教学模式教学安排。

形成性测验-教学进行过程中用于检查学生掌握知识和进步情况。

覆盖单元中有限的学习内容，用于改进学习和教学。

为师生双方提供有关学习成败的连续反馈信息。

对成功的学习起强化作用；暴露学习中不足以便改正与完善。

诊断性测验-探测与确定学习困难原因。

区别-注重于与诊断相关的目标，对每一特定的目标需要包括大量题目，每个题目之间只有很小的差别。

测验题目依据于对成功学习特殊技巧的详细分析以及常见的学习错误的分析研究。

题目难度较低，重在确定学生所犯学习错误的类型以及学习困难根源所在。

限于课堂教学中有限部分内容，按若干部分的测验分数与测验记录来分析。

终结性测验-课程结束或教学大周期结束，确定教学目标达到程度和学生对预期学习结果掌握程度的测验。

目的-对学生的学习作出全部的检查总结，平定分数或等级；评价教师教学的有效性；预测学生以后学习情况。

特点-包含广泛的教学内容，是一门课程或一个学期教学内容的有效抽样。

具有更高的概括水平，不仅检查基本术语概念原理方法的掌握，还要从教学内容教学目标上检查运用知识分析解决问题的综合能力。

题目内容有广泛性和代表性。

题目的难度分布全距相对大一些。

常模参照测验—参照着常模使用相对位置描述测验成绩水平的一种测验。

鉴别与评价学生的能力发展水平，有利于个别差异的诊断与研究。

用于教育工作中的选拔与分馏的决策。

标准参照测验—跟一组规定明确的知识能力标准或教学目标内容对比时，对学习者的测验成绩做出解释的测验。

用途—说明学习者掌握所规定的教学内容的程度，以便做出掌握和未掌握，合格和不合格的分类决策。

通过标准参照测验给学习者一个成绩，提供出学习者学习经历和已达水平的证明资料。

评价课堂教学与课程编制的有效性。

口头测验：

使用特定语言回答问题的能力；综合有关信息提出问题的能力；阐述观点为自己的观点作解释与辩护的能力；口头表达时思维及概括能力；知识理解的广度与深度；态度气质情感的特殊表现。

方法-高声朗读；教师提问；题目签中随即抽选回答；按预设问题发言；小组讨论随意发言；一般会谈；根据图片或设置的情景讲故事；角色扮演。

纸笔测验：

提高测验效率，大团体测验；完整记录学生在题目上做答的反应；便于实测和平分过程的规范化标准化，提高学业成就测验的信度和效度；便于对测验题目信息做分析。

缺点—不能对学生的回答或观点做及时的询问，测量的教学目标，局限于认知领域，对于动作技能情感目标难以测量，对发展性目标中的心智技能重视不够。

操作测验：

实践性为主原则、全面性原则、客观化原则。

编制命题双向细目表的步骤：

关于考试和考查目标的双向列联表，是关于一门课程教学内容和掌握层次两个维度下的考试。

编制命题细目表通常以教学大纲或考试大纲为依据，主要步骤是1、确定考试内容要目并把它排列在表中最左边一栏上。

按教材章节名称罗列；根据教学内容知识块罗列。

2、界定该科目考查的掌握目标层次从低到高排在表中顶端第一行有关格子上。

3、确定各项考试内容要目下的分数比重。

4、把每一项考试内容的分数比重逐一分配到若干必要的考查目标即掌握层次上去，形成网格的分数分配方案。

心理测验：

通过对一组标准刺激所引起的行为样组的客观分析，对人们的心理特征及个别差异进行估测、描述和诊断的方法。

瑞文标准推理测量的特点：

张厚粲教授主持，根据英国心理学瑞文1938年设计的“标准图

形渐进测验”修订的一种非文字智力测验。

适用的年龄范围宽，测验对象不受文化、种族与语言的限制，还可以用于生理缺陷者。

测验可个别进行，也可团体实施。

适用方便，省时省力，结果解释直观简单，测验具有较高的信度与效度。

显著性水平：

在统计假设检验中，公认的小概率实践的概率值被称为统计假设检验的显著性水平。

α值常取两个水平.α值小，假设检验的显著性水平高。

小概率事件：

概率取值小于0.05或小于0.01的随机事件。

假设检验的步骤：

1、根据题目的设问提出检验假设。

2、选定显著性水平a。

3、根据检验目的和已知条件找到相应的抽样分布。

4、写出检验统计量计算公式并按已知数据条件计算检验统计量值。

5、根据显著性水平在抽样分布中确定临界值和危机域。

6、将求得的检验统计量值域临界值作比较，根据其是否进入危机域作出是否拒绝虚无假设的统计结论。

单侧检验：

为了推断某个总体参数是否大于或小于某个定值，或者是为了推断某两个总体参数之间有无大于或小于的关系的检验。

在抽样分布的一个尾侧设有临界值。

危机域只有一块。

双侧检验：

为了判断某个参数是否等于某个定值，或者是为了推断某两个参数是否相等的检验。

统计决策的两种错误，控制降低犯错误的因素：

在统计假设检验决策时可能犯的错误由两种类型：

一种是虚无假设属真而被拒绝的错误。

这种错误统计上称为I型错误，又称为“拒真”错误。

另一种是虚无假设实伪而未被拒绝的错误，称为Ⅱ型错误，又称为“纳伪”错误。

要降低犯I型错误就是提高显著性水平即减少a的值，降低犯Ⅱ型错误就要加大样本的容量。

判断相关样本和独立样本：

相关样本就是两总体相关系数不等于0，独立总体就是两总体的相关系数等于0，在实际检验中，我们依据这两种情况来判断相关样本与独立样本。

х2统计量公式及意义：

х2是°检验实际观测次数与理论期待次数之间差异程度的指标，表达式X2=ΣΚ（ƒΟ-ƒe）/ƒeƒo表示实际观测的次数，ƒe表示理论期待次数；连加和Σ号上方的字母K表示K组数据连加。

X2检验的作用及步骤：

既适合于有参数的统计检验，也适合于无参数的统计检验。

作用是基于实际观测次数和理论期待次数之间差异度的统计量实得值得概率考察。

一是检验某抽样观测数据得分布是否与某一理论分布相一致，即总体分布得拟合良度检查。

二是检验双向分类列联表数据下，两个分类特征之间是彼此相关还是相互独立的问题，即独立性检验。

步骤：

1、根据所存在的问题，提出虚无假设（Hο）。

2、最重要最关键一步是如何从虚无假设（Hο）出发，确定各类事物的理论期待次数。

一般要求任何一类的理论次数不应小于5。

3、根据X2统计量公式计算实得的X2值。

4、选取适当显著性水平а值，确定自由度df，在X2值表中找到临界值X2。

5、作出接受虚无假设或拒绝虚无假设的统计决策。

原则：

当公式确定的实得X2值大于临界值X2a，可拒绝虚无假设（Hο），并接受研究假设（Ha）。

当公式确定的实得X2值小于临界值X2a时，没有充分理由拒绝虚无假设（Hο），暂认为虚无假设是成立的，把虚无假设接受下来。

X2检验的自由度确定：

在确定自由度时，组数K我们已经明确，但约束条件取决于计算理论次数时附加的约束条件，或者说取决于零假设的建立，如果零假设中所指的正态分布是已知平均数µ和标准差a的分布，主要约束条件就只剩下要求具有相同的个总数n这一条，这时就有自由度DF=K-1。

心理测验用途：

1、人才选拔。

借助科学的心理测验方法，可以极大地提高选拔人才的准确性和效率。

2、人员安置与人事管理。

不同的职业活动，要求的心理素质不尽相同；不同的个体，心理差异是客观存在的。

人有其长也有其短。

劳动人事部门要根据人的心理特点与特长分配工作。

3、学校心理服务。

把心理学与传统德育工作方法相结合优势互补，收集学生心理资料，了解其心理特点和个别差异；了解与评估学生能力结构及发展水平，探测职业能力倾向，开发天赋；了解特殊学生个体在特定环境下的心理问题。

5、建立和检验假设。

运用心理测验获取资料，验证研究人员提出的有关路论假设，通过对测验资料的科学分析，提出一些新的理论构想；研究行为与变量因素之间的联系模式，提出心理特征性和行为机制的理论构建。

三、问答题

1客观题的主要优缺点是什么？

优：

客观；信息量大，覆盖面广；误差小信度高；适合测量明确的知识点。

缺点：

难测高层次的心智技能；不易测文字表达和创新思维能力。

2试述教育测量与教育评价之间的关系。

教育测量与教育评价之间有联系有区别；教育测量侧重于量的规定性方面去把握事物；教育评价关注价值判断，包括优缺点分析；教育测量是教育评价的基础；评价又是教育测量的延伸和功能释能；有些情况下教育测量本身就是系统的教育评价过程。

3为什么说教育测量与评价在教育中有着重要作用？

在教育系统中对实现教育目标起重要的作用；是课程改革的重要组成部分；教育改革常常把测量与评价的改革或反思作为突破口。

4请以你熟悉的一门课程试卷为例谈一下怎样制作命题双向细目表？

以教学内容和目标分类为维度并结合某门课程列出命题双项细目表，举例略

5当前学校的学生课业考评存在哪些主要问题？

过于强调选拔、方法单一、考评抽象和表征化。

6、为什么说教育测量与评价是教师必备的知识技能?

正确评价学生是教师的一种职业能力；教师需要测量与评价的方法弥补非正式观察和书面考试的不足；实践证明评价是所有成功教学的基础；发达国家教师教育普遍学习教育测量与评价之类的课程。

7、怎样分析一份试卷的内容效度？

是根据教育教学特性编制的,由评价指标、指标权重和评价标准等构成的工具。

8、什么是教育测量？

什么是教育评价？

教育测量是针对学校教育影响下学生各方面的发展，侧重于量的规定性予以确定和描述的过程;教育评价是按照一定的价值标准和教育目标，利用测量和非测量的种种方法系统地收集资料信息，对学生的发展变化及其影响学生发展变化的各种要素进行价值分析和价值判断，并为教育决策提供依据的过程。

9、按解释结果的参照点分类，教育测量与评价可分为哪几类？

并具体解释一下。

常模参照测量与评价、标准参照测量与评价和潜力参照测量与评价。

常模参照测量与评价是将被试的水平与测验常模相比较，以评价被试在团体中的相对位置的一种测量与评价类型；标准参照测量与评价是将被试的表现与既定的教育目标和行为标准相比较，以评价被试在多大程度上达到该标准的一种测量与评价；潜力参照测量与评价是将被试实际水平与其自身潜在水平相比较，以评价其有无充分发挥自身潜力为目的。

10．简述深刻理解教育测量必须抓住的三个要点。

答：

（1）测量的结果就是给所测对象在一定性质的量尺上指定值；

（2）要达到这个目的就要按一定规则来进行一系列工作；（3）工作如何进行和能在什么性质量尺上指定值，归根到底取决于所测对象本身的性质。

11．举例说明什么是绝对评分分数。

答：

教育工作是一种有组织有目的的活动，要努力追求教育目标的达成。

所以，在学校里拿被试在测试上的测值，去跟所测特性的应有标准作比较的事是很多的。

很显然，这时测验分数的意义，就完全取决于实得测值与应有标准的关系了。

如果达到了要求，就是“合格”的或“已达标”的；如果未达到要求，就是“不合格”或“未达标”的。

这里，全然不管其他被试在同一测验上所得测值如何，他们达标与否丝毫不影响被试测验分数意义的确定。

这种通过拿被试测值跟应有标准作比较来确定其意义的分数，就叫绝对评分分数。

12.简述影响Ⅱ型错误的主要因素。

答：

影响Ⅱ型错误概率大小的因素有三个，

（1）第一个因素是客观的真值与假设的伪值两者之间的差异。

（2）影响Ⅱ型错误概率大小的第二个因素是a值的大小。

（3）影响Ⅱ型错误概率大小的第三个因素是样本容量。

展开阅读全文