心理学统计总结.docx
《心理学统计总结.docx》由会员分享,可在线阅读,更多相关《心理学统计总结.docx(34页珍藏版)》请在冰点文库上搜索。
心理学统计总结
心理与教育学统计
第一章.绪论
一.统计方法在心理和教育科学研究中的研究
1.心理与教育统计的定义与性质
(1)定义:
是专门研究如何运用统计学原理和方法,搜集、整理、分析心理与教育科学研究中获得的随机性数据资料,并根据这些数据资料传递的信息,进行科学推论找出心理与教育活动规律的一门学科。
(2)数理统计学:
分析这种随机变量的规律性,它的理论基础是专门研究随机现象的科学——概率论,侧重于基本原理与方法的科学证明。
心理与教育统计:
侧重于数理统计方法如何在心理和教育科学研究中的应用,是心理与教育科学研究中最广泛应用的,也是最基本的一种定量化工具。
2.数据特点:
多以数字形式呈现、随机性、规律性、研究目的是通过部分数据来推测总体特征。
二.心理与教育统计学的内容
1.描述统计:
主要研究如何整理心理与教育科学实验或调查得来的大量数据,描述一组数据的全貌,表达一件事物的性质。
具体内容:
数据如何分组(统计图表)、计算一组数据的特征值(集中量数、差异量数)、表示一事物两种或两种以上属性间相关关系的描述。
2.推论统计:
研究如何透过局部数据所提供的信息,推论总体的情形。
推论统计的原理和理论包括:
抽样理论、估计理论、统计检验理论。
3.实验设计
三.心理与教育统计学基础概念
1.数据类型:
(测量方法和来源):
计数数据和计量数据
(测量水平)称名数据、顺序数据、等距数据、等比数据。
(连续性)离散数据:
任何两个数据点之间所取得数值的个数是有限的。
连续数据:
任何两个数据点之间都可以细分出无限多个大小不同的数值。
进一步细分,取决于:
测量技术所允许的精确程度、测量所需要的精确程度。
2.变量、观测值、随机变量
变量:
在心理与教育实验、观察、调查中想要获得的数据,即为一个可以取不同数值的物体的属性或事件,其数值具有不确定性。
观测值:
一旦确定了某个值,就称这个值为某一变量的观测值,也就是具体数据。
随机变量:
在统计上,把取值之前不能预料到取什么值的变量,就称为随机变量。
2.总体、样本
3.次数、比率、频率、概率
次数:
指某一事件在某一类别中出现的数目,又称为频数。
(f)
4.参数、统计量。
第二章.统计图表
一.数据的初步整理(排序和统计分组)
1.统计图和统计表就是对数据进行初步整理,以简化的形式加以表现的两种最简单的方式。
2.在对数据进行统计分类以后,得到的各种数据结果成为统计指标。
把统计指标和被说明的事物之间的关系用表格的形式表示就成为统计表。
统计图是一句数据资料,应用点线面体色等描绘而成。
二.次数分布表
1.(所显示的次数如何产生)简单次数分布表、分组次数分布表、相对次数分布表、累加次数分布表。
2.分组次数分布表的步骤:
(1)求全距:
指最大数与最小数两个数值之间的距离。
(2)决定组距与组数:
K=1.87(N—1)2/5,i=全距/K
(3)列出分组区间:
即一个组的起点值和终点值之间的距离,又称组限。
表述组限和精确组限。
注:
在列出的分组区间内,最高区组应包含最大的数据,最低组应包含最小的数据;最高组或最低组的下限正好是组距i的整数倍。
(4)登记次数。
(5)计算次数。
3.分组次数分布表的栏目:
第一列:
分组区间。
第二列:
各分组区间的组中值。
第三列:
次数。
4.归组效应:
由于用分组数据编制次数分布表时,假设各区组的数据均匀分布,并用各组的组中值代表原始数据,而不管数据原来的情况所造成的误差。
三.次数分布图
1.直方图(等距直方图):
是以矩形的面积表示连续性随机变量次数分布的图形。
2.次数多边形图:
一种表示连续性随机变量次数分布的线性图,以每个分组区间的组中值为横坐标,以各组的次数为纵坐标标点,连接各点,就成为一条折线。
3.累加次数分布图:
累加直方图和累加曲线图。
累加曲线图又称递加线,它的画法同次数多边形基本相同,不同是横坐标为每分组区间的精确上限或精确下限,纵坐标是各分组的累加次数。
正偏态(上枝长于下枝):
说明大数端各组次数偏少,且组数较多,各组的次数变化小。
负偏态(下枝长于上枝):
说明小数端各组次数偏少,且组数较多,各组的次数变化小。
正态:
相同。
四.其它类型统计图表
1.其他常用的统计表:
(1)简单表:
只列出名称、地点时序或统计指标名称的统计表。
(2)分组表:
只有一个分类标志的统计表,也称单向表。
(3)复合表:
统计分类的标志有两个或两个以上的因素。
2.其他常用的统计图:
(1)条形图(直条图):
主要用于表示离散型数据资料,即计数资料。
它以条形的长短表示各事物数量的大小与数量间的差异情况。
(简单条形图、分组条形图、分段条形图)
与直方图的差别:
①描述的数据类型不同。
②表示数据多少的方式不同。
③坐标轴上的标尺分点意义不同。
④图形直观形状不同,条形图之间有间隔。
(2)圆形图:
主要用于描述间断性资料,目的是为了显示各部分在整体中所占的比重大小,以及各部分之间的比较。
(3)线性图:
更多用于连续性资料,凡欲表示两个变量间的函数关系,或描述某种现象在时间上的发展趋势,或一种现象通过另一种现象变化的情形,用线性图表示是最好的方法。
(4)散点图
第三章.集中量数
一.算术平均数(M)
1.平均数的计算方法:
(1)未分组:
①②
(2)分组:
2.特点:
(1)在一组数据,每个变量与平均数之差(离均差)的总和等于零。
(2)在一组数据中,每一个数都加上常数C,则所得的平均数为原来的平均数加常数C。
(3)在一组数据中,每一个数都乘以常数C,则所得的平均数为原来的平均数乘以常数C。
3.意义:
算术平均数是应用最普遍的一种集中量数,它是“真值”渐进、最佳的估计值。
4.优缺点:
(1)优点:
①反应灵敏。
②计算严密。
③计算简单。
④简明易懂。
⑤适合用进一步代数方法演算。
⑥较少受抽样变动的影响。
(2)缺点:
①易受极端数据的影响。
②若出现模糊不清的数据时,无法计算平均数。
(3)在书写平均数时,习惯上平均数保留的小数位数要比原来的测量数据多一位数字。
5.计算和应用平均数原则:
(1)同质性原则:
所谓同质性数据是指使用同一个观测手段,采用相同的观测指标,能反映某一问题的同一方面特质的数据。
(2)平均数与个体数值相结合的原则。
(3)平均数与标准差、方差相结合的原则。
二.中数(Md、Mdn)
1.定义:
又称中点数、中位数、中值。
中数是按顺序排列在一起的数据中居于中间位置的数,即在这组数据中,有一半的数据比它大,有一半的数据比它小。
2.计算;
(1)未分组:
①无重复数据。
②有重复数据。
(2)分组:
3.优缺点:
(1)优点:
是根据观测数据计算来的,不是凭主观臆断,计算简单,容易理解,概念简单明白。
(2)缺点:
①中数的计算不是每个数据都加入,其大小不受制于全体数据。
②反应不够灵敏,极端值的变化对中数不产生影响。
③中数受抽样影响较大,不如平均数稳定。
④计算时需要对数据先排列大小。
⑤中数乘以总数与数据的总和不相等。
⑥中数不能做进一步代数运算。
4.一般情况下,中数不被普遍应用,但在一些特殊情况下,它的应用应受到重视:
(1)当一组观测结果中出现的两个极端数目时。
(2)当次数分布的两极端数据或个别数据不清楚时,只能取中数作为集中趋势的代表值。
(3)当需要快速估计一组数据的代表值,也常用中数。
三.众数(Mo)
1.定义:
又称范数、密集数、通用数等。
中数指次数分布中出现次数最多的那个数的值。
2.计算:
①直接观察求中数。
数据整理成次数分布表后,观察次数最多的那个分组区间的组中值为众数。
②公式:
Mo=3Md-2M(皮尔逊经验法)
3.优缺点:
(1)优点:
概念简单明了、容易理解。
(2)缺点:
①不稳定,受分组影响,亦受样本变动影响。
②计算式不需要每一个数据都加入,较少受极端数值影响,反应不够灵敏。
③用观察法得到的众数,不经过严格计算而来;用公式计算得来的众数亦只是一个估计值。
④众数不能做进一步代数运算。
4.运用:
(1)当需要快速而粗略地寻求一组数据的代表值。
(2)当一组数据出现不同质的情况时,可用众数表示典型情况。
(3)当次数分布中有两极端数目时,除了一般用中数外,有时也用众数。
(4)当粗略估计次数分布的形态时,有时用平均数与众数之差,作为表示次数分布是否偏态的指标。
第四章.差异量数
一.全距与百分位差
1.全距(R):
又称两极差。
R=Xmax-Xmin,最简单最易理解的差异量数。
2.百分位差:
(1)百分位数(百分位点):
它是指量尺上的一个点,在此点一下,包括数据分布中全部数据个数的一定百分比。
第P百分位数就是指其值为P的数据之下,包括分布中全部数据的百分之p,其符号为Pp。
(2)利用百分位数的计算公式也可以计算出任意分数在整个分数分布中所处的百分位置,成为该分数的百分等级。
百分等级是一种相对位置量数,它是百分位数的逆运算。
PR=80,意味着比79%的人要好,比20%的人要差。
3.四分位差(Q)
四分位差也可视为百分位差的一种,只在一次次数分配中,中间50%的次数的距离的一半,P25到P75距离的二分之一。
四分位差的计算基于两个百分位数,即P25和P75,这两个点值与中数一起把整个数据的次数等分为四部分,因此称它们为四分值,或四分位数。
P25是第一四分位数,P50为第二四分位数,P75为第三四分位数。
四分位差是第三四分位数与第一四分位数差的一半。
二.平均数、方差与标准差
1.平均差(A.D.或M.D.)
离均差表示了一个观测值与平均数的距离大小,正负号说明了重量施与什么方向,离均差的总和为零,标志着完全平衡,有时称为偏差或离差。
平均差的优缺点:
优点:
是根据分布中每一个观测值计算得到的,它较好地代表了数据分布的离散程度。
缺点:
要对离均差取绝对值,不利于进一步做统计分析,低效差异量数。
2.方差与标准差
(1)方差,也称变异数、均方。
(2)计算:
①未分组数据。
②分组数据。
(3)总标准差的合成
只有在应用同一种观测手段,测量的是同一种特质,只有样本不同时,才能应用上面的公式合成方差和标准差。
(4)性质与意义:
①性质:
方差是对一组数据中各种变异的总和的测量,具有可加性和可分解性特点,统计实践中利用方差的可加性去分解和确定属于不同来源的变异性(组内、组间等),并进一步说明各种变异对总结果的影响。
标准差是一组数据方差的平方根,特性:
每一个观测值都加一个相同常数C,计算得到的标准差等于原标准差。
若乘以C,则等于原标准差乘以C。
②意义:
方差与标准差是表示一组数据离散程度的最好指标,它们是统计描述和统计推断分析中最常用的差异量数。
在描述统计统计中,只需要标准差就足以说明一组数据的离中趋势。
③优点:
具备一个良好的差异量数应具备的条件:
反应灵敏、计算严密、容易计算、适合代数运算、受抽样变动影响小、简单明了。
注:
切比雪夫定理指出,随机变量落在平均值附近的概率与标准差有一定的数量关系,对于任何一个数据集合,至少有(1-1/h2)的数据落在平均数的h个标准差之内。
如果数据成正态,则数据将以更大的百分数落在平均数两侧
三.标准差的应用
1.差异系数
(1)绝对差异量:
标准差的单位与原数据的单位相同。
相对差异量:
最常用的有差异系数,又称变异系数、相对标准差等。
(CV)
注:
在下列情况中,不能直接比较标准差:
①两个或两个以上样本所使用的观测工具不同,所测的特质不同。
②两个或两个以上样本使用的是同一观测工具,所测的特质相同,单样本间的水平相差很大(从平均数大小明显不同确定)
(2)差异系数:
CV=s/X×100%
应用于:
①同一团体不同观测值离散程度的比较。
②对于水平相差较大,但进行的是同一种观测的各种团体,进行观测值离散程度的比较。
应用差异系数比较相对差异大小,一般应注意:
①测量的数据要保证具有等距尺度。
②观测工具应具备绝对零。
③差异系数只能用于一般的相对差异量的描述,至今尚无有效的假设检验方法,因此对差异系数不能做统计推论。
2.标准分数:
又称Z分数或基分数,是以标准差为单位表示一个原始分数在团体中所处位置的相对位置量数。
0为平均数,1为标准差。
(1)标准分数的性质:
①Z分数无实际单位,是以平均数为参照点,以标准差为单位的一个相对量。
②一组原始分数转换得到的Z分数可以是正值,也可以是负值,平均数为0。
③一组原始分数中,Z分数的标准差为1.④若原始分数成正态分布,则转换的Z分数为均值为0,标准差为1的标准正态分布。
(2)优点:
可比性、可加性、明确性、稳定性。
缺点:
计算繁杂、有负值和零、有小数。
第五章.相关关系
一.相关、相关系数与散点图
1.相关系数:
两列变量间相关程度的数字表现形式,或者说是用来表现相关关系强度的指标。
相关系数取值的大小表示相关的强弱程度,绝对值靠近1.00端,一般为相关程度密切,接近0端,一般为关系不够密切。
①在判断相关是否密切时,要把样本量大小与相关系数取值大小综合起来考虑,一般要通过统计检验方法,来确定变量之间是否存在显著的相关。
②若是非线性相关关系,而且用直线相关计算r值可能非常小,但不能说两变量关系不密切。
3.散点图:
散点图通过点的散布形状和疏密程度来显示两个变量的相关趋势和相关程度,能够对原始数据的关系做出直观而有效的预测和解释。
是确定变量之间是否存在相关关系以及关系紧密程度的简单而又直观的方法。
二.积差相关(皮尔逊相关、积矩相关)
1.是一种运用较为普遍的计算相关系数的方法,也是解释两个变量线性相关方向和程度最常用和最基本的方法。
2.条件:
①成对测量数据,且不少于三是对。
②正态双变量。
③连续变量。
④线性关系。
3.基本公式:
4.相关系数的合并:
Z-r转换法。
注:
必须保证各样本接近,研究的两事物相同,使用的测量工具也应相同。
及要求各样本同质性,同质性检验是合并相关系数的前提。
三.等级相关
1搜集到的数据不是等距或等比的测量数据,而是具有等级顺序的测量数据。
2等距或等比,但其分布不是正态分布,不能满足积差相关的要求。
注:
对总体变量的分布不作要求,故又称这种相关法为非参数的相关方法。
1.斯皮尔曼等级相关(rR、rS)
(1)适用资料:
①两列属于等级变量性质的具有线性关系的资料。
②等距等比资料,不考虑正态。
(2)公式及校正公式
2.肯德尔等级相关
(1)W系数(和谐系数)(评分者信度)
①适用资料:
是表示多列等级变量相关程度的一种方法,适用于两列以上的等级变量。
②W是每一评价对象实际得到的等级总和的变异与被评价对象最大可能变化的等级总和的变异的比值。
③公式及校正公式
(2)U系数(一致性系数)
①公式
3U的取值:
①若完全一致则U=1.
②若对角线上下格子中出现的择优分数相同,则一致性最小,但其值不是零。
K为奇数(U=—1/K)。
K为偶数U=—1/(K—1)
一致性系数U的取值与其他相关系数的取值不同,可见,一致性系数U的取值“+”和“—”并不表示相一致的方向,这点与一般的相关系数不同。
四.质与量相关
①一列为等比或等距的测量数据,另一列为按性质划分的类别。
②二列变量:
按事物的某一性质划分的只有两类结果的变量。
(真正的二分变量、人为的二分变量)
1.点二列相关
①适用资料:
有一列为等距或等比测量数据,而且其分布为正态分布,另一列为二分称名变量。
②点二列相关法就是考察两列观测值,一个为连续变量(点数据),另一个为二分称名变量(二分数据)之间相关程度的统计方法。
多用于评价由是非测验题目组成的测验的内部一致性问题。
③公式
2.二列相关
①适用资料:
两列数据都属于正态分布,其中一列为等距或等比的测量数据,另一列变量是人为划分的二分变量。
②公式
五.品质相关
用于表示R×C(行×列)表的两个变量之间的关联程度,在编制心理测验,进行项目分析时,它是常用的相关方法。
品质相关处理的数据类型一般是计数数据而非测量数据。
1.四分相关
①适用资料:
适合于计算两个变量都是连续变量,且每一个变量的变化都被人为地分为两种类型这样的测量数据之间的相关。
计算四分相关的资料会整理成四格表。
四格表的二因素都是连续的正态分布。
②公式
2.Φ相关(列联表系数)
①适用资料:
两个相互关联的变量分布是真正的二分变量,在这两个分布中间各有一个真正的缺口
②公式
③Φ相关系数的大小,表示两因素之间的关联程度。
当小于0.3时,表示相关较弱,当大于0.6时,表示相关较强。
关于其相关方向,一般由表中的ad、bc的大小来说明,负值表示一次测量中的是多于另一次测量中的非。
完全正相关的,全体个案落于ad两格中;完全负相关的,落于bc格中;零相关时,全体个案均匀落在四格之中。
但在应用Φ相关时,一般不指出相关方向,只能说明相关程度非常显著。
④对于四格表(独立样本)相关程度的描述,除了使用Φ相关外,有时还使用其他方法,例如尤尔的关联系数Q或归结系数r
第六章.概率分布
一.概率分布的基本概念
1.概率:
表示随机事件出现可能性大小的客观指标。
2.先验概率
后验概率:
在对随机事件进行n次观测时,其中某一事件出现的次数m与观测次数n的比值。
当n趋向无穷大,它将稳定在一定的常数上,这一常数被称作概率。
3.基本性质:
(1)概率的公理系统:
①任何一个随机事件A的概率都是非负的。
②在一定条件下必然发生的必然事件的概率为1。
③在一定条件下必然不发生的事件,即不可能事件的概率为0.注:
公理②③的逆定理不成立,即概率等于1的某个事件,并不能被断定为必然事件,只能说它出现的可能性非常大。
(2)概率的加法定律(互不相容)
(3)概率的乘法定律(相互独立)
4.概率分布类型:
离散分布和连续分布、经验分布和理论分布、基本随机变量分布和抽样分布。
二.正态分布
正态分布也称常态分布或常态分配,是连续性随机变量概率分布的一种,是在数理统计的理论和实际应用中占有最重要地位的一种理论分布(高斯分布)
1.正态分布曲线函数
2.正态分布的特征:
(1)正态分布的形式是对称的(但对称不一定是正态的),它的对称轴经过平均数点的垂线,正态分布中平均数、中数、众数三者相等。
(2)正态分布的中央点(平均数点)最高,然后逐渐向两侧下降,曲线的形式是先向内弯,然后向外弯,拐点位于正负一个标准差处,曲线两端想靠近基线处无限延伸,但终不能与基线相交。
(3)正态曲线下的面积为1,正态曲线下的面积可视为概率,其值为每一横坐标的随机变量出现的概率。
(4)正态分布昰一族分布,它随随机变量的平均数、标准差的大小与单位不同而有不同的分布形态,如果平均数相同,标准差大的正态分布曲线形式低阔,标准差小的正态分布曲线形式高狭。
(5)正态分布中各差异量数间有固定比率。
(6)在正态分布曲线下,标准差与概率有一定的数量关系。
3.标准正态分布:
所有的正态分布都可以通过Z分数公式非常容易得转换成标准正态分布。
4.正态分布表的编制和使用
(1)依据Z分数求概率(p)。
(2)从概率求Z分数。
(3)已知概率或Z值,求概率密度y
5.次数分布是否正态的检验方法
对分布曲线是否为正态分布的拟合检验方法是卡方检验。
除此之外,还有些简单的方法,如累加次数曲线法、偏态峰态数量描述法、直方图法、概率纸法等。
(1)皮尔逊偏态量数法
皮尔逊发现,在偏态分布中平均数距中数较近而离众数较远,根据平均数与中数或众数的距离,提出一个偏态量数公式,用来描述分布形态。
(2)峰度、偏度检验法(数量足够大)
(3)累加次数曲线法
6.正态分布理论在测验中的应用。
(1)化等级评定为测量数据
(2)确定测验的难易程度
(3)在能力分组或等级评定时确定人数
(4)测验分数的正态化
三.二项分布(贝努里分布)
1.二项试验与二项分布
(1)二项试验又称贝努里试验,条件:
①任何一次试验恰好有两个结果,成功与失败或A与非A。
②共有n次试验,并且n是预先给定的任一正整数。
③每次试验各自独立,各次试验之间无相互影响。
④某种结果出现的概率在任何一次试验中都是固定的。
(2)二项分布是指试验仅有两种不同性质结果的概率分布,即各个变量都可归为两个不同性质中的一个,两个观测值是对立的,因而二项分布又可说是两个对立事件的概率分布。
二项分布的具体定义为:
设有n次试验,各次试验是彼此独立的,每次试验某事件出现的概率都是p,某事件不出现的概率都是q(1—p),则某事件出现X次的概率分布为b(x.n.p)
2.性质
二项分布是离散型分布,概率直方图是跃阶式,因为X为不连续变量,用概率条图表示更合适,用直方图表示只是为了形象。
(1)当p=q时,图形是对称的。
(2)当p≠q时,直方图呈偏态。
当n很大,即使不相等,偏态逐渐降低,最终成正态分布,二项分布的极限分布是正态分布。
当p<p,np≧5,或p>q,nq≥5时,二项分布就可以当做一个正态分布的近似形,二项分布可以用正态分布的概率作为近似值。
(3)二项分布的平均数与标准差
3.应用
二项分布在心理与教育研究中,主要用于解决含有机遇性质的问题。
所谓机遇问题,是指在实验或调查中,实验结果可能是由于猜测造成的。
二项分布用来区分由猜测而造成的结果与真实的结果之间的界限。
四.样本分布
样本分布指样本统计量的分布,它是统计推论的重要依据,常用的样本分布有平均数及方差的分布。
在谈及样本统计量的分布时,首先要保证各个样本是独立的,各个样本都服从同样的分布。
(随机抽样)
第七章.参数估计
总体参数估计:
当在研究中从样本获得一组数据后,通过这组信息,对总体特征进行估计。
对参数模型下的估计,称为参数估计,非参数模型下的估计,称为非参数估计。
一.点估计、区间估计和标准误
1.点估计:
用样本统计量来估计总体参数,因为样本估计量为数轴上某一点值,估计的结果也用一个点的数值来表示,所以称为点估计。
良好点估计的标准:
①无偏性:
即用多个样本的统计量作为总体参数的估计值,其偏差的平均数为零。
②有效性:
当总体参数的无偏估计不止一个统计量时,无偏估计变异小者有效性高,变异大者有效性低,即方差越小越好。
③一致性:
当样本容量无限增大时,估计值应能够越来越接近它所估计的总体参数,估计值越来越精确,逐渐趋近于真值。
④充分性:
指一个容量n的样本统计量,是否充分反映了全部n个数据所反映总体的信息。
2.区间估计:
是根据样本分布理论,样本分布的标准误(SE),计算区间长度,解释总体参数落入某置信区间可能的概率。
存在成功估计的概率大小及估计范围大小两个问题,在保证置信度的前提下,尽可能提高精确度。
区间估计的原理是样本分布理论,在计算区间估计值,解释估计的正确概率时,依据的是该样本统计量的分布规律和样本统计量分布的标准误。
可提供概率解释决定区间估计的长度
二.总体平均数的估计
1.步骤:
(1)根据实得样本的数据,计算样本的平均数和标准差
(2)计算标准误
(3)确定置信水平或显著性水平
(4)根据样本平均数的抽样分布,确定查何种统计表
(5)计算置信区间
(6)解释总体平均数的置信区间
三.标准差与方差的区间估计
第八章.假设检验
1.假设检验:
通过样本统计量得出的差异做出一般结论,判断总体参数之间是否存在差异。
基本任务是事先对总体参数或总体分布形态做出一个假设,然后利用样本信息来判断原假设是否合理,从而决定是否接受原假设。
2.参数检验:
若进行参数检验对总体的分布形式已知,需要对总体的位置参数进行假设检验
非参数检验:
若对总体分布形式所知甚少,需要对未知分布函数的形式及其他特征进行假设检验。
一.假设检验的原理
1.H1(研究假设、备择假设):
根据已有的理论和经验事先对研究结果做出一种预期的希望证实的假设。