调查资料的统计分析.ppt

上传人:wj 文档编号:8780467 上传时间:2023-05-14 格式:PPT 页数:137 大小:1.06MB
下载 相关 举报
调查资料的统计分析.ppt_第1页
第1页 / 共137页
调查资料的统计分析.ppt_第2页
第2页 / 共137页
调查资料的统计分析.ppt_第3页
第3页 / 共137页
调查资料的统计分析.ppt_第4页
第4页 / 共137页
调查资料的统计分析.ppt_第5页
第5页 / 共137页
调查资料的统计分析.ppt_第6页
第6页 / 共137页
调查资料的统计分析.ppt_第7页
第7页 / 共137页
调查资料的统计分析.ppt_第8页
第8页 / 共137页
调查资料的统计分析.ppt_第9页
第9页 / 共137页
调查资料的统计分析.ppt_第10页
第10页 / 共137页
调查资料的统计分析.ppt_第11页
第11页 / 共137页
调查资料的统计分析.ppt_第12页
第12页 / 共137页
调查资料的统计分析.ppt_第13页
第13页 / 共137页
调查资料的统计分析.ppt_第14页
第14页 / 共137页
调查资料的统计分析.ppt_第15页
第15页 / 共137页
调查资料的统计分析.ppt_第16页
第16页 / 共137页
调查资料的统计分析.ppt_第17页
第17页 / 共137页
调查资料的统计分析.ppt_第18页
第18页 / 共137页
调查资料的统计分析.ppt_第19页
第19页 / 共137页
调查资料的统计分析.ppt_第20页
第20页 / 共137页
亲,该文档总共137页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

调查资料的统计分析.ppt

《调查资料的统计分析.ppt》由会员分享,可在线阅读,更多相关《调查资料的统计分析.ppt(137页珍藏版)》请在冰点文库上搜索。

调查资料的统计分析.ppt

项目九:

调查资料的统计分析,一、频数分布与频率分布,

(1)频数分布频数分布是指一组数据中取不同值的个案的次数分布情况。

它一般是以频数分布表的形式表达。

(见表1),频数分布表的作用:

A、简化资料。

将调查得到的杂乱的原始数据,以十分简洁的统计表反映出来。

B、清楚地了解调查数据的众多信息。

(2)频率分布:

一组数据中不同取值的频数相对于总数的比率分布情况。

常是以百分比的形式来表达。

(见表2)频率分布表:

是不同类别在总体中的相对数量分布。

能十分方便不同总体和不同类别之间的比较。

因此这种分布表的应用更为普遍。

例1,某班学生的年龄分布(频数),某班学生的年龄分布(频率),例2:

频数分布:

一组数据中取不同值的个案的次数分布情况(数量)频率分布:

一组数据中不同取值的频数相对于总数的比率分布情况。

通常以百分比的形式表达。

(相对数量),表9-1某班学生父亲的职业分布,表9-2某班学生父亲职业分布,例:

调查某年级150名学生的年龄得到下列结果:

频数分布,作用:

有助于明确未回答者的多少,同时也能显示不合格答案的多少;可以检验奇异值和极端值;根据频数分布可以划出各种统计图形。

二、单变量描述统计,单变量统计分析分两大方面,即,描述统计和推论统计。

描述统计的主要目的在于用最简单的概括性地反映出大量数据资料所容纳的基本信息。

它的基本方法包括:

集中量数分析和离散量数分析等。

推论统计的主要目的使用从样本调查中所得到的数据资料来推断总体的情况,主要包括:

区间估计和假设检验等。

(一)集中趋势统计指标均值/平均数(mean)众数(mode)中位数(median),

(二)离散程度指标全距/极差(range)方差(variance)标准差(standarddeviation),

(一)集中趋势分析,集中趋势分析指的是用一个典型值或代表值来反映一组数据的一般水平,或者说反映这组数据向这个典型值集中的情况。

最常见的集中量数有:

(1)算术平均数(简称平均数,也称为均值)

(2)众数(3)中位数。

(1)平均数:

平均数是使用得最多的集中量数。

平均数是指总体各单位数值之和除以总体单位数目所得之商。

统计分析中习惯以X来表示。

其计算公式如下:

Xn,从原始数据计算平均数,例:

某班10名学生的年龄分别为20、21、19、19、19、20、20、21、22、18、20岁,求他们的平均年龄。

从单值分组资料计算平均数,首先要将每一个变量值乘以对应的频数f,得出各组的数值之和,然后将各组的数值之和全部相加,最后除以单位总数。

XfXffn,青年人阅读小说书的数目,按照公式,可知每名青年人一年来读过9.4本小说书。

练习:

100名工人的收入资料如下,计算他们的平均工资。

表100名工人的收入分布,从组距分组资料计算均值,在调查收入、年龄等方面情况时,常常得到组距分组形式的资料,如我们知道各年龄段的人数,若要计算平均年龄就需要计算出各组的组中值,然后在按照单值分组资料计算平均数的公式计算。

组中值的计算公式为:

上限+下限2,例:

调查某企业100名职工的收入得到如下资料,请计算平均收入。

练习:

调查100名学生的成绩得到资料如下,求平均成绩。

表3100名学生的成绩分布,注意:

开口组的组中值,前面缺下限的开邻组组距口组的组中值2,后面缺上限的开口邻组组距组的组中值2,平均数的作用,能反映总体分布的集中趋势;能反映总体现象的共性特征;是总体分布的重要数量特征值;,小故事:

骗人的“平均数”,M:

吉斯莫先生有一个小工厂,生产超级小玩意儿。

M:

管理人员由吉斯莫先生、他的弟弟、六个亲戚组成。

工作人员由5个领工和10个工人组成。

工厂经营得很顺利,现在需要一个新工人。

M:

现在吉斯莫先生正在接见萨姆,谈工作问题。

吉斯莫:

我们这里报酬不错。

平均薪金是每周300元。

你在学徒期间每周得75元,不过很快就可以加工资。

M:

萨姆工作了几天之后,要求见厂长。

萨姆;你欺骗我!

我已经找其他工人核对过了,没有一个人的工资超过每周100元。

平均工资怎么可能是一周300元呢?

吉斯莫:

啊,萨姆,不要激动。

平均工资是300元。

我要向你证明这一点。

吉斯莫:

这是我每周付出的酬金。

我得2400元,我弟弟得1000元,我的六个亲戚每人得250元,五个领工每人得200元,10个工人每人100元。

总共是每周6900元,付给23个人,对吧?

萨姆:

对,对,对!

你是对的,平均工资是每周300元。

可你还是蒙骗了我。

吉斯莫;我不同意!

你实在是不明白。

我已经把工资列了个表,并告诉了你,工资的中位数是200元,可这不是平均工资,而是中等工资。

萨姆:

每周100元又是怎么回事呢?

吉斯莫:

那称为众数,是大多数人挣的工资。

吉斯莫:

老弟,你的问题是出在你不懂平均数、中位数和众数之间的区别。

萨姆:

好,现在我可懂了。

我我辞职!

(2)众数,众数是一组数据中出现次数最多(即频数最高)的那个数值。

众数与平均数一样也可用来概括反映总体的一般水平或典型情况。

众数的求法:

A、单值分组资料:

频数最大者所对应的标志值。

B、组距分组资料:

组中值法、摘补法。

单值分组资料先在频数栏中找出最大的频数,然后找到最大频数所对应的标志值,这一标志值即为众数。

众数是出现最频繁的数值,是分布中的高峰。

无众数数据:

10.34.98.911.76.37.7一个众数数据:

6.34.98.96.34.94.9一个以上的众数数据:

212828414343,组距分组资料(组中值法)首先通过直接观察找出最高的频数,然后根据最高的频数找到它所对应的组;最后求出该组的组中值即为众数。

例:

分类数据的众数,数据-分类数据M0商品广告,例:

顺序数据的众数,数据:

顺序数据M0不满意,众数(ode)特点:

不受极端值的影响;可能没有众数或有几个众数(不唯一性);主要用于分类数据,也可用于顺序数据或数值型数据。

确定众数根据所依据资料的不同会有两种情况,、根据原始数据或单变量值分组资料确定众数。

如果被研究总体单位数30,在对变量值由小到大排序后,就很容易找到众数。

若对原始数据按单变量值进行分组,得到次数分布,那么次数最大的变量值即众数。

、根据组距分组资料确定众数。

对总体比较大,离散型变量数值表现较多连续型变量,按组距分组形成次数分布。

由组距分组资料计算众数。

(3)中位数,把一组数据按值的大小顺序排列起来,处于中央位置的那个数值就叫中位数。

它描述的是定序变量以上层次的变量。

它的含义是整个数据中有一半数值在它之上,另一半数值在它之下。

计算公式为:

Md=(n+1)2,原始资料计算中位数计算方法是将各个个案由低到高排列起来,居序列中央位置的个案的值就是中位数。

例:

调查五个工厂的职工人数,按规模由小到大依次为200人,300人,500人,800人,1000人。

依据公式(5+1)2=3为中间位置,即所对应的数值500人即为中位数。

当数据为偶数时中位数处于中间两个数值之间,这时一般以中间两个数值的平均数作为中位数。

中位数是指把所有数据按照升序或降序排列后居中的数值。

如果数据为奇数项,中位数是中间位置的数值。

如果数据为偶数项,中位数是中间位置两个数值的平均数。

例:

数据:

10.34.98.911.76.37.7顺序:

4.96.37.78.910.311.7位置:

123456当总体单位数n为奇数时,当总体单位数n为偶数时,单值分组资料计算中位数当资料为单值分组数据时,也是先求出数据组的中间位置,然后再找出其对应值,但寻找方式需要注意(以表4为例)。

先计算中间位置:

(n+1)2=(80+1)2=40.5即中间位置在第40个数值与41个数值之间,为了找到这个位置,需要列出累计频数。

在序列中,可能有许多相同的数值。

若如是,可先统计次数分布,然后求出中位数。

如将某校的80名学生的成绩分为甲、乙、丙、丁四个等级,各级的人数(f)如表4所示。

中位数的位置是(n+1)/2=40.5,从累加次数(cf)很容易见到在这个位置上的值应在丙级内,故Md=丙。

表4学生的学业成绩,由组距分组资料求中位数具体方法是:

先列出累计频数,然后按同样的方法确定中位数所在的组,最后利用下述公式计算出中位数的值。

L为中位数所在组的下限值;Cf(m-1)为中位数所在组以上的累计频数;fm为中位数所在组的频数;i为中位数所在组的组距;n=全部个案数目。

表5各乡育龄妇女节育情况,如何根据表5的分组资料来计算中位数呢?

首先是将各组的次数(f)向上累加起来(cf),继而求出中位数的位置,(n-1)/2=(212-1)/2=105.5。

根据向上累加次数的分布,第105.5个位置的值应在25%至35%的组内。

既然中位数应在“25-35”组内,如何求出中位数呢?

将公式用于上例,就是L=25.5,fm=30,i=35.5-25.5=10,Cf(m-1)=94,n=212。

因此,中位数是:

换言之,在212个乡中,有半数乡的育龄妇女节育率低于29.5%,也有半数高于29.5%。

中位数具有估计或预测的意义。

如上例的节育率研究,假定从212个乡中任意抽取一个乡,我们估计其节育率是29.5%。

长远来说,以中位数去估计定序变项的数值,所犯的错误总数是最小的。

中位数特点:

不受极端值的影响;主要用于顺序数据,也可用于数值型数据,但不能用于分类数据,各变量值与中位数的离差绝对值之和最小,即,(4)中位数与平均数的比较,平均数要求计算所有的数值;而中位数只用到数值的相对位置。

一般来说平均数比中位数利用了更多的信息,更全面和准确。

平均数容易受到极端值的影响;中位数则不会受到这种影响。

平均数是一种比中位数更为稳定的量度,它随样本的变化比较少。

平均数要求定距以上变量;中位数要求定序以上变量。

总的说来,如要测量集中趋势,即找出一个最有代表性之值,定类变项的资料可用众数;定序变项可用众数,但以中位数较适宜,因为后者能够应用资料中所具有的等级数学性质。

定距变项以均值最适宜,因为它能应用资料中所具有的加减数学性质。

但是,有两种情况不宜用均值。

一种情况是在分组资料中的极端组没有组限时,不能求出均值,只能用中位数;另一种情况是变量中有个别的数值非常特殊,则均值的代表性就有疑问。

用中位数比较合适。

如有些地区的家庭贫富极为悬殊,计算平均收入就没有什么意义,可以改用中位数来表示地区的经济水平。

(二)离散量数分析,离散量数分析,是要求出一个值来表示个案与个案之间的差异情况。

这种分析法,与上节所讲的集中量数分析具有互相补充的作用。

集中量数分析是一个最能代表变量所有资料的值,但其代表性的高低却要视各个个案之间的差异情况。

如果个案之间的差异很大,则众数、中位数或均值的代表性就会甚低;在此情况下,如果以众数、中位数或均值作估计或预测,所犯的错误就会很大。

因此,对于每个变量的资料,我们要测量其集中趋势,也要测量其离散或差异的程度。

离散量数:

指用一个特别的数值来反映一组数据相互之间的离散程度。

作用:

与集中量数一起,共同反映资料分布的全面特征;对相应的集中量数的代表性作补充说明。

适用条件:

主要用于数值型数据,例1:

两人的5次测验成绩如下:

X:

50,100,100,60,50E(X)=72;Y:

73,70,75,72,70E(Y)=72。

平均成绩相同,但X不稳定,对平均值的偏离大。

对于一组数据整体,只有既用集中量数描述其平均水平和典型情况,又用离散量数反映其分散性、变异性等特殊情况,才能真实描绘出这组数据整体的全貌。

所谓离散量数,就是表示一组数据变异程度或分散程度的量数。

离散量数越大,表示数据分布范围越广,越不集中,越不整齐;反之,离散量数越小,表示数据分布范围越集中,变动程度越小。

常用的是:

(1)全距(也叫极差)

(2)方差(3)标准差(与平均数对应)(4)异众比率(与众数对应)(5)四分位差(与中位数对应)(6)离散系数。

(1)全距(极差)(ange)定义:

一组数据的最大值与最小值之差计算公式:

测量的是数据的分散程度,就是样本中最大值与最小值之差。

全距直接到奇异值的影响;反映标志值的变动范围;全距计算简便,易于理解,应用普遍。

全距的计算:

全距=最大标志值-最小标志值,全距的特征:

离散程度的最简单测度值;易受极端值的影响;未考虑数据的分布。

意义:

极差越大,在一定程度上说明这组数据的离散程度越大,集中量数的代表性越低。

(2)方差,方差是一种重要的离散量数,它的计算方法是,把一组数据中每个数据与该组算术平均数相减,将其差进行平方然后相加,再除以数据的个数。

如何计算一组数据的方差?

计算三个数据x1、x2,x3方差,计算三个数据x1、x2,x3方差,一般地,如果一组数据的个数是n,那么它们的方差可以用下面的公式计算:

当一组数据中的数较小时,用公式计算方差比公式计算少了求各数据与平均数的差一步,因此比较方便,练习:

计算下面数据的方差(结果保留到小数点后第1位):

3-121-33,当一组数据较大时,可按下述公式计算方差:

其中x1=x1-a,x2=x2-a,xn=xn-a;x1,x2,xn是原已知的n个数据,a是接近这组数据的平均数的一个常数,例:

甲、乙两个小组各10名学生的英语口语测验成绩如下(单位:

分):

哪个小组学生的成绩比较整齐?

(3)代入公式计算方差并比较得解,解题步骤,练习:

在某次数学考试中,甲、乙两校各8个班,不及格的人数分别如下:

分别计算这两组数据的平均数与方差,(3)标准差:

StandardDeviation一组数据对其平均数的偏差的平方的算术平均数的平方根。

(方差的算术平方根),标准差,分析定距变量的离散情况,最常用的方法是标准差(简写S),即将各数值(x)与其均值之差的平方和除以全部个案数目,然后取其平方根。

公式如下:

s=计算标准差,可以根据原资料,也可以根据分组资料。

标准差,标准差是最重要、应用最广泛的离散量数。

标准差的值越大,表明数据的离散程度越大,也就是数据的差异性越大,分布越不均匀;反之,标准差越小,则是数据的离散程度越小,数据的差异性越小,数据越整齐。

例:

某校3个系各选5名同学,参加智力竞赛,他们的成绩分别如下:

中文系:

78、79、80、81、82数学系:

65、72、80、88、95英语系:

35、78、89、98、100,标准差的计算

(1)根据原始资料计算,210+3120+450+520X=3.4人200,用原始资料求标准差,例题:

在调查甲地的十个乡的卫生情况时,发现每个乡的卫生户比率如下:

818141481512171219则标准差是3.6。

换言之,平均每乡有13.7%是卫生户,而反映各乡差异的标准差数值是3.6。

在这里要解释的是,标准差数值在相互比较中更能突出其意义。

例如,在调查乙乡的卫生户比率时,假定均值是18.5,标准差是1.7,对比之下,乙地各乡的差异程度小于甲地。

标准差有另一种意义,就是表示用均值作估计或预测变项值时所犯错误的大小。

(2)单值分组数据资料计算,例题:

某校三个系各选名同学,参加智力竞赛,他们的成绩如下:

中文系:

7879808182数学系:

6572808895英语系:

35788998100无论从团体总分来看,还是从平均分来看,这三个系代表队的成绩都是相同的。

那么,均值到底对哪一个代表队的代表性高呢?

用前面的公式可得:

中文系=1.414数学系=10.8英语系=23.8由此证明,平均成绩对中文系代表队的代表性最大,对英语系的代表性最小。

(3)组距分组资料计算:

先计算出各组的组中值,然后按单值分组资料计算公式和方法计算即可。

青年人阅读小说书的数目,按照公式,可知每名青年人一年来读过9.4本小说书。

用组距分组资料求标准差,公式是:

其中的Xm是每组的组中点,f是该组的次数。

例如,据前面的资料,可知17名青年人一年来阅读小说书数目的均值是9.4本。

彼此的差异情况可用标准差证明。

(4)异众率VariationRatio,含义:

一组数据中非众数的次数相对于总体全部单位的比率。

计算表3的异众率。

150-50VR=0.67=67%150,异众比率的意义与作用,意义:

众数所不能代表的其他数值,即非众数的数值在总体中的比重。

作用:

异众比率越大,即众数所不能代表的其他数值在总体中的比重越大时,众数在总体中所占的比重自然越小,众数的代表性越小。

反之,异众比率越小,即众数所不能代表的其他数值在总体中的比重越小,众数的代表性越大。

(5)四分位差InterquartileRange,先将一组数据按大小排列顺序,然后将其4等分,去掉序列中最高的1/4和最低的1/4,仅就中间的一半数值来测定序列的全距。

Q1的位置(第一个四分位点)=(n1)/4Q3的位置(第三个四分位点)=3(n1)/4QD=Q3-Q1,四分位差,计算方法,是将个案由低至高排列,然后分为四个等分(即每个等分包括25%的个案,则第一个四分位差的值(Q1)与第三个四分位置的值(Q3)的差异,就是四分位差(简写Q),公式是:

Q=Q3-Q1低Q1Q2Q3高上图表示四个等分。

Q2就是众数,两边各有50%的个案。

要注意的是,在中位数的两旁的Q1和Q3之间,共有50%的个案。

因此,Q1与Q3的差异愈大,表示有50%的个案的分布愈远离中位数,因而中位数的代表性就愈小,以之作为估计或预测的标准所犯的错误就愈大。

计算四分位差时,先要求出Q1的位置和Q3的位置,然后计算在这两个位置上的值的差异。

计算四分位差的方法,

(1)对原始资料:

例1:

调查11位同学的年龄如下:

17岁、18岁、18岁、19岁、19岁、20岁、20岁、21岁、21岁、22岁、。

首先,求出Q1和Q3的位置:

Q1的位置=3Q3的位置=9其次,从数序中找出Q1=18,Q3=21则四分位差Q=Q3Q1=2118=3,计算四分位差的方法,例2:

甲村有8户人家,每户人数如下:

2,3,4,7,9,10,12,12首先,求出Q1位置=2.25Q1=3+0.25(43)=3.25Q3位置=675Q3=10+0.75(1210)=11.5所以Q=11.53.25=8.25,

(2)对单值分组资料,表9-4学生的学业成绩,据公式可知:

Q1位置=20.25Q3位置=60.75从累积次数分布表中,很易看到在这两个位置上的值分别是丁级和乙级,所以Q=乙丁=两个等级,(3)对组距分组资料:

对组距分组资料Q1和Q3的计算公式为:

Q1=L1+w1Q3=L3+w3,其中L1=Q1属组之真实下限L3=Q3属组之真实下限f1=Q1属组之次数f3=Q3属组之次数cf1=低于Q1属组下限之累积次数cf3=低于Q3属组下限之累积次数w1=Q1属组之组距w3=Q3属组之组距n为全部个案数,表9-5某企业100名职工收入的分布,表9-5所示的资料其Q1位置=25.25,所以Q1在300399组内;Q3位置=75.75,所以Q3在400499组内。

由公式可知:

Q1=300+100=312.5Q3=400+100=475所以Q=Q3-Q1=162.5,(6)离散系数,离散系数:

CoefficientofVariation,标准差与平均数的比值,用百分比表示。

意义:

对同一总体中的两种不同的离散量数统计量进行比较;对两个不同总体中的同一离散量数统计量进行比较。

公式:

例题:

对广州和武汉两地居民生活质量调查发现,广州居民平均收入为680元,标准差为120元;武汉居民平均收入为360元,标准差为80元。

问广州居民相互之间在收入的差异程度,与武汉居民相互之间在收入上的差异程度哪一个更大一些?

广州居民收入的离散系数为武汉居民收入的离散系数为可见,比较而言,武汉居民相互之间在收入上的差异程度,比广州居民相互之间的差异程度更大一些。

请计算下表中工人之间的收入差别与教师之间的差别哪个更大?

二、单变量推论统计,推论统计利用样本的统计值对总体的参数值进行估计的方法。

1、区间估计(IntervalEstimation)就是在一定的可信度(置信度)下,用样本统计值的某个范围(置信区间)来估计总体的参数值。

表述:

“我们有95的把握认为,全市职工的工资收入在182元至218元之间”,区间估计,注意:

区间估计中的可靠性和区间大小成正比关系

(1)总体均值的区间估计公式:

区间估计,区间估计中的可取性或把握性是指用某个区间去估计总体参数时,成功的可能性有多大。

对于同一总体和同一抽样规模来说,所给区间的大小与作出这种估计所具有的把握性成正比。

因此,人们总是需要在这两者之间进行平衡和选择。

区间估计的一般程序,第一,确定置信水平。

社会研究一般用90、95和99的置信水平。

在计算中,置信度常用1a来表示。

第二,计算标准误差,根据样本分布特点和样本不同统计值,分别采用不同的方法确定标准误差。

第三,根据样本统计值和标准误差确定置信区间。

例10、调查某厂职工的工资状况,随机抽取900名工人作样本,调查得到他们的月平均工资为186元,标准差为42元。

求95的置信度下,全厂职工的月平均工资的置信区间是多少?

总体均值的区间估计,将调查资料代入总体均值的区间估计公式得查得,故总体均值的置信区间为即183.26188.74元,练习:

从某校随机抽取300名教师进行调查,得出他们的平均年龄为42岁,标准差为5岁。

求95的置信度下,该校全体教师平均年龄的置信区间是多少。

区间估计,

(2)总体百分比的区间估计公式:

例11从某工厂随机抽取400名工人进行调查,结果表明女工的比例为20。

现在要求在90的置信度下,估计全厂工人中女工比例的置信区间。

练习:

从某高校随机抽取200名学生进行调查,发现抽烟的比例为15。

现要求在95的置信度下,估计全校学生中抽烟比例的置信区间。

2、假设检验,

(1)概念:

统计假设,非理论假设先对总体的某一参数指作出假设,然后用样本的统计量去进行验证,以决定假设是否为总体所接受。

例如:

根据以往的资料,某地女青年的平均初婚年龄是20岁,但今年根据100名女青年的随机抽样调查,平均年龄为21岁,问能否认为该地女青年的初婚年龄比以往有所推迟?

又如:

根据随机调查,文化程度高的家庭,平均子女数也要少些。

两者呈负相关r0.3。

问这样的结论是否具有普遍性

(2)原假设和备择假设原假设H0:

又称虚无假设,u20岁,r0.3备择假设H1:

又称研究假设,有三种情况u20,u20或u20前两种情况称为单边假设,第三种情况称为双边假设。

(3)假设检验的基本原理:

小概率原理两个方面:

A、小概率事件在一次观察中是不可能出现的。

B、如果在一次观察中出现了小概率事件,那么,合理的想法,是否定原有事件具有小概率从假设。

(4)步骤:

建立虚无假设,根据需要选择适当的显著性水平(小概率的值,通常有0.05,=0.01等)根据样本数据计算出统计值,并根据显著性水平查出对应的临界值。

将临界值与统计值比较,若统计值Z的绝对值小于临界值,则样本统计值落入接受域,接受虚无假设,反之,则样本统计值落入拒绝域,拒绝虚无假设,接受研究假设。

(5)总体均值检验,例:

见书公式:

X:

样本平均值M:

假设平均值书上例12,例12某单位职工上月平均收人为210元,本月调查了100名职工,平均月收入为220元,标准差为15元。

问该单位职工本月平均收入与上月相比是否有变化?

例题,解:

首先建立虚无假设(用H0表示)和研究假设(用H1表示),即有H0:

M=210H1:

M210选择显著性水平a=005,由标准正态分布查Z(0.05/2)=1.96然后根据样本数据计算统计值,其公式为:

由于,所以,拒绝虚无假设,接受研究假设,即从总体上来说,该单位职工月平均收入与上月相比有变化。

解首先建立虚无假设(用表示)和研究假设(用表示),即有:

选择显著性水平a=0.05,查表得计算统计量由于Z=6.67,所以,拒绝虚无假设,接受研究假设。

即从总体上说,该单位职工月平均收入与上月相比有变化。

(6)总体百分比的假设检验,例:

见书例13公式:

例13一所大学全体学生中抽烟者的比例为35,经过学习和戒烟宣传后,随机抽取100名大学生进行调查,结果发现抽烟者为25名。

问戒烟宣传是否收到了成效?

解设选择显著性水平

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 外语学习 > 韩语学习

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2