统计学知识要点.docx

资源描述

统计学知识要点.docx

《统计学知识要点.docx》由会员分享，可在线阅读，更多相关《统计学知识要点.docx（31页珍藏版）》请在冰点文库上搜索。

统计学知识要点.docx

统计学知识要点

第一章

知识结构

1.掌握统计学的几个基本概念

（1）总体：

所谓总体，是指研究所关注的全部单元组成的集合。

（2）总体单位：

即构成总体的每一个单元。

（3）标志：

总体单位的特征，分为品质标志和数量标志。

品质标志只能用文字表示，数量标志只能用数字表示。

（4）指标：

数量标志汇总之后就成为指标。

指标只能用数字表示，可相加。

（如，我国2009年国民生产总值为3335353亿元）指标分为数量指标和质量指标，数量指标一般用绝对数表示；质量指标一般用相对数或者平均数表示。

质量指标一般以倍数、系数、%结尾且不带单位。

（5）变量：

一般可以分为连续变量和离散变量两种。

连续变量可分割，可用小数表示，如身高、体重、降雨量、土地面积、金额等；离散变量不可分割，不能用小数表示，如职工人数、设备台数等。

2．数据类型P7

（1）数据可以分为定性数据和定量数据。

定性数据用文字表示，定量数据用数字表示。

（2）定性数据又可分为定类数据（不能排序）和定序数据（可排序，如满意度数据）

（3）实验数据、观察数据；截面数据、历时数据（略）

3.抽样方法P9

（1）简单随机抽样

（2）分层抽样：

分层抽样后的数据可以排列大小，如：

优秀、一般、差；老年、中年、青年；100-200元、200-300元、300-400元等。

（3）整群抽样：

整群抽样一般以当下划分的标准进行，如地域：

广东、广西、河南、山东等；如企业性质：

国有企业、中外合资、私人企业等

（4）等距抽样（也叫系统抽样）

4.统计学的研究对象为数据。

第二章

知识要点

一、构建频数分布表

（1）定性频数分布表P15-16

（2）定量频数分布表，理解等距分组与不等距分组P18-20

（3）若某组上限与邻组的下限重合，采用“上限不在本组”原则。

二、组中值

（1）组中值=（上限+下限）/2

（2）缺上限开口组的组中值=下限+（相邻组的组距/2）

缺下限开口组的组中值=上限—（相邻组的组距/2）

例题1.　在进行组距式分组时，凡遇到某单位的标志值正好等于相邻两组上下限的数值时，一般是（　　　）

Ａ．将此值归入上限所在组　　　　　　　　Ｂ．将此值归入下限所在组

Ｃ．将此值归入上限或下限所在组均可　　　Ｄ．另行分组

选【Ｂ】

例题２.　某连续变量，其末组为“５００”以上，又知其邻组的下限为４００，则末组的组中值为（　　　）

Ａ．６００　　Ｂ．４５０　　　Ｃ．５００　　　Ｄ．５５０

选【Ｄ】

三、集中趋势和离散程度P27

1.平均数可以用来表示一组数列的集中趋势，包括众数、中位数和均值（算数平均数、调和平均数、几何平均数），其中，众数和中位数是位置平均数。

（1）所谓众数，是一批数据中出现频数（次数）最多的数，用MO来表示。

（2）所谓中位数，是对一批数据进行排序之后，处于中间位置的数值，用Me来表示。

（3）数值平均数有算数平均数、调和平均数、几何平均数等，每个数据都参与计算。

2.离散程度可以用来表示一组数列偏离平均值的程度。

异众比率、四分位差

四分位差

全距=最大值—最小值

平均差：

AD=【Σ|x-----X|】/n

注意：

全距、平均差、标准差、方差和离散系数统称为标志变异指标。

标志变异指标小则数列当中的平均数代表性大；标志变异指标大则数列当中的平均数代表性小。

3.当某一分布左偏的时候，Mo

第三章

课后习题

1.掌握叶贝斯公式及全概率公式的相关计算

2.掌握二项式分布及泊松分布的概率计算

1.假设某种疾病的发病率为0.01。

从某市居民中随机抽取样本，直到患某种疾病的患者出现10例为止，计算需要抽取人数为n人时的概率。

解：

CnxPx（1-p）n-x=Cn100.01100.99n-10

2.对某高校毕业生的就业意向进行调查，结果如下表所示。

某高校毕业生就业意向调查表

单位：

人

部门

金融部门D

政府部门E

大型国企F

其他G

合计

地

区

西部A

中部B

东部C

133

合计

200

根据上述数据计算以下概率。

（1）P（BIF）

（2）P（EIC）

（3）P（A）

（4）P（D）

解：

4.一个诊所有三名医生，张医生接诊40%的病人，李医生和王医生各接诊30%的病人。

张医生要求他接诊的病人中的15%进行抽血化验，李医生要求他接诊的25%的病人进行抽血化验，王医生则要求她接诊的5%的病人进行抽血化验。

从该诊所过去一周的病人中随机抽取一个，该病人做了抽血化验的概率有多大？

如果发现他在看病时做了抽血化验，这个病人是由李医生接诊的概率有多大？

解：

A=｛张医生的病人｝；B=｛李医生的病人｝；C={王医生的病人}；D={抽血的病人｝

（1）P（D）=P（DIA）XP（A）+P（DIB）XP（B）+P（DIC）XP（C）=40%X15%+30%X25%+30%X5%=0.15（全概率公式）

（2）P（BID）=P（BD）/P（D）=0.075/0.15=0.5（用叶贝斯公式原理）

5.世界上三大操作系统windows,mac,linux都有长期以来形成的用户群，但在全球的市场占有率却相差悬殊。

权威调查机构netapplications最新监测结果显示，计算机用户中，2%使用mac,92%使用windows，6%使用linux。

假定60%的mac用户感染了某种计算机病毒，80%的windows用户以及40%的Linux用户感染了该病毒。

现随机抽取一名计算机用户，计算其计算机系统感染该病毒的概率。

假定发现该用户的系统感染了该病毒，求其为linux用户的概率。

解：

A={使用windows的用户}；B={使用mac的用户}；C={使用linux的用户}；D={感染病毒的用户}。

（1）P（D）=P（DIA）XP（A）+P（DIB）XP（B）+P（DIC）XP（C）=92%X80%+2%X60%+6%X40%=0.772（全概率公式）

（2）P（CID）=P（CD）/P（D）=6%X40%/0.772=0.031（叶贝斯公式）

6.抛一枚硬币10次，计算如下概率

（1）正面一次都没有出现

（2）正面恰好出现了5次

（3）正面至少出现了5次

（1）正面一次都没有出现的可能性为

（2）正面恰好出现了5次的可能性为

（3）正面至少出现了5次的可能性为

8.某条高速公路上极少发生汽车碰撞的事故。

假定碰撞次数为1.5次每6个月，服从泊松分布。

计算如下概率：

（1）6个月内没有发生碰撞的概率;

（2）6个月内恰好发生2次碰撞的概率

（3）6个月最多发生一次碰撞的概率。

9.假定某银行每月处理存款业务平均出错2笔，假定出错数服从播送分布。

如果审查过去一个月内的存款业务，发现出现5笔以上错误的概率是多少？

解：

11.675.67,299.85

12.0.379,4.781,0.431

13.0.004902,0.990196,0

第四章参数估计

知识要点

一、点估计（不考计算）

四、掌握以下要点

1.点估计的优良性判断准则有无偏性、有效性、一致性；

Ø无偏性指所有样本的参数估计值的平均刚好等于相应总体参数的值。

P79

Ø有效性指估计出的总体参数不随样本量的变化而变化，或者说变化较小。

Ø一致性指当样本量越大，样本参数越接近总体参数，尽管变化的幅度较小。

2.区间估计必须具备三个要素：

估计值、概率度和抽样误差。

3.在样本容量的确定中，抽样误差与样本单位数的关系如何？

如果抽样误差比例缩小，样本单位数如何变化？

（根据公式进行分析）

4.区间估计的计算，关于两个总体两个方差之比的区间估计。

5.如何理解抽样误差的精确度和可信度P75

（4-12）

（4-13）

（4-15）

（4-17）

（4-18）

（4-19）

（4-20）

（4-21）

（4-23）

第四章练习题

1.从一个企业随机抽取了36名工人，记录其某天加工的产品数如下（单位：

个）

454739515748434241484955504239404654393647413941485538514738425545495452

假设工人每日加工的产品数服从正态分布。

试求以下问题。

（2）分别以90%、95%和99%的置信度构造全体工人平均日加工产品数的置信区间。

【该题求单个总体方差σ2未知，求均值μ的区间估计，可以用公式（4-13），但样本量已达到36，属于大样本，可以用样本方差代替总体方差，属于总体方差σ2已知的情况，利用公式（4-12）】

（4）分别以90%、95%和99%的置信度构造全体工人中，日加工产品数超过45件的工人所占比例额的置信区间。

【该题求单个总体关于比例P的区间估计，用公式（4-15）】

（6）分别以90%、95%和99%的置信度构造全体工人日加工产品数的方差的置信区间。

【该题求单个总体关于方差σ2的区间估计，用公式（4-17）】

2.假设一个矿泉水生产企业想知道一个成年人每天喝几瓶容积为500ml的矿泉水。

其分析人员随机抽取了20个成年人，询问他们一天所喝的矿泉水瓶数（每瓶为500ml）。

调查结果如下（单位：

瓶）：

12203324220123513122

假定每个成年人每天喝的矿泉水瓶数服从正态分布。

试求以下问题。

（2）分别以90%、95%和99%的置信度构造成年人平均每天所喝矿泉水瓶数的置信区间。

【该题求单个总体关于均值μ的区间估计，由于样本量为20，不属于大样本，所以不能用样本方差代替总体方差σ2，属于总体方差σ2未知的情况，因此利用公式（4-13）】

（4）分别以90%、95%和99%的置信度构造成年人中，每天喝2瓶及2瓶以上矿泉水的人所占比例的置信区间。

【该题求单个总体关于比例P的区间估计，用公式（4-15）】

（6）分别以90%、95%和99%的置信度构造成年人每天所喝矿泉水瓶数的方差的置信区间。

【该题求单个总体关于方差σ2的区间估计，利用公式（4-17）】

3.某超市管理者想了解消费者在该超市的平均购物消费金额。

为此，他随机抽取了32笔销售记录，得到如下数据（单元：

元）：

4003112882491031162102483254572981071582592253141482579657242113866223414630825834457122237

根据数据，求消费者在该超市平均购物消费金额的置信度为95%的置信区间。

假定购买金额服从正态分布。

【该题求单个总体关于均值μ的区间估计，由于样本量为小样本，因此求出的样本方差不能代替总体方差，属于总体方差σ2未知情况，因此用公式（4-13）】

4.假设某研究人员想估计北京人在上班途中平均花费的时间。

他随机抽取了40人，并调查了每人在上班途中花费的时间，得到如下数据（单位：

min）：

37424921425769843836443227332835241529482829282825333720272518252527274025283052

根据数据，求北京人在上班途中平均花费的时间在95%的置信度下的置信区间。

假定上班途中花费的时间服从正态分布。

【该题求单个总体关于均值μ的区间估计，n=40，属于大样本，求出的样本S可以代替总体σ，因此属于总体方差σ2已知，利用公式（4-12）】

5.为了了解人们是否知道低碳经济，某研究人员在某市随机调查了125个14岁以上的人，其中84人回答知道低碳经济这个概念。

则该市知道低碳经济概念的人占其14岁以上总人口的比例有多大？

试构造该比例置信度为95%的置信区间。

【该题求单个总体关于比例P的区间估计，利用公式（4-15）】

6.为了了解家长引导孩子上网的情况，某研究人员对100名家长进行了调查。

当问到“正确引导孩子上网方面存在的最大问题”时，回答“不是很懂上网方面的知识”的家长所占比例最高，为32.8%。

以95%的置信度对总体中不是很懂上网方面知识的家长所占比例进行区间估计。

【该题求单个总体关于比例P的置信区间，利用公式（4-15）】

因此不是很懂上网方面知识的家长所占比例在23.6%-42%之间。

7.为了了解大学毕业生就业之后的生活状态，某研究者随机调查了25名刚刚工作的大学生，询问他们每月的税后收入，得到如下数据（单位：

元）：

3000320025004500250032003500240018002650350015004050250038005000300019002000330018003600250032002900

分别以90%和95%的置信度对所有刚刚工作的大学生的月收入的方差进行区间估计。

假定总体收入服从正态分布。

【该题求单个总体关于方差σ2的区间估计，利用公式（4-17）】

8.一家工厂生产钢筋，规格要求为直径3.5CM。

从一批钢筋中随机抽取15根，测其直径，结果如下（单位：

CM）:

3.473.493.503.463.513.503.493.543.473.463.513.503.523.453.48

根据这些数据，以99%的置信度对这批钢筋直径的总体方差进行区间估计。

假设直径服从正态分布。

【该题求单个总体关于方差σ2的区间估计，利用公式（4-17）】

9.一家饭店为吸引顾客提供一种返券优惠。

假设这家饭店想估计一下该优惠活动的效果。

一名分析员随机抽取了推出优惠活动前15天来店里就餐的顾客人数以及推出优惠活动后18天的顾客人数，得到如下数据（单位：

个）：

活动前：

221340350439260365402420225364228260303315268

活动后：

328257318380256187246286373408447459519482416438540345

根据上述数据，以90%的置信度估计活动前后该店平均每日顾客人数以及顾客人数方差的差异。

假设顾客人数服从正态分布。

【该题有两个问：

（1）求活动前后平均每日顾客的差异，属于求两个总体关于均值μ之差，利用公式（4-19）；

（2）求活动前后顾客人数方差的差异，属于求两个总体关于方差之比

σ21/σ22利用公式（4-21）】

（略）

10.为了比较两个地区居民消费支出的差异，一名研究者在两个地区分别随机抽取了20个三口之家，询问其年消费支出，得到如下数据（单位：

万元）：

地区1:

1.82.32.83.41.65.62.43.52.21.53.32.53.03.12.81.92.11.33.42.9

地区2：

3.22.72.83.84.55.86.42.83.73.82.74.54.92.83.63.87.45.56.22.3

根据这些数据，以99%的置信度估计两个地区三口之家平均年消费支出以及消费支出方差的差异。

假设消费支出服从正态分布。

【该题同上，

（1）求两个总体关于均值μ之差，由于总体σ2未知，利用公式（4-19）；

（2）求两个总体关于方差之比，利用公式（4-21）；】

11.为了了解大学生的毕业意向，某研究者在某大学的两个学院分别随机抽取了100名本科生进行调查，第一个学院的100名学生中有25名表示将继续在国内攻读硕士学位，第二个学院的100名学生中有38名想继续在国内攻读硕士学位。

以95%置信度估计这两个学院的本科生中想继续在国内攻读硕士学位的学生所占比例的差异。

【该题求两个总体关于比例之差，利用公式（4-20）】

12.为了了解用户购买手机时所关注的因素，某手机厂商的分析人员调查了320名男性和350名女性，其中240名男性非常重视手机的待机时间，而女性中重视该因素的人数则为190人。

以95%置信度估计男性用户和女性用户中重视待机时间的人数所占比例的差异。

【该题求两个总体关于比例之差，利用公式（4-20）】

（略）

13.为了了解金融危机是否给出口企业带来显著的影响，某研究人员在某地区随机抽取了12家企业，询问其在2006年的出口额和在2009年的出口额，数据如表所示（单位：

百万美元）：

2006年：

3.23.82.45.84.710.24.96.85.212.87.25.3

2009年：

2.51.93.24.75.39.84.97.15.58.45.75.8

以95%置信度估计金融危机前后该地区出口企业平均出口额的差异。

假定出口额服从正态分布。

【该题求两个总体关于均值差异，而且总体方差σ2未知，利用公式（4-19）】

14.为了了解人们在端午节时购买粽子的支出，某市场研究人员准备进行一项调查。

他希望在对总体中购买粽子的平均支出进行估计时，估计的误差不要超过10元，并且要保证99%的置信度。

假定根据经验，人们购买粽子支出的标准差约为40元。

他至少需要抽取多少人进行调查？

【该题为估计总体均值的最小样本容量，利用公式（4-22）】

15.为了了解人们对网络实名制的支持程度，某网络公司的研究人员准备进行一项调查。

他希望在对总体中支持网络实名制的人所占比重进行估计时，估计的误差不要超过3%，并且要保证95%的置信度，他至少需要抽取多少人进行调查？

【在抽样比例未知的情况下，通常设定抽样比例P=0.5，再代入公式（4-23）】

第五章假设检验

知识要点

掌握以下几点：

1.熟悉假设检验的第I类错误和第II类错误P104-p105

2.假设检验包含单侧检验和双侧检验，熟悉如何设置假设，包括原假设H0,和备择假设H1；“=”要放置在原假设H0.

3.理解什么叫显著水平，什么叫拒绝域，他们之间的关系。

P102

4.计算能力：

掌握均值的假设检验

第6章随机变量间统计关联性分析

知识要点

1.如果一个变量随另一个变量变化，我们就说，这两个变量是有关联的，具有关联关系。

2.函数y=2x+3,随着X的改变Y也发生改变，那么引起变化的X称为自变量，导致变化的Y称为因变量。

3.关联关系中的自变量和因变量是可以互换位置的，而因果关系不可以互换位置。

5.定序和定量变量两两组合得以下四种情况：

6.关于第六章的考试题型，参考课后练习第一题。

主要解决两个问题：

（1）对列联表格进行白分化；

（2）看两个定性变量是否存在关联。

7.如何构造列联表格：

（表6-4）

（1）先确定自变量与因变量的地位。

（2）将自变量放在横行，将因变量放在列行。

（3）表肚子的每一个数值为具体的自变量与因变量对应的值，记为fij，所有fij的得值为总数n，放在右下角。

（4）计算两个合计栏（横行和列行），对后续计算有用。

（表6-5）

从上图可以看到，第一步确定自变量和因变量的地位，自变量为“志愿者参与行为”，放在横行，因变量为“学历”，放在列行。

将调查得到的统计量依次填入表肚子，得到下表：

表格（6-5-1）

最后一步，算出两个“合计栏”的得值，与自变量对应的合计栏记为ni,与因变量对应的合计栏记为nj。

8.对列联表格进行百分比化，即将各个单元格的数字全部转化为百分数。

得到下图：

（表6-5-2）

9.看两个定性变量是否有关联（课本126-129页）

（1）做题步骤：

a.确定自变量和因变量

b.构建假设H0、H1，通常假设H0为两个变量没有关联；H1为两个变量有关联。

c.求出各个单元的eij，（不算合计栏），（每个fij对应一个eij）

d.代入公式（6-1）求出

的值

e.求

的值，其中α已知，p、q分别为列数与行数（不含合计栏）

f.比较第4步与第5步，若统计量

，则落入拒绝域，拒绝原假设。

（2）我们来尝试计算表（6-5）中两个变量是否具有关联性。

按照步骤，第一步确定自变量和因变量，自变量为志愿者参与行为，因变量为学历。

第二步，构建假设。

设H0：

志愿者行为与学历没有关联；H1：

志愿者行为与学历有关联。

第三步根据公式6-2求出各个单元格eij,

然后把4个期望频数代入公式（6-1）得

=14.65

再求

的值，取α=0.05，p=q=2,则求得

=3.841

14.65>3.841,落入拒绝域，拒绝原假设，因此参加志愿者活动与学历有关联。

（注意：

设立假设时，原假设为否定式，备择假设为肯定式）

第6章课后练习

一、

1、对该列联表进行百分比化的结果为：

软件难易程度

软件1

软件2

软件3

软件4

合计

低

5/32=15.6%

10/32=31.3%

14/32=43.8%

3/32=9.3%

100%（32）

中

8/61=13.1%

28/61=45.9%

18/61=29.5%

7/61=11.5%

100%（61）

高

22/57=38.6%

7/57=12.3%

8/57=14.0%

20/57=35.1%

100%（57）

合计

35/150=23.3%

45/150=30.0%

40/150=26.7%

30/150=20.0%

100%（150）

2、

解：

设立统计假设如下：

H0:

软件的难易程度与软件的类别无关

Ha:

软件的难易程度与软件的类别有关

检验统计量为

卡方值的求解过程如下表所示：

软件

难易程度

实际频数fij

期望频数eij

（eij-fij）2/eij

低

（35*32）/150=7.47

0.81

中

（35*61）/150=14.23

2.73

高

（35*57）/150=13.3

5.69

低

（45*32）/150=9.6

0.02

中

（45*61）/150=18.3

5.14

高

（45*57）/150=17.1

5.97

低

（40*32）/150=8.53

3.50

中

（40*61）/150=16.27

0.18

高

（40*57）/150=15.2

3.41

低

（30*32）/150=6.4

1.81

中

（30*61）/150=12.2

2.22

高

（30*57）/150=11.4

6.49

合计

150

展开阅读全文