第三章
课后习题
1.掌握叶贝斯公式及全概率公式的相关计算
2.掌握二项式分布及泊松分布的概率计算
1.假设某种疾病的发病率为0.01。
从某市居民中随机抽取样本,直到患某种疾病的患者出现10例为止,计算需要抽取人数为n人时的概率。
解:
CnxPx(1-p)n-x=Cn100.01100.99n-10
2.对某高校毕业生的就业意向进行调查,结果如下表所示。
某高校毕业生就业意向调查表
单位:
人
部门
金融部门D
政府部门E
大型国企F
其他G
合计
地
区
西部A
12
8
2
2
24
中部B
25
13
3
2
43
东部C
47
43
28
15
133
合计
84
64
33
19
200
根据上述数据计算以下概率。
(1)P(BIF)
(2)P(EIC)
(3)P(A)
(4)P(D)
解:
4.一个诊所有三名医生,张医生接诊40%的病人,李医生和王医生各接诊30%的病人。
张医生要求他接诊的病人中的15%进行抽血化验,李医生要求他接诊的25%的病人进行抽血化验,王医生则要求她接诊的5%的病人进行抽血化验。
从该诊所过去一周的病人中随机抽取一个,该病人做了抽血化验的概率有多大?
如果发现他在看病时做了抽血化验,这个病人是由李医生接诊的概率有多大?
解:
A={张医生的病人};B={李医生的病人};C={王医生的病人};D={抽血的病人}
(1)P(D)=P(DIA)XP(A)+P(DIB)XP(B)+P(DIC)XP(C)=40%X15%+30%X25%+30%X5%=0.15(全概率公式)
(2)P(BID)=P(BD)/P(D)=0.075/0.15=0.5(用叶贝斯公式原理)
5.世界上三大操作系统windows,mac,linux都有长期以来形成的用户群,但在全球的市场占有率却相差悬殊。
权威调查机构netapplications最新监测结果显示,计算机用户中,2%使用mac,92%使用windows,6%使用linux。
假定60%的mac用户感染了某种计算机病毒,80%的windows用户以及40%的Linux用户感染了该病毒。
现随机抽取一名计算机用户,计算其计算机系统感染该病毒的概率。
假定发现该用户的系统感染了该病毒,求其为linux用户的概率。
解:
A={使用windows的用户};B={使用mac的用户};C={使用linux的用户};D={感染病毒的用户}。
(1)P(D)=P(DIA)XP(A)+P(DIB)XP(B)+P(DIC)XP(C)=92%X80%+2%X60%+6%X40%=0.772(全概率公式)
(2)P(CID)=P(CD)/P(D)=6%X40%/0.772=0.031(叶贝斯公式)
6.抛一枚硬币10次,计算如下概率
(1)正面一次都没有出现
(2)正面恰好出现了5次
(3)正面至少出现了5次
(1)正面一次都没有出现的可能性为
(2)正面恰好出现了5次的可能性为
(3)正面至少出现了5次的可能性为
8.某条高速公路上极少发生汽车碰撞的事故。
假定碰撞次数为1.5次每6个月,服从泊松分布。
计算如下概率:
(1)6个月内没有发生碰撞的概率;
(2)6个月内恰好发生2次碰撞的概率
(3)6个月最多发生一次碰撞的概率。
9.假定某银行每月处理存款业务平均出错2笔,假定出错数服从播送分布。
如果审查过去一个月内的存款业务,发现出现5笔以上错误的概率是多少?
解:
11.675.67,299.85
12.0.379,4.781,0.431
13.0.004902,0.990196,0
第四章参数估计
知识要点
一、点估计(不考计算)
四、掌握以下要点
1.点估计的优良性判断准则有无偏性、有效性、一致性;
Ø无偏性指所有样本的参数估计值的平均刚好等于相应总体参数的值。
P79
Ø有效性指估计出的总体参数不随样本量的变化而变化,或者说变化较小。
Ø一致性指当样本量越大,样本参数越接近总体参数,尽管变化的幅度较小。
2.区间估计必须具备三个要素:
估计值、概率度和抽样误差。
3.在样本容量的确定中,抽样误差与样本单位数的关系如何?
如果抽样误差比例缩小,样本单位数如何变化?
(根据公式进行分析)
4.区间估计的计算,关于两个总体两个方差之比的区间估计。
5.如何理解抽样误差的精确度和可信度P75
(4-12)
(4-13)
(4-15)
(4-17)
(4-18)
(4-19)
(4-20)
(4-21)
(4-23)
第四章练习题
1.从一个企业随机抽取了36名工人,记录其某天加工的产品数如下(单位:
个)
454739515748434241484955504239404654393647413941485538514738425545495452
假设工人每日加工的产品数服从正态分布。
试求以下问题。
(2)分别以90%、95%和99%的置信度构造全体工人平均日加工产品数的置信区间。
【该题求单个总体方差σ2未知,求均值μ的区间估计,可以用公式(4-13),但样本量已达到36,属于大样本,可以用样本方差代替总体方差,属于总体方差σ2已知的情况,利用公式(4-12)】
(4)分别以90%、95%和99%的置信度构造全体工人中,日加工产品数超过45件的工人所占比例额的置信区间。
【该题求单个总体关于比例P的区间估计,用公式(4-15)】
(6)分别以90%、95%和99%的置信度构造全体工人日加工产品数的方差的置信区间。
【该题求单个总体关于方差σ2的区间估计,用公式(4-17)】
2.假设一个矿泉水生产企业想知道一个成年人每天喝几瓶容积为500ml的矿泉水。
其分析人员随机抽取了20个成年人,询问他们一天所喝的矿泉水瓶数(每瓶为500ml)。
调查结果如下(单位:
瓶):
12203324220123513122
假定每个成年人每天喝的矿泉水瓶数服从正态分布。
试求以下问题。
(2)分别以90%、95%和99%的置信度构造成年人平均每天所喝矿泉水瓶数的置信区间。
【该题求单个总体关于均值μ的区间估计,由于样本量为20,不属于大样本,所以不能用样本方差代替总体方差σ2,属于总体方差σ2未知的情况,因此利用公式(4-13)】
(4)分别以90%、95%和99%的置信度构造成年人中,每天喝2瓶及2瓶以上矿泉水的人所占比例的置信区间。
【该题求单个总体关于比例P的区间估计,用公式(4-15)】
(6)分别以90%、95%和99%的置信度构造成年人每天所喝矿泉水瓶数的方差的置信区间。
【该题求单个总体关于方差σ2的区间估计,利用公式(4-17)】
3.某超市管理者想了解消费者在该超市的平均购物消费金额。
为此,他随机抽取了32笔销售记录,得到如下数据(单元:
元):
4003112882491031162102483254572981071582592253141482579657242113866223414630825834457122237
根据数据,求消费者在该超市平均购物消费金额的置信度为95%的置信区间。
假定购买金额服从正态分布。
【该题求单个总体关于均值μ的区间估计,由于样本量为小样本,因此求出的样本方差不能代替总体方差,属于总体方差σ2未知情况,因此用公式(4-13)】
4.假设某研究人员想估计北京人在上班途中平均花费的时间。
他随机抽取了40人,并调查了每人在上班途中花费的时间,得到如下数据(单位:
min):
37424921425769843836443227332835241529482829282825333720272518252527274025283052
根据数据,求北京人在上班途中平均花费的时间在95%的置信度下的置信区间。
假定上班途中花费的时间服从正态分布。
【该题求单个总体关于均值μ的区间估计,n=40,属于大样本,求出的样本S可以代替总体σ,因此属于总体方差σ2已知,利用公式(4-12)】
5.为了了解人们是否知道低碳经济,某研究人员在某市随机调查了125个14岁以上的人,其中84人回答知道低碳经济这个概念。
则该市知道低碳经济概念的人占其14岁以上总人口的比例有多大?
试构造该比例置信度为95%的置信区间。
【该题求单个总体关于比例P的区间估计,利用公式(4-15)】
6.为了了解家长引导孩子上网的情况,某研究人员对100名家长进行了调查。
当问到“正确引导孩子上网方面存在的最大问题”时,回答“不是很懂上网方面的知识”的家长所占比例最高,为32.8%。
以95%的置信度对总体中不是很懂上网方面知识的家长所占比例进行区间估计。
【该题求单个总体关于比例P的置信区间,利用公式(4-15)】
因此不是很懂上网方面知识的家长所占比例在23.6%-42%之间。
7.为了了解大学毕业生就业之后的生活状态,某研究者随机调查了25名刚刚工作的大学生,询问他们每月的税后收入,得到如下数据(单位:
元):
3000320025004500250032003500240018002650350015004050250038005000300019002000330018003600250032002900
分别以90%和95%的置信度对所有刚刚工作的大学生的月收入的方差进行区间估计。
假定总体收入服从正态分布。
【该题求单个总体关于方差σ2的区间估计,利用公式(4-17)】
8.一家工厂生产钢筋,规格要求为直径3.5CM。
从一批钢筋中随机抽取15根,测其直径,结果如下(单位:
CM):
3.473.493.503.463.513.503.493.543.473.463.513.503.523.453.48
根据这些数据,以99%的置信度对这批钢筋直径的总体方差进行区间估计。
假设直径服从正态分布。
【该题求单个总体关于方差σ2的区间估计,利用公式(4-17)】
9.一家饭店为吸引顾客提供一种返券优惠。
假设这家饭店想估计一下该优惠活动的效果。
一名分析员随机抽取了推出优惠活动前15天来店里就餐的顾客人数以及推出优惠活动后18天的顾客人数,得到如下数据(单位:
个):
活动前:
221340350439260365402420225364228260303315268
活动后:
328257318380256187246286373408447459519482416438540345
根据上述数据,以90%的置信度估计活动前后该店平均每日顾客人数以及顾客人数方差的差异。
假设顾客人数服从正态分布。
【该题有两个问:
(1)求活动前后平均每日顾客的差异,属于求两个总体关于均值μ之差,利用公式(4-19);
(2)求活动前后顾客人数方差的差异,属于求两个总体关于方差之比
σ21/σ22利用公式(4-21)】
(略)
10.为了比较两个地区居民消费支出的差异,一名研究者在两个地区分别随机抽取了20个三口之家,询问其年消费支出,得到如下数据(单位:
万元):
地区1:
1.82.32.83.41.65.62.43.52.21.53.32.53.03.12.81.92.11.33.42.9
地区2:
3.22.72.83.84.55.86.42.83.73.82.74.54.92.83.63.87.45.56.22.3
根据这些数据,以99%的置信度估计两个地区三口之家平均年消费支出以及消费支出方差的差异。
假设消费支出服从正态分布。
【该题同上,
(1)求两个总体关于均值μ之差,由于总体σ2未知,利用公式(4-19);
(2)求两个总体关于方差之比,利用公式(4-21);】
11.为了了解大学生的毕业意向,某研究者在某大学的两个学院分别随机抽取了100名本科生进行调查,第一个学院的100名学生中有25名表示将继续在国内攻读硕士学位,第二个学院的100名学生中有38名想继续在国内攻读硕士学位。
以95%置信度估计这两个学院的本科生中想继续在国内攻读硕士学位的学生所占比例的差异。
【该题求两个总体关于比例之差,利用公式(4-20)】
12.为了了解用户购买手机时所关注的因素,某手机厂商的分析人员调查了320名男性和350名女性,其中240名男性非常重视手机的待机时间,而女性中重视该因素的人数则为190人。
以95%置信度估计男性用户和女性用户中重视待机时间的人数所占比例的差异。
【该题求两个总体关于比例之差,利用公式(4-20)】
(略)
13.为了了解金融危机是否给出口企业带来显著的影响,某研究人员在某地区随机抽取了12家企业,询问其在2006年的出口额和在2009年的出口额,数据如表所示(单位:
百万美元):
2006年:
3.23.82.45.84.710.24.96.85.212.87.25.3
2009年:
2.51.93.24.75.39.84.97.15.58.45.75.8
以95%置信度估计金融危机前后该地区出口企业平均出口额的差异。
假定出口额服从正态分布。
【该题求两个总体关于均值差异,而且总体方差σ2未知,利用公式(4-19)】
14.为了了解人们在端午节时购买粽子的支出,某市场研究人员准备进行一项调查。
他希望在对总体中购买粽子的平均支出进行估计时,估计的误差不要超过10元,并且要保证99%的置信度。
假定根据经验,人们购买粽子支出的标准差约为40元。
他至少需要抽取多少人进行调查?
【该题为估计总体均值的最小样本容量,利用公式(4-22)】
15.为了了解人们对网络实名制的支持程度,某网络公司的研究人员准备进行一项调查。
他希望在对总体中支持网络实名制的人所占比重进行估计时,估计的误差不要超过3%,并且要保证95%的置信度,他至少需要抽取多少人进行调查?
【在抽样比例未知的情况下,通常设定抽样比例P=0.5,再代入公式(4-23)】
第五章假设检验
知识要点
掌握以下几点:
1.熟悉假设检验的第I类错误和第II类错误P104-p105
2.假设检验包含单侧检验和双侧检验,熟悉如何设置假设,包括原假设H0,和备择假设H1;“=”要放置在原假设H0.
3.理解什么叫显著水平,什么叫拒绝域,他们之间的关系。
P102
4.计算能力:
掌握均值的假设检验
第6章随机变量间统计关联性分析
知识要点
1.如果一个变量随另一个变量变化,我们就说,这两个变量是有关联的,具有关联关系。
2.函数y=2x+3,随着X的改变Y也发生改变,那么引起变化的X称为自变量,导致变化的Y称为因变量。
3.关联关系中的自变量和因变量是可以互换位置的,而因果关系不可以互换位置。
4.
5.定序和定量变量两两组合得以下四种情况:
6.关于第六章的考试题型,参考课后练习第一题。
主要解决两个问题:
(1)对列联表格进行白分化;
(2)看两个定性变量是否存在关联。
7.如何构造列联表格:
(表6-4)
(1)先确定自变量与因变量的地位。
(2)将自变量放在横行,将因变量放在列行。
(3)表肚子的每一个数值为具体的自变量与因变量对应的值,记为fij,所有fij的得值为总数n,放在右下角。
(4)计算两个合计栏(横行和列行),对后续计算有用。
(表6-5)
从上图可以看到,第一步确定自变量和因变量的地位,自变量为“志愿者参与行为”,放在横行,因变量为“学历”,放在列行。
将调查得到的统计量依次填入表肚子,得到下表:
表格(6-5-1)
最后一步,算出两个“合计栏”的得值,与自变量对应的合计栏记为ni,与因变量对应的合计栏记为nj。
8.对列联表格进行百分比化,即将各个单元格的数字全部转化为百分数。
得到下图:
(表6-5-2)
9.看两个定性变量是否有关联(课本126-129页)
(1)做题步骤:
a.确定自变量和因变量
b.构建假设H0、H1,通常假设H0为两个变量没有关联;H1为两个变量有关联。
c.求出各个单元的eij,(不算合计栏),(每个fij对应一个eij)
d.代入公式(6-1)求出
的值
e.求
的值,其中α已知,p、q分别为列数与行数(不含合计栏)
f.比较第4步与第5步,若统计量
,则落入拒绝域,拒绝原假设。
(2)我们来尝试计算表(6-5)中两个变量是否具有关联性。
按照步骤,第一步确定自变量和因变量,自变量为志愿者参与行为,因变量为学历。
第二步,构建假设。
设H0:
志愿者行为与学历没有关联;H1:
志愿者行为与学历有关联。
第三步根据公式6-2求出各个单元格eij,
然后把4个期望频数代入公式(6-1)得
=14.65
再求
的值,取α=0.05,p=q=2,则求得
=3.841
14.65>3.841,落入拒绝域,拒绝原假设,因此参加志愿者活动与学历有关联。
(注意:
设立假设时,原假设为否定式,备择假设为肯定式)
第6章课后练习
一、
1、对该列联表进行百分比化的结果为:
软件难易程度
软件1
软件2
软件3
软件4
合计
低
5/32=15.6%
10/32=31.3%
14/32=43.8%
3/32=9.3%
100%(32)
中
8/61=13.1%
28/61=45.9%
18/61=29.5%
7/61=11.5%
100%(61)
高
22/57=38.6%
7/57=12.3%
8/57=14.0%
20/57=35.1%
100%(57)
合计
35/150=23.3%
45/150=30.0%
40/150=26.7%
30/150=20.0%
100%(150)
2、
解:
设立统计假设如下:
H0:
软件的难易程度与软件的类别无关
Ha:
软件的难易程度与软件的类别有关
检验统计量为
卡方值的求解过程如下表所示:
软件
难易程度
实际频数fij
期望频数eij
(eij-fij)2/eij
1
低
5
(35*32)/150=7.47
0.81
1
中
8
(35*61)/150=14.23
2.73
1
高
22
(35*57)/150=13.3
5.69
2
低
10
(45*32)/150=9.6
0.02
2
中
28
(45*61)/150=18.3
5.14
2
高
7
(45*57)/150=17.1
5.97
3
低
14
(40*32)/150=8.53
3.50
3
中
18
(40*61)/150=16.27
0.18
3
高
8
(40*57)/150=15.2
3.41
4
低
3
(30*32)/150=6.4
1.81
4
中
7
(30*61)/150=12.2
2.22
4
高
20
(30*57)/150=11.4
6.49
合计
150
1