高中数学必修23第三章32独立性检验的基本思想及其初步应用讲解.docx
《高中数学必修23第三章32独立性检验的基本思想及其初步应用讲解.docx》由会员分享,可在线阅读,更多相关《高中数学必修23第三章32独立性检验的基本思想及其初步应用讲解.docx(23页珍藏版)》请在冰点文库上搜索。
![高中数学必修23第三章32独立性检验的基本思想及其初步应用讲解.docx](https://file1.bingdoc.com/fileroot1/2023-7/8/31ba2e40-a312-4ec7-8e82-736ec9b2304f/31ba2e40-a312-4ec7-8e82-736ec9b2304f1.gif)
高中数学必修23第三章32独立性检验的基本思想及其初步应用讲解
3.2 独立性检验的基本思想及其初步应用
1.问题导航
(1)分类变量的概念是什么?
什么是列联表?
什么是2×2列联表?
(2)等高条形图的优点是什么?
如何利用等高条形图判断两个变量之间的关系?
(3)独立性检验的概念是什么?
怎样进行独立性检验?
2.例题导读
例1是利用等高条形图和K2值的计算判断秃顶与患心脏病是否有关,请试做教材P97练习.
1.分类变量和列联表
(1)分类变量
变量的不同“值”表示个体所属的_______不同类别,像这样的变量称为分类变量.
(2)列联表
①定义:
列出的两个分类变量的_______频数表称为列联表.
②2×2列联表
一般地,假设有两个分类变量X和Y,它们的取值分别为_______{x1,x2_______}和_______{y1,y2_______},其样本频数列联表(也称为2×2列联表)为下表.
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
2.等高条形图
(1)等高条形图与表格相比,更能直观地反映出两个分类变量间是否_______相互影响,常用等高条形图展示列联表数据的_______频率特征.
(2)观察等高条形图发现
和
相差很大,就判断两个分类变量之间_______有关系.
3.独立性检验
(1)定义
利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
(2)K2=_______
,
其中n=a+b+c+d为样本容量.
(3)独立性检验的具体做法
①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定_______临界值k0.
②利用公式计算随机变量K2的_______观测值k.
③如果_______k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则,就认为在_______犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中_______没有发现足够证据支持结论“X与Y有关系”.
1.判断(对的打“√”,错的打“×”)
(1)列联表中的数据是两个分类变量的频数.( )
(2)事件A与B的独立性检验无关,即两个事件互不影响.( )
(3)K2的大小是判断事件A与B是否相关的统计量.( )
答案:
(1)√
(2)× (3)√
2.在研究两个分类变量之间是否有关时,可以粗略地判断两个分类变量是否有关的是( )
A.散点图B.等高条形图
C.2×2列联表D.以上均不对
答案:
B
3.分类变量X和Y的列联表如下:
Y1
Y2
总计
X1
a
b
a+b
X2
c
d
c+d
总计
a+c
b+d
a+b+c+d
则下列说法中正确的是( )
A.ad-bc越小,说明X与Y关系越弱
B.ad-bc越大,说明X与Y关系越强
C.(ad-bc)2越大,说明X与Y关系越强
D.(ad-bc)2越接近于0,说明X与Y关系越强
答案:
C
4.若由一个2×2列联表中的数据计算K2的观测值k=4.013,那么在犯错误的概率不超过________的前提下认为两个变量有关系.
答案:
0.05
详析独立性检验
(1)独立性检验是对两个分类变量有关系的可信程度的判断,而不是对其是否有关系的判断.独立性检验的结论只能是有多大的把握认为两个分类变量有关系,而不能是两个分类变量一定有关系或没有关系.
(2)列联表中的数据是样本数据,它只是总体的代表,具有随机性,因此,独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论.
(3)独立性检验原理:
在假设H0下,如果出现一个与H0相矛盾的小概率事件,就推断H0不成立,且该推断犯错误的概率不超过这个小概率.
等高条形图的应用
(2015·青岛高二检测)某学校对高三学生作了一项调查发现:
在平时的模拟考试中,性格内向的学生426人中332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.
[解] 作列联表如下:
性格内向
性格外向
总计
考前心情紧张
332
213
545
考前心情不紧张
94
381
475
总计
426
594
1020
相应的等高条形图如图所示:
图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例,从图中可以看出考前心情紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例大,可以认为考前紧张与性格类别有关.
利用等高条形图判断两个分类变量是否相关的步骤
1.
(1)观察下列各图,其中两个分类变量X,Y之间关系最强的是( )
解析:
选D.在四幅图中,D图中两个阴影条的高度相差最明显,说明两个分类变量之间的关系最强.
(2)在一次恶劣气候的飞行航程中,调查男女乘客在机上晕机的情况如下表所示,据此资料你是否认为在恶劣气候飞行中男性比女性更容易晕机?
晕机
不晕机
总计
男性
23
32
55
女性
9
25
34
总计
32
57
89
解:
由数据的列联表可以得到等高条形图为:
从图中可以发现男性中晕机的频率与女性中晕机的频率相差较大,故我们认为性别和是否晕机有关系,且在恶劣气候飞行中男性比女性更容易晕机.
独立性检验
(2014·高考辽宁卷节选)某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:
喜欢甜品
不喜欢甜品
合计
南方学生
60
20
80
北方学生
10
10
20
合计
70
30
100
根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.
[解] 将2×2列联表中的数据代入公式计算,得
K2=
=
=
≈4.762.
因为4.762>3.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.
解决独立性检验问题的基本步骤:
(1)根据已知的数据作出列联表.
(2)作出相应的等高条形图,可以利用图形做出相应判断.
(3)求K2的观测值.
(4)判断可能性:
与临界值比较,得出事件有关的可能性大小.
2.
(1)为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:
理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.分析学生选报文、理科与对外语的兴趣是否有关?
解:
列出2×2列联表
理
文
总计
有兴趣
138
73
211
无兴趣
98
52
150
总计
236
125
361
代入公式得K2的观测值
k=
≈1.871×10-4.
∵1.871×10-4<2.706,
∴可以认为学生选报文、理科与对外语的兴趣无关.
(2)下表是某地区的一种传染病与饮用水的调查表:
得病
不得病
总计
干净水
52
466
518
不干净水
94
218
312
总计
146
684
830
①这种传染病是否与饮用水的卫生程度有关,请说明理由;
②若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.
解:
①假设H0:
传染病与饮用水无关,把表中数据代入公式得
K2=
≈54.21,
∵54.21>10.828,所以拒绝H0.
因此我们有99.9%的把握认为该地区这种传染病与饮用不干净水有关.
②依题意得2×2列联表:
得病
不得病
总计
干净水
5
50
55
不干净水
9
22
31
总计
14
72
86
此时,K2的观测值k=
≈5.785.
由于5.785>5.024,
所以我们有97.5%的把握认为该种疾病与饮用不干净水有关.
两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但①中我们有99.9%的把握肯定结论的正确性.②中我们只有97.5%的把握肯定.
规范解答
独立性检验的综合应用
(本题满分12分)调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据:
出生时间在晚上的男婴为24人,女婴为8人;出生时间在白天的男婴为31人,女婴为26人.
(1)将下面的2×2列联表补充完整;
出生时间
性别
晚上
白天
总计
男婴
女婴
总计
(2)能否在犯错误的概率不超过0.1的前提下认为婴儿性别与出生时间有关系?
[解]
(1)
出生时间
性别
晚上
白天
总计
男婴
24
31
55
女婴
8
26
34
总计
32
57
89
4分
(2)由所给数据计算K2的观测值
k=
≈3.689>2.706.8分
根据临界值表知P(K2≥2.706)≈0.10.9分
因此在犯错误的概率不超过0.1的前提下认为婴儿的性别与出生的时间有关系.12分
[规范与警示]
(1)解答过程中的表格经常因为不认真仔细,把数据填写错误,会直接导致总计出错,也会导致k值求错,另外在利用公式求K2的观测值时经常因为公式用错,数据代入计算错误,而使得独立性检验出错.
(2)在解答独立性检验题目中,数据有时比较多,一定不要混淆,要分辨清楚,否则会影响解题的下一步,如本例2×2列联表中数据极易混淆.
(3)计算中,有时公式复杂,要记忆准确,同时计算不能失误,如K2的公式很复杂,计算中也不要粗心.
1.对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是( )
A.k越大,“X与Y有关系”的可信程度越小
B.k越小,“X与Y有关系”的可信程度越小
C.k越接近于0,“X与Y没有关系”的可信程度越小
D.k越大,“X与Y没有关系”的可信程度越大
解析:
选B.k越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大,k越小,“X与Y有关系”的可信程度越小.
2.下面是调查某地区男女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图中可以看出( )
A.性别与喜欢理科无关
B.女生中喜欢理科的比为80%
C.男生比女生喜欢理科的可能性大些
D.男生不喜欢理科的比为60%
解析:
选C.由图知女生中喜欢理科的比为20%,男生不喜欢理科的比为40%,故B、D不正确.由图知,男生比女生喜欢理科的可能性大些.
3.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:
文艺节目
新闻节目
总计
20至40岁
40
18
58
大于40岁
15
27
42
总计
55
45
100
由表中数据直观分析,收看新闻节目的观众与年龄________.(填“有关”或“无关”)
解析:
因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即
=
,
=
,两者相差较大,所以,经直观分析,收看新闻节目的观众与年龄有关.
答案:
有关
4.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得的数据.
总成绩好
总成绩不好
总计
数学成绩好
478
a
490
数学成绩不好
399
24
423
总计
b
c
913
(1)计算a,b,c的值;
(2)文科学生总成绩不好与数学成绩不好有关系吗?
解:
(1)由478+a=490,得a=12.
由a+24=c,得c=12+24=36.
由b+c=913,得b=913-36=877.
(2)计算随机变量K2的观测值:
k=
≈6.233>5.024,
∵P(k≥5.024)≈0.025,
∴在犯错误的概率不超过0.025的前提下,认为文科学生总成绩不好与数学成绩不好有关系.
[A.基础达标]
1.下面是2×2列联表:
y1
y2
总计
x1
a
21
73
x2
22
25
47
总计
b
46
120
则表中a,b的值分别为( )
A.94,72B.52,50
C.52,74D.74,52
解析:
选C.根据列联表的特点,可知:
解得
2.下列关于等高条形图的叙述正确的是( )
A.从等高条形图中可以精确地判断两个分类变量是否有关系
B.从等高条形图中可以看出两个变量频数的相对大小
C.从等高条形图中可以粗略地看出两个分类变量是否有关系
D.以上说法都不对
解析:
选C.在等高条形图中仅能粗略判断两个分类变量的关系,故A错.在等高条形图中仅能够找出频率,无法找出频数,故B错.
3.在研究打鼾与患心脏病之间的关系中,通过收集数据、整理分析数据得到“打鼾与患心脏病有关”的结论,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的.下列说法中正确的是( )
A.100个心脏病患者中至少有99人打鼾
B.1个人患心脏病,则这个人有99%的概率打鼾
C.100个心脏病患者中一定有打鼾的人
D.100个心脏病患者中可能一个打鼾的人都没有
解析:
选D.这是独立性检验,犯错误的概率在不超过0.01的前提下认为“打鼾与患心脏病有关”.这只是一个概率,即打鼾与患心脏病有关的可能性为99%.根据概率的意义可知答案应选D.
4.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:
作文成绩优秀
作文成绩一般
总计
课外阅读量较大
22
10
32
课外阅读量一般
8
20
28
总计
30
30
60
由以上数据,计算得到K2的观测值k≈9.643,根据临界值表,以下说法正确的是( )
A.没有充足的理由认为课外阅读量大与作文成绩优秀有关
B.有0.5%的把握认为课外阅读量大与作文成绩优秀有关
C.有99.9%的把握认为课外阅读量大与作文成绩优秀有关
D.有99.5%的把握认为课外阅读量大与作文成绩优秀有关
解析:
选D.根据临界值表,9.643>7.879,在犯错误的概率不超过0.005的前提下,认为课外阅读量大与作文成绩优秀有关,即有99.5%的把握认为课外阅读量大与作文成绩优秀有关.
5.对两个分类变量A、B的下列说法中正确的个数为( )
①A与B无关,即A与B互不影响;
②A与B关系越密切,则K2的值就越大;
③K2的大小是判定A与B是否相关的唯一依据
A.1B.2
C.3D.0
解析:
选A.①正确,A与B无关即A与B相互独立;②不正确,K2的值的大小只是用来检验A与B是否相互独立;③不正确,也可借助等高条形图等.故选A.
6.独立性检验所采用的思路是:
要研究X,Y两个分类变量彼此相关,首先假设这两个分类变量彼此________,在此假设下构造随机变量K2.如果K2的观测值较大,那么在一定程度上说明假设________.
解析:
独立性检验的前提是假设两个分类变量无关系,然后通过随机变量K2的观测值来判断假设是否成立.
答案:
无关系 不成立
7.在吸烟与患肺病是否相关的判断中,有下面的说法:
①若K2的观测值k>6.635,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;
②从独立性检验可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;
③从独立性检验可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.
其中说法正确的是________.
解析:
K2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;说法②中对“确定容许推断犯错误概率的上界”理解错误;说法③正确.
答案:
③
8.在对某小学的学生进行吃零食的调查中,得到如下表数据:
吃零食
不吃零食
总计
男学生
27
34
61
女学生
12
29
41
总计
39
63
102
根据上述数据分析,我们得出的K2的观测值k约为________.
解析:
由公式可计算得k=
≈2.334.
答案:
2.334
9.某生产线上,质量监督员甲在生产现场时,990件产品中有合格品982件,次品8件;不在生产现场时,510件产品中有合格品493件,次品17件.试利用列联表和等高条形图判断监督员甲在不在生产现场对产品质量好坏有无影响.
解:
根据题目所给数据得如下2×2列联表:
合格品数
次品数
总计
甲在生产现场
982
8
990
甲不在生产现场
493
17
510
总计
1475
25
1500
∵ad-bc=982×17-8×493=12750,|ad-bc|比较大,说明甲在不在生产现场与产品质量好坏有关系.
相应的等高条形图如图所示.
图中两个阴影部分的高分别表示甲在生产现场和甲不在生产现场时样品中次品数的频率.从图中可以看出,甲不在生产现场时样本中次品数的频率明显高于甲在生产现场时样本中次品数的频率.因此可以认为质量监督员甲在不在生产现场与产品质量好坏有关系.
10.研究人员选取170名青年男女大学生作为样本,对他们进行一种心理测验,发现60名女生对该心理测验中的最后一个题目的反应是:
作肯定的有22名,作否定的有38名;110名男生在相同的题目上作肯定的有22名,作否定的有88名,问:
性别与态度之间是否存在某种关系?
试用独立性检验的方法判断.
解:
根据题意,得如下2×2列联表:
肯定
否定
总计
男生
22
88
110
女生
22
38
60
总计
44
126
170
根据列联表中的数据,得
k=
≈5.622>5.024,所以可以在犯错误的概率不超过0.025的前提下认为“性别与态度有关”.
[B.能力提升]
1.假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其2×2列联表如下:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
对于以下数据,对同一样本能说明X与Y有关的可能性最大的一组为( )
A.a=5,b=4,c=3,d=2
B.a=5,b=3,c=4,d=2
C.a=2,b=3,c=4,d=5
D.a=2,b=3,c=5,d=4
解析:
选D.对于A,|ad-bc|=|10-12|=2;
对于B,|ad-bc|=|10-12|=2;
对于C,|ad-bc|=|10-12|=2;
对于D,|ad-bc|=|8-15|=7.
2.有两个分类变量X,Y,其一组的列联表如下所示,
Y1
Y2
X1
a
20-a
X2
15-a
30+a
其中a,15-a均为大于5的整数,若在犯错误的概率不超过0.05的前提下认为X,Y有关,则a的值为( )
A.8B.9
C.8,9D.6,8
解析:
选C.根据公式,得K2的观测值k=
=
>3.841,根据a>5且15-a>5,a∈Z,求得a=8,9满足题意.
3.某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:
专业
性别
非统计专业
统计专业
男
13
10
女
7
20
为了判断主修统计专业是否与性别有关系,根据表中的数据,得到随机变量K2的观测值:
k=
≈4.844>3.841.
因此,判定主修统计专业与性别有关系,那么这种判断出错的概率为________.
解析:
根据k>3.841,可判断在犯错误的概率不超过0.05的前提下,认为主修统计专业与性别有关系.故出错的概率为0.05.
答案:
0.05
4.对某校小学生进行心理障碍测试得到如下的列联表:
有心理障碍
没有心理障碍
总计
女生
10
20
30
男生
10
70
80
总计
20
90
110
试说明心理障碍与性别的关系:
________.
解析:
由表可知,a=10,b=20,c=10,d=70,
a+b=30,c+d=80,a+c=20,b+d=90,n=110,ad=700,bc=200,
把以上数值代入K2=
=
≈6.3657.
因为6.3657>5.024,所以在犯错误的概率不超过0.025的前提下认为心理障碍与性别有关系.
答案:
在犯错误的概率不超过0.025的前提下认为心理障碍与性别有关系
5.某学生对其30位亲属的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数,如图所示.(说明:
图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数大于等于70的人,饮食以肉类为主.)
(1)根据茎叶图,帮助这位同学说明其30位亲属的饮食习惯;
(2)根据以上数据完成如表所示的2×2列联表.
主食蔬菜
主食肉类
总计
50岁以下
50岁以上
总计
(3)能否在犯错误的概率不超过0.010的前提下认为“其亲属的饮食习惯与年龄有关”?
并写出简要分析.
解:
(1)30位亲属中50岁以上的人饮食多以蔬菜为主,50岁以下的人饮食多以肉类为主.
(2)列联表如表所示:
主食蔬菜
主食肉类
总计
50岁以下
4
8
12
50岁以上
16
2
18
总计
20
10
30
(3)K2=
=10>6.635,
所以在犯错误的概率不超过0.010的前提下认为“其亲属的饮食习惯与年龄有关”.
6.为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:
性别
是否需要志愿者
男
女
需要
40
30
不需要
160
270
(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;
(2)能否在犯错误的概率不超过0.010的前提下认为该地区的老年人是否需要志愿者提供帮助与性别有关?
(3)根据
(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?
说明理由.
附:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
K2=
.
解:
(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估计值为
×100%=14%.
(2)K2的观测值
k=
≈9.967.
由于9.967