高一数学《概率与统计》.doc
《高一数学《概率与统计》.doc》由会员分享,可在线阅读,更多相关《高一数学《概率与统计》.doc(19页珍藏版)》请在冰点文库上搜索。
概率默统计类
第6讲
6.1随机抽样
考点1:
抽样方法
知识点睛
一.随机抽样
随机抽样:
满足每个个体被抽到的机会是均等的抽样,共有三种经常采用的随机抽样方法:
1.简单随机抽样:
从元素个数为的总体中不放回地抽取容量为的样本,如果每一次抽取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简单随机抽样.简单随机抽样是最简单、最基本的抽样方法.
⑴抽出办法:
①抽签法:
用纸片或小球分别标号后抽签的方法.
②随机数表法:
随机数表是使用计算器或计算机的应用程序生成随机数的功能生成的一张数表.表中每一位置出现各个数字的可能性相同.随机数表法是对样本进行编号后,按照一定的规律从随机数表中读数,并取出相应的样本的方法.
⑵简单随机抽样必须具备下列特点:
①简单随机抽样要求被抽取的样本的总体个数是有限的.
②简单随机样本数小于等于样本总体的个数.
③简单随机样本是从总体中逐个抽取的.
④简单随机抽样是一种不放回的抽样.
⑤简单随机抽样的每个个体被抽取的可能性均为.
<教师备案>样本获取分为两种,一种是全面统计,一种是样本统计.
全面统计的例子非常多,比如美国大选,每个州的选民都是通过投票选出每个州的负责人.也就是每个人都表达了自己的意见.再比如我们调查学生是海淀还是非海淀,我们也是给每个学生打了电话,访谈出结果,每个同学也都表达了自己的意见.再比如一些小事,像一群人中午的时候讨论去哪吃饭,每个人都可以说自己喜欢的地方.
全面统计的好处在于无遗漏,数据准确无偏差,但是缺点也很明显,那就是非常的繁琐、麻烦.对于大数据的处理很无力,所以我们需要有样本统计.
样本统计的意义就是从一个大数据中抽取数据样本分析,通过对样本的分析来估计原数据的性质.于是首要的问题就是如何抽样.一个合理的抽样方法的基本要求是“平等”,也就是每个个体被抽取的可能性是相同的.比如我们发现,老师选出的学生代表很可能不能真正代表全体同学的意见,因为老师选取的一定是自己比较熟悉的学生,这类学生平时一定非常活跃.而对于一些比较内向,“存在感”比较低的同学来说,老师可能就不会关注,被选中的可能性就会降低.由此可以推知,人为的抽样一般是不靠谱的.再比如,现在很多的新闻都有网上的调查,有的媒体通过网上调查的数据来分析广大人民对新闻的反馈.这样的调查也是不靠谱的,因为网上调查反映出来的大多是经常上网的人的意见,而对于平时不上网的人就没有调查,所以这样的抽样也是不合理的.
最常见的合理抽样方式是“抓阄”,这可以保证每个个体都能“等可能”的被选中.当然抓阄的方式有很多,比如很多时候我们不需要每个人都去抓一次,我们可以把每个人编一个号,然后由一个人来抽号就可以了.比如我们常见的彩票大致就是这个原理.不过需要注意的是彩票里面的等可能是对彩票是等可能的,对人不一样,因为一个人可以买很多彩票.
<教师备案>老师在讲完简单随机抽样后可以让学生做例1的【铺垫】⑴,本小题主要是让学生理解什么是总体,什么是个体,什么是样本容量,因为简单随机抽样比较简单,而且在后边要讲的系统抽样和分层抽样中都要用到,所以这里就不再详细讲解了.
2.系统抽样:
将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本的抽样方法.系统抽样适用于大规模的抽样调查,由于抽样间隔相等,又被称为等距抽样.
⑴抽出办法:
从元素个数为的总体中抽取容量为的样本,如果总体容量能被样本容量整除,设,先对总体进行编号,号码从到,再从数字到中随机抽取一个数作为起始数,然后顺次抽取第个数,这样就得到容量为的样本.如果总体容量不能被样本容量整除,可随机地从总体中剔除余数,然后再按系统抽样方法进行抽样.
⑵系统抽样时,当总体个数恰好是样本容量的整数倍时,取;若不是整数时,先从总
体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容量整除.因为每个个体被剔除的机会相等,因而整个抽样过程中每个个体被抽取的机会仍然相等为.
<教师备案>随着数量的增大,抓阄的方式效率会比较低.当然,随着现在计算机的发展,数据量很大的时候也是可以通过“选号”的方式进行随机抽样.课本上提到的系统抽样其实现在已经不怎么使用了.不过作为传统意义下的抽样方法,我们还是有必要介绍一下.
系统抽样的核心是“选出代表”,每个代表会直接代表一个群体的意见.系统抽样的方式分为两种,一种是横向抽样,也就是我们教科书上的抽样方式,这种例子非常多,比如军训的时候,可能我们出现过“一到三”报数,这样就把我们分成了“一”“二”“三”三个组,然后就可以随机选一个数“一”,然后所有的“一”就被选中了.同样的道理,我们对人,选取一个人的样本,那么我们就需要把总数分成组,每组个人,然后让第一组的人抓阄(为的是随机抽样),比如“”抓到,那么每一组的“”就被选中了.
另一种系统抽样的方式是“纵向抽样”,它出现的原理是这样的:
原始的系统抽样方法会造成直观上的不公平.比如我们人里面选人去叙利亚旅游,大家肯定都不愿意去,第一组的人抓阄之后,由于第一组的号被选中,那么每一组的号就都被选中了,其他组的号会认为被第一组的号连累,因为他们是“被”选中的.虽然从可能性上说,这没有道理,不过直观上确实有点“躺枪”的意思.于是人们改变了方式,也就是纵向系统抽样.比如现在我们还是人里面选人去叙利亚,我们把所有人分成组,每组人,然后每组自行推举一个代表上台抓阄,被选中的人所在的组,整组都被选中.这样我们每个组都有人去抓阄,也就实现了直观上的公平.但是在可能性的角度,横向和纵向抽样都是“等可能”的,没有本质区别.
<教师备案>老师在讲完系统抽样后就可以让学生做例1的铺垫⑵,例1⑵以及尖子班拓展⑵,这几个题都是系统抽样,老师可以选择几个让学生做做,不一定都让学生做,老师自己选择.
3.分层抽样:
当总体有明显差别的几部分组成时,要反映总体情况,常采用分层抽样,使总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在各层中按层在总体中所占比例进行简单随机抽样,这种抽样方法叫做分层抽样.分层抽样的样本具有较强的代表性,而且各层抽样时,可灵活选用不同的抽样方法,应用广泛.
<教师备案>简单随机抽样(抓阄)和系统抽样都是绝对意义上的公平,但是分层抽样就是相对意义上的公平,因为我们人为的干扰了抽样的过程.不过现实意义之下我们统计数据必须进行分层,否则统计数据会闹出笑话.常见的一个就是我家房子平米,后来搬过来一个邻居,房子面积是平米,那么我家的生活状况有没有改变.实际上没有,但是统计数字可能告诉你,你们的平均面积增加了.现实生活中,很多的统计需要分层,比如统计收入水平的时候需要分不同的城市,统计生育问题的时候要分城市和农村,统计化妆品消费水平的时候要分性别等等.所以分层抽样就是为了保证每个层面上的公平性,我们按照每个层次占到总体的多少来分配选取的比例.这里老师可以开发更多的统计实例,一定要讲出现实意义来.
<教师备案>老师在讲完分层抽样后可以让学生做例1的铺垫⑶,例1⑶以及目标班专用⑷,让学生熟练掌握分层抽样,因为在以后考试和北京高考中,三个抽样重点考察分层抽样.老师在讲完三个抽样后一定要让学生明白什么情况下用什么抽样,这个时候就可以让学生做例1⑴,尖子班拓展⑴.
经典精讲
【铺垫】⑴为了了解参加运动会的名运动员的年龄情况,从中抽取名运动员;就这个问题,
下列说法中正确的有()个
①名运动员是总体;②每个运动员是个体;③所抽取的名运动员是一个样本;
④样本容量为;⑤每个运动员被抽到的概率相等
A. B.C.D.
⑵从编号为的枚最新研制的某种型号的导弹中随机抽取枚来进行发射实验,若采用每部分选取的号码间隔一样的系统抽样方法,则所选取枚导弹的编号可能是()
A.B.
C.D.
⑶某商场有四类食品,其中粮食类、植物油类、动物性食品类及果蔬类分别有种、种、种、种,现从中抽取一个容量为的样本进行食品安全检测.若采用分层抽样的方法抽取样本,则抽取的植物油类与果蔬类食品种数之和是()
A.B.C. D.
【解析】⑴B;④⑤正确,①②③错误
⑵B;
⑶C;.
【例1】三种抽样
⑴现有以下两项调查:
①某装订厂装订图书册,要求检验员从中抽取册图书,检
查其装订质量状况;②某市有大型、中型与小型的商店共家,三者数量之比为
.为了调查全市商店每日零售额情况,抽取其中家进行调查.完成①、②这两项
调查宜采用的抽样方法依次是()
A.简单随机抽样法,分层抽样法B.分层抽样法,简单随机抽样法
C.分层抽样法,系统抽样法D.系统抽样法,分层抽样法
⑵用系统抽样法要从160名学生中抽取容量为20的样本,将160名学生随机地从1~160编号,按编号顺序平均分成20组(号,号,…,号),若第16组抽出的号码为126,则第1组中用抽签的方法确定的号码是.
⑶某工厂生产、、三种不同型号的产品,产品数量之比依次为.现用分层抽样方法抽出一个容量为的样本,样本中种型号产品有件.那么此样本的容量.
⑷(目标班专用)某校有名学生,型血的有人,型血的有人,型血的
有人,为了研究血型与色弱有没有关系,要从中抽取一个人的样本,按分层抽样,型血应抽取的人数为人.
【解析】⑴D;①是系统抽样;②明显是分层抽样;
⑵;不妨设第1组抽出的号码为,则第16组应抽出的号码是,∴.
⑶;种型号的产品占总体的比例是,则样本容量.
⑷该学校型血的人数为,按照分层抽样的抽样比相等得:
,解得,即型血应抽取的人数为人.
6.2用样本估计总体
<教师备案>学习了抽样后,需要对收集的这些有代表性的样本数据进行研究,找出有用的信息,然后用这些样本来估计总体.这种估计一般分成两种,一种是用样本的频率分布估计总体的分布,另一种是用样本的数字特征估计总体的数字特征.用来估计的图表和方法有很多种,本版块在初中的基础上来学习频率分布直方图、茎叶图和方差.
考点2:
频率分布直方图
知识点睛
1.列出样本数据的频率分布表和频率分布直方图的步骤:
①计算极差:
找出数据的最大值与最小值,计算它们的差;
②决定组距与组数:
取组距,用决定组数;
③决定分点:
决定起点,进行分组;
④列频率分布表:
对落入各小组的数据累计,算出各小组的频数,除以样本容量,得到各小组的频
率.
⑤绘制频率分布直方图:
以数据的值为横坐标,以的值为纵坐标绘制直方图,
知小长方形的面积=组距×=频率.
2.频率分布折线图:
将频率分布直方图各个长方形上边的中点用线段连接起来,就得到频率分布折线图,一般把折线图画成与横轴相连,所以横轴左右两端点没有实际意义.
3.总体密度曲线:
样本容量不断增大时,所分组数不断增加,分组的组距不断缩小,频率分布直方图可以用一条光滑曲线来描绘,这条光滑曲线就叫做总体密度曲线.总体密度曲线精确地反映了一个总体在各个区域内取值的规律.
<教师备案>这里主要介绍的就是样本分析方法,直方图就是很重要的一种.其实直方图的形成过程就是把数据按大小排序,然后分段截取数据.实际生活中最常见的方法就是“画正字”,比如我们收到了一组数据是学生的跳绳次数,我们就可以把次数分成若干组,然后一个一个数据看落在了哪个组里,利用“画正字”的方式看出每组里有几个数,最后画出直方图.直方图的主要作用是看出数据的分布变化趋势,很容易表示大量数据,缺点是原始数据不能在图上表示出来.
通过例2的学习,让学生可以由给出的频率分布直方图算出各组数据的频率和频数,理解横纵坐标代表的意义.频率分布折线图和总体密度曲线不需要深究,在频率分布直方图的基础上,简单介绍即可.
经典精讲
【例2】频率分布直方图
⑴某棉纺厂为了了解一批棉花的质量,从中随机抽取了根棉花纤维的长度(棉花纤维
的长度是棉花质量的重要指标),所得数据都在区间中,其频率分布直方图如图所示,则其抽样的根中,长度在内的频率为______,有______根棉花纤维的长度小于.
⑵(目标班专用)某班50名学生在一次百米测试中,成绩全部介于13秒与19秒之间,
将测试结果按如下方式分成六组:
第一组,成绩大于等于13秒且小于14秒;第二组,成绩大于等于14秒且小于15秒;……第六组,成绩大于等于18秒且小于等于19秒.右图是按上述分组方法得到的频率分布直方图,设成绩小于17秒的学生人数占全班总人数的百分比为,成绩大于等于15秒且小于17秒的学生人数为,则从频率分布直方图中可分析出和分别为()
A.,35 B.,45 C.,35 D.,45
【解析】⑴,;
由频率分布直方图可得,长度在内的频率为.
棉花纤维长度小于20mm的频率为则棉花纤维长度小于20mm的频数为根.
⑵(目标班专用)A.
考点3:
茎叶图
知识点睛
<教师备案>当样本数据较少时,可以用样本分析的另一个常用图表方法――茎叶图,这个图主要作用是两组数据的对比.一左一右很容易估计出两组数据的对比状况,而且茎叶图是把所有的数据都列出来,精确性上比直方图要好一点,但是对于数据特征的分析不如直方图直观.可以结合铺垫讲解知识点,并简单复习一下初中学过的中位数、平均数的概念.
1.制作茎叶图的步骤:
①将数据分为“茎”、“叶”两部分;
②将最大茎与最小茎之间的数字按大小顺序排成一列,并画上竖线作为分隔线;
③将各个数据的“叶”在分界线的一侧对应茎处按一定次序同行列出.
<教师备案>“按一定次序”一般是按大小顺序,也可以按统计数据的顺序.
2.平均数:
平均数是指在一组数据中所有数据之和再除以数据的个数.
中位数:
是指将统计总体当中的各个数据值按大小顺序排列起来,形成一个数列,处于数列中间位置的数据值就称为中位数.当数列的项数为奇数时,处于最中间位置的数据值即为中位数;当项数为偶数时,中位数则为处于中间位置的两个数据值的平均数.
经典精讲
【铺垫】某班甲、乙两学生的高考备考成绩如下:
甲:
乙:
①用茎叶图表示两学生的成绩;
②分别求两学生成绩的中位数和平均分.
【解析】①两学生成绩的茎叶图如图所示
②将甲、乙两学生的成绩从小到大排列为:
甲:
,
乙:
.
从以上排列可知甲学生成绩的中位数为,
乙学生成绩的中位数为.
甲学生成绩的平均数为,
乙学生成绩的平均数为.
【例3】茎叶图
随机抽取某中学甲,乙两班各名同学,测量他们的身高(单位:
),获得身高数据的茎叶图如图,则下列关于甲,乙两班这名同学身高的结论正确的是()
A.甲班同学身高在以上的人数较多
B.甲班同学身高的中位数较大
C.甲班同学身高的平均值较小
D.甲、乙班同学身高的平均值一样大
【解析】C;
甲班同学身高175以上的有3人,乙班有4人,故而A错误.
甲班同学身高的中位数为169,乙班同学身高的中位数为.故而B错误.
容易计算得知,,,故C对.
考点4:
统计数据的数字特征
<教师备案>分析样本数据时,我们已经学过了众数、中位数和平均数这些概念,它们都可以用来表示统计数据的特征信息,各有利弊.平均数是统计数据一个非常好的特征,它可以利用所有的样本数据,而且比较好算.也正因为平均数利用了所有的数据,所以它容易受到一些极端数据的影响.比如歌唱比赛时,去掉一个最高分和一个最低分,然后再平均,就是为了避免出现个别评委的极端喜恶,尽量体现评分的准确和公正性.再比如公布一个地区的家庭平均收入时,平均数也掩盖了一些极端情况的存在,而这些是不容忽视的.怎么样能反映这些极端情况呢,也就是数据的离散程度呢,从运算方便等各方面考虑,引入了方差或标准差来进行衡量.
知识点睛
统计数据的数字特征
1.用样本平均数估计总体平均数;用样本标准差估计总体标准差:
2.数据的离散程度可以用极差、方差或标准差来描述:
⑴极差又叫全距,是一组数据的最大值和最小值之差,反映一组数据的变动幅度;
⑵样本方差描述了一组数据围绕平均数波动的大小,样本的标准差是方差的算术平方根.
一般地,设样本的元素为,样本的平均数为,
定义样本方差为,
样本标准差,简化公式:
.
<教师备案>这部分其实没有真正的考察,现在最多也就是通过样本的特征直接套用在整体数据上.
寒假班对方差只需要初步理解它存在的意义即可,对方差的直观理解放在春季同步班讲解.
经典精讲
【例4】方差
甲、乙、丙三名射箭运动员在某次测试中各射箭20次,三人的测试成绩如下表,,分别表示甲、乙、丙三名运动员这次测试成绩的标准差,则有()
甲的成绩
乙的成绩
丙的成绩
环数
7
8
9
10
环数
7
8
9
10
环数
7
8
9
10
频数
5
5
5
5
频数
6
4
4
6
频数
4
6
6
4
A. B. C. D.
【解析】B;
根据题中数据计算
∴;
同理得∴.
6.3随机事件概率
<教师备案>概率的定义是一个漫长的过程,最开始就是根据经验,对统计事实的认识.历史上对概率的理解可以分为三个阶段:
第一阶段:
大量统计中发生的几率有多大.比如很多数学家都玩过“扔硬币”这个游戏,而且还统计了结果,如图.
大家发现,扔了很多很多次之后,结果都差不多是正反面各占一半,所以大家认为硬币出正面的概率是.可能有人觉得这个做法很无聊,但是这只是概率的现象,是一个结果层面的东西,并不是概率的本质.不过现在计算机在估计概率的时候也是用这样的方法进行多次的实验,最终估计出一个结果.
第二阶段:
人们开始想一些复杂的问题.这里面著名的问题有两个,一个是赌徒分金问题(注:
两个赌徒玩掷硬币,规定正面则甲加一分,反面则乙加一分,谁先得到分谁就可以赢得一袋金币,现在进行到甲乙,警察来了,说不让赌了,那么这些金币该怎么分.(【解析】按照的比例分;假设警察没有来,则乙赢的概率为:
,甲赢的概率为:
,应该按照的比例分金币),另一个问题是掷两个骰子,至少有一个的概率(【解析】:
).这些问题基本上是很难通过实验来得出结论,毕竟情景比较复杂,这就促使人们要从概率的理论角度入手解决.费马在概率的定义方面做出了杰出的贡献,因为他引入了“等可能”这个概念.就是我们需要先认同一些基本的“等可能”的条件,然后再由此出发考虑复杂情况.
第三阶段:
古典概型有弊端,因为古典概型的必然要求是要把一个事件分解成若干等可能的基本事件,不过有些问题中这件事是做不到的.比如打靶问题.所以才有了几何概型这个概念.之后随着函数论的发展,我们用函数基础定义概率的时候我们就有了新的概率理论.后续的离散型随机变量说的就是这个阶段的问题.
建议老师在一开始教学的时候强化概率的直观解释.比如:
掷硬币模型,再比如:
猜黑白(俗称手心手背).其实这就是利用了概率均等的原理进行的.我们可以想一想,手心手背其实是很有效的一个等概率选取方式.另外,猜拳也是一个非常有效的等概率选取方式.这些概率其实挺难算的,不过我们可以让学生直观的理解概率的意义.同样的问题还有:
【趣题】
1.甲乙两个人去公园,公园有个景点,在这个景点中两个人各自独立的选取个,假定甲和乙同时出发,游览每一个景点的时间都是相同的,那么他们在最后一个景点相遇的概率是多少?
【解析】下面有三种方法,老师在给学生讲本讲的时候可以讲法一,法二和法三供老师
参考:
法一:
从概率意义的直观理解,考虑甲最后在的一个景点,乙最后在任何一个景点的可能性相同,恰好在甲所在的景点的概率为.
法二:
甲最后一个景点为号景点的概率都为,乙最后一个景点为号景点的概率也为,故他们最后一个景点为同一个景点的概率为.
法三:
他们参观景点的所有顺序有种,每种参观景点的顺序出现的可能性相同,故在最后一个景点相遇的情况有,故所求概率为.
2.华约的自招考题:
个人传球,每个人都等概率的传给其他人,由甲开始第一次传球,设为传球次数,次传球后球在甲手里的概率记为,问当趋向于无穷的时候,趋向于多少?
【解析】下面有两种方法,老师在给学生讲本题的时候可以讲法一,法二供老师参考:
法一:
从概率意义的直观理解,因为每个人都等可能的传给其他人,所以球在甲手里的概率为,传次球后球在甲手里的概率依然为.
法二:
记表示事件“经过次传球后,球在甲手中”,
则有,.
所以与的关系式为,①
设,对比得.
于是①式可以变形为,
从而是公比为的等比数列,其首项为.
故有,,②
由②可得.
另外还可以介绍一些概率不能直观解释的例子:
比如生日悖论:
世界上任取个人,他们至少有两个人生日在同一天的概率是多少?
请见下图(转自维基百科)
由此可见,当取到个人的时候,概率已经超过了,选取人的时候,概率应该在左右.
还有一个例子:
乒乓球体育比赛中规定:
如果双方得分是,那么一方至少要得分才能获胜,也就是至少比对方多两分.那么这种“延球”制相对于没有延球制度,到底是对强者更有利,还是帮助弱者有更大的机会翻身呢?
(【解析】延球制度对强者更有利;假设强者很强,则再比赛一局有可能强者胜也有可能弱者胜,但是再比赛两局或者比赛无穷多局,肯定是强者赢的概率更大),这些其实都是通过直观解释概率比较复杂的问题.
接下来我们可以定义事件:
考点5:
随机事件的概率
知识点睛
一.事件
1.必然现象与随机现象
必然现象是在一定条件下必然发生某种结果的现象;
随机现象是在相同条件下,很难预料哪一种结果会出现的现象.
例子:
判断以下现象是否为随机现象
①某路口单位时间内通过“宝马”牌轿车的车辆数;
②边形的内角和为;
③某同学竞选学生会主席成功;
④一名篮球运动员每场比赛所得的分数.
答案:
⑴①③④是随机现象
2.试验:
我们把观察随机现象或为了某种目的而进行的实验统称为试验,把观察结果或实验的结果称为试验的结果.一次试验是指事件的条件实现一次.
3.事件
在同样的条件下重复进行试验时,始终不会发生的结果,称为不可能事件;
在每次试验中一定会发生的结果,称为必然事件;
在试验中可能发生,也可能不发生的结果称为随机事件.
通常用大写英文字母来表示随机事件,简称为事件.
<教师备案>建议老师和学生强调,我们其实可以把任何一件事情看成一个事件,但是我们必须把事件说的准确.比如我们不能说抛硬币是一个事件,而“抛一次硬币出现了正面”才是一个事件,因为这样我才能定义这个事件的概率.再比如说我们不能说“掷骰子”是一个事件,我们必须说“掷一次骰子出现了偶数”是一个事件.简单的说就是我们对事件的描述必须是准确的,有结果的.
<教师备案>基本事件放到古典概型里再讲,老师在讲完事件后就可以让学生做例5⑴,这道题是考查事件的.
二.随机事件的概率计算
1.如果事件同时发生,我们记作,简记为;
2.概率的统计定义:
一般地,在次重复进行的试验中,事件发生的频率,当很大时,总是在某个常数附近摆动,随着的增加,摆动幅度越来越小,这时就把这个常数叫做事件的概率,记为.从概率的定义中,我们可以看出随机事件的概率满足:
.当是必然事件时,,当是不可能事件时,.
3.互斥事件与事件的并
互斥事件:
不可能同时