高中数学统计与概率知识点原稿.docx
《高中数学统计与概率知识点原稿.docx》由会员分享,可在线阅读,更多相关《高中数学统计与概率知识点原稿.docx(13页珍藏版)》请在冰点文库上搜索。
高中数学统计与概率知识点原稿
高中数学统计与概率知识点(文)
第一部分:
统计
一、什么是众数。
一组数据中出现次数最多的那个数据,叫做这组数据的众数。
众数的特点。
①众数在一组数据中出现的次数最多;②众数反映了一组数据的集中趋势,当众数出现的次数越多,它就越能代表这组数据的整体状况,并且它能比较直观地了解到一组数据的大致情况。
但是,当一组数据大小不同,差异又很大时,就很难判断众数的准确值了。
此外,当一组数据的那个众数出现的次数不具明显优势时,用它来反映一组数据的典型水平是不大可靠的。
3.众数与平均数的区别。
众数表示一组数据中出现次数最多的那个数据;平均数是一组数据中表示平均每份的数量。
二、.中位数的概念。
一组数据按大小顺序排列,位于最中间的一个数据(当有偶数个数据时,为最中间两个数据的平均数)叫做这组数据的中位数。
三.众数、中位数及平均数的求法。
①众数由所给数据可直接求出;②求中位数时,首先要先排序(从小到大或从大到小),然后根据数据的个数,当数据为奇数个时,最中间的一个数就是中位数;当数据为偶数个时,
最中间两个数的平均数就是中位数。
③求平均数时,就用各数据的总和除以数据的个数,得数就是这组数据的平均数。
四、中位数与众数的特点。
⑴中位数是一组数据中唯一的,可能是这组数据中的数据,也可能不是这组数据中的数据;
⑵求中位数时,先将数据有小到大顺序排列,若这组数据是奇数个,则中间的数据是中位数;若这组数据是偶数个时,则中间的两个数据的平均数是中位数;
⑶中位数的单位与数据的单位相同;
⑷众数考察的是一组数据中出现的频数;
⑸众数的大小只与这组数的个别数据有关,它一定是一组数据中的某个数据,其单位与数据的单位相同;
(6)众数可能是一个或多个甚至没有;
(7)平均数、众数和中位数都是描述一组数据集中趋势的量。
5.平均数、中位数与众数的异同:
⑴平均数、众数和中位数都是描述一组数据集中趋势的量;
⑵平均数、众数和中位数都有单位;
⑶平均数反映一组数据的平均水平,与这组数据中的每个数都有关系,所以最为重要,应用最广;
⑷中位数不受个别偏大或偏小数据的影响;
⑸众数与各组数据出现的频数有关,不受个别数据的影响,有时是我们最为关心的数据。
六、对于样本数据X1,X2,…,Xn,设想通过各数据到其平均数的平均距离来反映样本数据的分散程度,那么这个平均距离如何计算?
|治-X|+|X2-X|+L+|Xn-X|
思考4:
反映样本数据的分散程度的大小,最常用的统计量是标准差,一般用s表示•假设
样本数据X1,X2,…,Xn的平均数为X,则标准差的计算公式是:
(Xi-x)2+(X2-X)2+L+(Xn-X)2
七、简单随即抽样的含义
一般地,设一个总体有N个个体,从中逐个不放回地抽取n个个体作为样本(nWN),如果每次抽取时总体内的各个个体被抽到的机会都相等,则这种抽样方法叫做简单随机抽
样•
八、根据你的理解,简单随机抽样有哪些主要特点?
(1)总体的个体数有限;
(2)样本的抽取是逐个进行的,每次只抽取一个个体;
(3)抽取的样本不放回,样本中无重复个体;
(4)每个个体被抽到的机会都相等,抽样具有公平性
九、抽签法的操作步骤?
第一步,将总体中的所有个体编号,并把号码写在形状、大小相同的号签上第二步,将号签放在一个容器中,并搅拌均匀
第三步,每次从中抽取一个号签,连续抽取n次,就得到一个容量为n的样本.
十一、抽签法有哪些优点和缺点?
优点:
简单易行,当总体个数不多的时候搅拌均匀很容易,个体有均等的机会被抽中,
从而能保证样本的代表性•
缺点:
当总体个数较多时很难搅拌均匀,产生的样本代表性差的可能性很大•
十一、利用随机数表法从含有N个个体的总体中抽取一个容量为n的样本,其抽样步骤
如何?
第一步,将总体中的所有个体编号•
第二步,在随机数表中任选一个数作为起始数
第三步,从选定的数开始依次向右(向左、向上、向下)读,将编号范围内的数取出,
编号范围外的数去掉,直到取满n个号码为止,就得到一个容量为n的样本.
简单随机抽样一般采用两种方法:
抽签法和随机数表法。
思考:
如果从100个个体中抽取一个容量为10的样本,你认为对这100个个体进行怎样编号为宜?
解法1:
(抽签法)将100件轴编号为1,2,…,100,并做好大小、形状相同的号签,
分别写上这100个数,将这些号签放在一起,进行均匀搅拌,接着连续抽取10个号签,
然后测量这个10个号签对应的轴的直径。
解法2:
(随机数表法)将100件轴编号为00,01,…99,在随机数表中选定一个起始位置,如取第21行第1个数开始,选取10个为68,34,30,13,70,55,74,77,40,44,这10件即为所要抽取的样本。
小结、
简单随机抽样是一种最简单、最基本的抽样方法,简单随机抽样有两种选取个体的方法:
放回和不放回,我们在抽样调查中用的是不放回抽样,常用的简单随机抽样方法有抽签法和随机数法•
抽签法的优点是简单易行,缺点是当总体的容量非常大时,费时、费力,又不方便,
如果标号的签搅拌得不均匀,会导致抽样不公平,随机数表法的优点与抽签法相同,缺点上当总体容量较大时,仍然不是很方便,但是比抽签法公平,因此这两种方法只适合总体容量较少的抽样类型•
简单随机抽样每个个体入样的可能性都相等,均为n/N,但是这里一定要将每个个
体入样的可能性、第n次每个个体入样的可能性、特定的个体在第n次被抽到的可能性
这三种情况区分开来,避免在解题中出现错误
解题应用
如果从600件产品中抽取60件进行质量检查,按照上述思路抽样应如何操作?
第一步,将这600件产品编号为1,2,3,…,600.
第二步,将总体平均分成60部分,每一部分含10个个体._
第三步,在第1部分中用简单随机抽样抽取一个号码(如8号).
第四步,从该号码起,每隔10个号码取一个号码,就得到一个容量为60的样本.(如8,
18,28,…,598)
十二、系统抽样的定义:
一般地,要从容量为N的总体中抽取容量为n的样本,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样的方法叫做系统抽样.
由系统抽样的定义可知系统抽样有以下特征:
(1)当总体容量N较大时,采用系统抽样。
(2)将总体分成均衡的若干部分指的是将总体分段,分段的间隔要求相等,因此系
N统抽样又称等距抽样,这时间隔一般为k=[n].
(3)预先制定的规则指的是:
在第1段内采用简单随机抽样确定一个起始编号,在此
编号的基础上加上分段间隔的整倍数即为抽样编号
思考.下列抽样中不是系统抽样的是(C)
A、从标有1~15号的15号的15个小球中任选3个作为样本,按从小号到大号排序,随机确定起点i,以后为i+5,i+10(超过15则从1再数起)号入样一
B工厂生产的产品,用传关带将产品送入包装车间前,检验人员从传送带上每隔五分钟抽一件产品检验_
C、搞某一市场调查,规定在商场门口随机抽一个人进行询问,直到调查到事先规定的
调查人数为止_
D、电影院调查观众的某一指标,通知每排(每排人数相等)座位号为14的观众留下
来座谈_
十三、系统抽样的一般步骤用系统抽样从总体中抽取样本时,首先要做的工作是什么?
将总体中的所有个体编号.
如果用系统抽样从605件产品中抽取60件进行质量检查,由于605件产品不能均衡分成
60部分,应先从总体中随机剔除5个个体,再均衡分成60部分.
一般地,用系统抽样从含有N个个体的总体中抽取一个容量为n的样本,其操作步骤如何?
第一步,将总体的N个个体编号.
第二步,确定分段间隔k,对编号进行分段.
第三步,在第1段用简单随机抽样确定起始个体编号I.
第四步,按照一定的规则抽取样本•
十四:
分层抽样的定义:
若总体由差异明显的几部分组成,抽样时,先将总体分成互不交叉的层,然后按照一定
的比例,从各层独立地抽取一定数量的个体,再将各层取出的个体合在一起作为样本•
分层抽样又称类型抽样
十五•应用分层抽样应遵循以下要求及具体步骤:
(1)分层:
将相似的个体归入一类,即为一层,分层要求每层的各个个体互不交叉,即遵循不重复、不遗漏的原则。
(2)分层抽样为保证每个个体等可能入样,需遵循在各层中进行简单随机抽样,每层样本
数量与每层个体数量的比与这层个体数量与总体容量的比相等。
一般地,分层抽样的操作步骤如何?
第一步,计算样本容量与总体的个体数之比•
第二步,将总体分成互不交叉的层,按比例确定各层要抽取的个体数
第三步,用简单随机抽样或系统抽样在各层中抽取相应数量的个体
第四步,将各层抽取的个体合在一起,就得到所取样本
十六、简单随机抽样、系统抽样和分层抽样三种抽样的类比学习
简单随机抽样、系统抽样和分层抽样既有其共性,又有其个性,根据下表,你能对三种抽样方法作一个比较吗?
方法类别
共同特点
抽样特征
相互联系
适应范围
简单随机抽样
抽样过程中每个个体被抽取的概率相等
从总体中逐个不放回抽取
总体中的个体数较少
系统抽样
将总体分成均衡几部分,按规则关联抽取
用简单随机抽样抽取起始号码
总体中的个体数较多
分层抽样
将总体分
成几层,按比例分层抽取
用简单随机抽样或系统抽样对各层抽样
总体由差异明显的几部分组成
对样本数据进行分组,组距的确定没有固定的标准,组数太多或太少,都会影响我们了解数据的分布情况•数据分组的组数与样本容量有关,一般样本容量越大,所分组数越多十七列频率直分布表的步骤
列出一组样本数据的频率分布表可以分哪几个步骤进行?
第一步,求极差•第二步,决定组距与组数•第三步,确定分点,将数据分组第四步,列频率分布表•
样本数据的频率分布直方图是根据频率分布表画出来的,一般地,频率分布直方图的作图步骤如何?
第一步,画平面直角坐标系•
第二步,在横轴上均匀标出各组分点,在纵轴上标出单位长度
第三步,以组距为宽,各组的频率与组距的商为高,分别画出各组对应的小长方形
小结
1.频率分布是指一个样本数据在各个小范围内所占比例的大小,总体分布是指总体取值的频率分布规律•我们通常用样本的频率分布表或频率分布直方图去估计总体的分布
2.频率分布表和频率分布直方图,是对相同数据的两种不同表达方式•用紧凑的表格改变
数据的排列方式和构成形式,可展示数据的分布情况•通过作图既可以从数据中提取信
息,又可以利用图形传递信息•
3.样本数据的频率分布表和频率分布直方图,是通过各小组数据在样本容量中所占比例大小来表示数据的分布规律,它可以让我们更清楚的看到整个样本数据的频率分布情况,并由此估计总体的分布情况•
十九、如何根据样本频率分布直方图,分别估计总体的众数、中位数和平均数?
(1)众数:
最高矩形下端中点的横坐标•
(2)中位数:
直方图面积平分线与横轴交点的横坐标
(3)平均数:
每个小矩形的面积与小矩形底边中点的横坐标的乘积之和
二十:
什么是茎叶图
茎叶图又称“枝叶图”,它的思路是将数组中的数按位数进行比较,将数的大小基本
不变或变化不大的位作为一个主干(茎),将变化大的位的数作为分枝(叶),列在主干的
后面,这样就可以清楚地看到每个主干后面的几个数,每个数具体是多少。
第二部分:
概率
一、随机事件的概率及概率的意义
1、基本概念:
(1)必然事件:
在条件S下,一定会发生的事件,叫相对于条件S的必然事件;
(2)不可能事件:
在条件S下,一定不会发生的事件,叫相对于条件S的不可能事件;
(3)确定事件:
必然事件和不可能事件统称为相对于条件S的确定事件;
(4)随机事件:
在条件S下可能发生也可能不发生的事件,叫相对于条件S的随机事件;
(5)频数与频率:
在相同的条件S下重复n次试验,观察某一事件A是否出现,称n次试
验中事件A出现的次数nA为事件A出现的频数;称事件A出现的比例
nA
fn(A)=n为事件A出现的概率:
对于给定的随机事件A,如果随着试验次数的增加,事件A发生的频率fn(A)稳定在某个常数上,把这个常数记作P(A),称为事件A的概率。
(6)频率与概率的区别与联系:
随机事件的频率,指此事件发生的次数nA与试验总次数
nA
n的比值n,它具有一定的稳定性,总在某个常数附近摆动,且随着试验次
数的不断增多,这种摆动幅度越来越小。
我们把这个常数叫做随机事件的概
率,概率从数量上反映了随机事件发生的可能性的大小。
频率在大量重复试验的前提下可以近似地作为这个事件的概率
二、概率的基本性质
1、基本概念:
(1)事件的包含、并事件、交事件、相等事件
(2)若AnB为不可能事件,即AnB=e,那么称事件A与事件B互斥;
(3)若AnB为不可能事件,AUB为必然事件,那么称事件A与事件B互为对立事件;
(4)当事件A与B互斥时,满足加法公式:
P(AUB)=P(A)+P(B);若事件A与B为对立
事件,则AUB为必然事件,所以P(AUB)=P(A)+P(B)=1,于是有P(A)=1—P(B)
2、概率的基本性质:
1)必然事件概率为1,不可能事件概率为0,因此OWP(A)<1;
2)当事件A与B互斥时,满足加法公式:
P(AUB)=P(A)+P(B);
3)若事件A与B为对立事件,则AUB为必然事件,所以P(AUB)=P(A)+P(B)=1,于是有P(A)=1—P(B);
4)互斥事件与对立事件的区别与联系,互斥事件是指事件A与事件B在一次试验中不
会同时发生,其具体包括三种不同的情形:
(1)事件A发生且事件B不发生;
(2)事件
A不发生且事件B发生;(3)事件A与事件B同时不发生,而对立事件是指事件A与
事件B有且仅有一个发生,其包括两种情形;
(1)事件A发生B不发生;
(2)事件B发
生事件A不发生,对立事件互斥事件的特殊情形。
三、古典概型及随机数的产生
1、
(1)古典概型的使用条件:
试验结果的有限性和所有结果的等可能性。
(2)古典概型的解题步骤;
1求出总的基本事件数;
A包含的基本事件数
2求出事件A所包含的基本事件数,然后利用公式P(A)=总的基本事件个数
四、几何概型及均匀随机数的产生
1、基本概念:
(1)几何概率模型:
如果每个事件发生的概率只与构成该事件区域的长度(面积或体
积)成比例,则称这样的概率模型为几何概率模型;
(2)几何概型的概率公式:
构成事件A的区域长度(面积或体积)
P(A)=试验的全部结果所构成的区域长度(面积或体积)
(1)几何概型的特点:
1)试验中所有可能出现的结果(基本事件)有无限多个;2)每
个基本事件出现的可能性相等.
第三部分:
统计案例
1.线性回归方程
1变量之间的两类关系:
函数关系与相关关系;
2制作散点图,判断线性相关关系
3线性回归方程:
ybxa(最小二乘法)
Xiynxy
i1
n
2
Xi
i1
aybx
2.相关系数(判定两个变量线性相关性)
注:
⑴r>0时,变量x,y正相关;r<0时,变量x,y负相关;
(2)|r|越接近于1,两个变量的线性相关性越强;|r|接近于0时,两个变量之
间几乎不存在线性相关关系。
3.回归分析中回归效果的判定:
n_n
⑴总偏差平方和:
㈣y)2⑵残差:
eiyiyi;⑶残差平方和:
(yiyi)2;
注:
①R2得知越大,说明残差平方和越小,则模型拟合效果越好;
2
②R越接近于1,,则回归效果越好。
4.独立性检验(分类变量关系):
随机变量K2越大,说明两个分类变量,关系越强,反之,越弱。
2—2列联表
yi
y2
总计
X1
a
b
a+b
X2
c
d
c+d
总计
a+c
b+d
a+b+c+d
n{ad-bc)2
是(°++d)(a+c)(b+d)