《统计学笔记Word文档下载推荐.docx
《《统计学笔记Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《《统计学笔记Word文档下载推荐.docx(16页珍藏版)》请在冰点文库上搜索。
完整性审核;
准确性审核;
适用性审核;
时效性审核
2、数据的筛选:
筛选的内容:
将某些不符合要求的数据或有明显错误的数据予以剔除;
将符合某种特定条件的数据筛选出来,不符合的予以剔出。
例子:
表3-1是8名学生4门课程的考试成绩数据(单位:
分)。
试找出统计学成绩等于
75分的学生,英语成绩最高的前三名学生,4门课程成绩都高于70分的学生。
3、数据的排序:
按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索;
定类、定距、定比数据的排序
第二节品质数据的整理与显示
一、 定类数据的整理与显示
1、基本问题:
对定类数据和定序数据主要是做分类整理;
对定距数据和定比数据则主要是做分组整理
2、基本过程:
列出各类别;
计算各类别的频数;
制作频数分布表;
用图形显示数据
3、可计算的指标:
频数;
比例;
百分比;
比率
4、例子:
一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进行调查。
调查员在某天对50名顾客购买饮料的品牌进行了记录,如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌名字记录一次。
二、 定类数据的图示
1、条形图:
是用宽度相同的条形的高度或长短来表示数据变动的图形。
在表示定类数据的分布时,是用条形图的高度来表示各类别数据的频数或频率。
2、圆形图:
也称饼图,是用圆形及圆内扇形的面积来表示数值大小的图形。
主要用于表示总体中各组成部分所占的比例。
三、 定序数据的整理与显示
1、可计算的指标:
累计频数(将各类别的频数逐级累加);
累计频率(将各类别的频率/
百分比逐级累加)
2、实例:
非常不满意、不满意、一般、满意、非常满意四、 定序数据的图示
1、累计频数分布图
2、环形图:
中间有一个“空洞”,总体中的每一部分数据用环中的一段表示。
第三节数值型数据的整理与显示
一、 数据的分组
1、基本概念:
数据分组:
根据统计研究的需要,将原始数据按某种标准划分成不同的组别。
分组数据:
分组后的数据。
组距:
一个组的上限值与下限值之差。
2、频数分布表的编制步骤:
确定组数、确定组距、计算频数、编制表格
(例子:
)某生产车间50名工人日加工零件数如表格。
试采用单变量值对数据进行分组。
3、分组方法:
单变量值分组;
组距分组(等距分组;
异距分组)
(1)单变量值分组:
将一个变量值作为一组;
适合于离散变量或变量值较少的情况。
例如:
以生产零件个数为变量。
(2)组距分组:
将变量值的一个区间作为一组;
适合于连续变量或变量值较多的情况;
可采取等距分组或不等距分组。
每五个零件为一个区间(变量)。
分别有上下组限重叠、上下组限间断、使用开口组
一、 数据的图示
1、分组数据的图示
(1)直方图:
用矩形的面积来表示各组的频数分布的图形;
直方图下的总面积等于
1。
(2)直方图与条形图的区别:
条形图是用条形的长度表示各类别频数的多少,其宽度(表示类别)则是固定的,是分开排列;
直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数,宽度则表示各组的组距,是连续排列。
(3)折线图:
在直方图的基础上,把直方图顶部的中点用直线连接起来,再把原来的直方图抹掉。
2、未分组数据的图示
(1)茎叶图:
以该组数据的高位数值作数茎,低位数值作树叶。
(2)箱线图:
由一组数据的5个特征值(最大值、最小值、中位数、上四分位数、下四分位数)绘制而成,它由一个箱子和两条线段组成。
3、时间序列数据—线图:
时间一般绘在横轴,指标数据绘在纵轴。
4、多变量数据—雷达图:
是显示多个变量的常用图示方法
第四节统计表
一、 统计表的构成二、 统计表的设计
第四章数据分布特征的测度
数据分布的特征和测度:
集中趋势:
众数、中位数、均值
离散程度:
异众比率、四分位差、方差和标准差、离散系数、标准分
数
第一节集中趋势的测度
分布的形状:
偏态、峰度
一组数据向其中心值靠拢的倾向和程度;
测度集中趋势就是寻找数据一般水平的代表值或中心值。
一、 定类数据:
众数(一组数据中出现次数最多的变量值,称~;
可能没有众数或有几个众数;
主要用于定类数据,也可用于定序数据和数值型数据)
1、未分组数据的众数(定类数据的算例、定序数据的算例):
例如M0=商品广告、不满意
2、分组数据的众数:
用于数值型分组数据;
相邻两组的频数相等时,众数组的组中值即为众数,不相等时,众数采用下列近似公式计算:
(L众数组的下限值;
f众数组的频数;
f-1众数前一组的频数;
f+1众数后一组的频数;
i众数的组距)
二、 定序数据:
中位数和分位数(一组数据排序后,处于中间位置上的变量值,称中位数;
一组数据排序后处于25%和75%位置上的值,称四分位数。
这两个都主要用于定序数据,也可用数值型数据,但不能用于定类数据。
1、中位数位置的确定:
未分组数据:
位置=N+1/2 组距分组数据:
位置=N/2
2、未分组数据的中位数的值计算公式:
Me=X(N+1/2)当N为奇数时;
1/2(XN/2+XN/2+1)当N为偶数时
3、分组数据的中位数的值的计算公式(用于数值型分组数据):
(L中位数所在组的下限;
N/2中位数的位置;
Sm-1中位数所在组前一组距的累积频数;
fm中位数所在组的频数;
i中位数所在组的组距)
4、四分位数位置的确定:
位置=下四分位数N+1/4,上四分位数3(N+1)
/4 组距分组数据=下四分位数N/4,上四分位数3N/4
5、数值型分组数据的四分位数计算公式:
下四分位数QL=LL+[(N/4-SL)/fL]*iL
上四分位数 (LUQ所在组的
下限值;
N数据个数;
SUQ所在组以前各组的累积频数;
fUQ所在组的频数;
iUQ所在组的组距)
三、 定距和定比数据:
均值(用于数值型数据,不能用于定类数据和定序数据)
1、单变量或未分组数据的简单均值公式:
2、加权均值:
3、调和平均数(均值的另一种表现形式;
用于定比数据,不能用于定类数据和定序数据)
4、几何平均数(N个变量值乘积的N次方根;
适用于特殊的数据;
主要用于计算平均发展速度)
四、 众数、中位数和均值的比较
1、数据类型和所使用的集中趋势测度值定类数据:
众数
定序数据:
中位数、四分位数、众数
定距数据:
均值、众数、中位数、四分位数
定比数据:
均值、调和平均数、几何平均数、中位数、四分位数、众数
第二节离散程度的测度
离中趋势:
反映的是各变量值远离其中心值的程度,其各测度值就是对数据离散程度的描述。
异众比率(非众数组的频数占总频数的比率;
用于衡量众数的代表程度)
1、计算公式:
Vr=1-(Fm众数组频数/变量值总频数)
四分位差(上四分位数与下四分位数之差;
反映了中间50%数据的离散程度;
用于衡量中位数的代表程度)
QD=QU-QL
方差及标准差(各变量值与其均值离差平方和的平均数,为方差;
方差的平方根,为标准差)
1、极差:
一组数据的最大值与最小值之差;
离散程度的最简单测度值;
未考虑数据的分布。
计算公式:
未分组数据=最大值-最小值,组距分组数据=最高值上限-最低组下限
2、平均差:
各变量值与其均值离差绝对值的平均数;
能全面反映一组数据的离散程度。
组距分组数据:
3、方差和标准差:
反映了各变量值与均值的平均差异;
根据总体数据计算的,称为总体方差或标准差;
根据样本数据计算的,称为样本方差或标准差。
方差:
标准差:
样本方差:
样本标准差:
4、标准化值(标准分数):
给出某一个值在一组数据中的相对位置;
可用于判断一组数据是否有离群点;
用于对变量的标准化处理。
Z分数没有改变一个数据在该组数据中的位置,也没有改变该组数分布的形状,而只是将该组数据变为均值为0,标准差/方差为1。
计算公式为:
四、 相对离散程度:
离散系数(一组数据的标准差与其相应的均值之比;
测度了数据的相对离散程度;
用于对不同组别数据离散程度的比较)
第三节偏态与峰度的测度
一、 偏态及其测度
1、偏态:
对数据分布偏斜程度的测度;
偏态系数等于0为对称分布,大于0为右偏分布,
小于0为左偏分布。
2、峰度:
数据分布扁平程度的测度;
峰度系数等于3扁平程度适中;
偏态系数小于3为
扁平分布;
偏态系数大于3为尖峰分布。
第五章第一节 随机事件(试验、事件和样本空间):
1、试验:
在相同条件下,对事物或现象所进行的观察;
可以在相同的条件下重复进行;
每次试验的可能结果可能不止一个,但试验的所有可能结果在试验之前是确切知道的;
在试验结束之前,不能确定该次试验的确切结果。
2、事件:
随机试验的每一个可能结果(任何样本点集合)。
3、样本空间:
一个试验中所有基本事件的集合。
第二节 事件的概率
1、事件A的概率=P(A):
是对事件A在试验中出现的可能性大小的一种度量;
表示事件A出现可能性大小的数值
2、概率的古典定义:
如果某一随机试验的结果有限,而且各个结果在每次试验中出现的
可能性相同,则事件A发生的概率为该事件所包含的基本个数m与样本空间中所包含的基本事件个数n的比值,记为P(A)=m/n【区别特点:
有限结果;
等可能性】
3、概率的统计定义:
在相同条件下进行n次随机试验,事件A出现m次,则比值m/n称为事件A发生的频率,随着n的增大,该频率围绕某一常数p上下摆动,且波动的幅度逐渐减小,趋向于稳定,这个频率的稳定值即为事件A的概率,记为P(A)
=m/n=p
第三节 随机变量的概念
1、随机变量的概念:
一次试验的结果的数值型描述;
一般用X、Y、Z来表示;
根据取值情况的不同分为离散型随机变量和连续型随机变量。
2、离散型随机变量:
随机变量X取有限个值或所以取值都可以逐个列举出来X1,X2,...;
以确定的概率取这些不同的值。
例:
抽查100个产品,取到次品的个数,可能的取值有0,1,2,...,100
3、连续型随机变量:
随机变量X取无限个值;
所有可能取值不可以逐个列举出来,而是取数轴上某一区间内的任意点。
测量一个产品的长度,测量误差(cm),可能的取值是X大于等于0
第四节 离散型随机变量的概率分布
1、离散型随机变量的概率分布:
列出离散型随机变量X的所有可能取值;
列出随机变量取这些值的概率;
离散型随机变量的概率函数:
P(X=xi)=pi
2、离散型随机变量的概率分布(0—1)分布:
一个离散型随机变量X只取两个可能的值;
列出随机变量取这两个值的概率。
合格品用1表示,不合格用0表示
3、离散型随机变量的概率分布(均匀分布):
一个离散型随机变量取各个值的概率相同;
列出随机变量取值及其取值的概率。
投掷一枚骰子,出现的点数及其出现各点的概率
第五节 离散型随机变量的数学期望和方差【数学期望就是均值】
1、离散型随机变量的数学期望:
在离散型随机变量X的一切可能取值的完备组中,各可
能取值xi与其取相对应的概率pi乘积之和;
描述离散型随机变量取值的集中程度E(X);
计算公式为:
2、随机变量的方差:
随机变量X的每一个取值与期望值的离差平方和的数学期望,记为
D(X);
描述离散型随机变量取值的分散程度;
第三节几种常见的离散型概率分布
二项分布、泊松分布、超几何分布
第六节 连续型随机变量的概率分布
均匀分布、正态分布、指数分布、其他分布
1、连续型随机变量的概率分布:
连续型随机变量可以取某一区间或整个实数轴上的任意一个值;
它取任何一个特定的值的概率都等于0;
不能列出每一个值及其相应的概率;
通常研究取某一区间值的概率;
用数学函数的形式和分布函数的形式来描述
2、概率密度函数:
设X为一连续型随机变量,x为任意实数,X的概率密度函数记为f(x),
f(x)不是概率,是x在密度函数上的取值—频数。
3、分布函数:
F(x),分布函数是X的某个区间对密度函数的积分
4、【密度函数曲线下的面积等于1;
分布函数是曲线下小于X0的面积】二、 均匀分布
1、若随机变量X的概率密度函数为:
f(x)=1/b-a X大于等于a小于等于b;
0其他。
称
X在区间[a,b]上均匀分布。
三、 正态分布
1、一般的正态分布取决于均值μ和标准差 ;
曲线f(x)相对于均值 对称,尾端向两个方向无限延伸,且理论上永远不会与横轴相交。
2、若能将一般的正态分布转化为标准正态分布,计算概率时只需要查一张表
任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布:
Z=X-μ/标准差 ~N(0,1),即标准正态分布的均值为0,标准差为1。
第七节 连续型随机变量的期望和方差
1、连续型随机变量的数学期望为:
E(X)=. =μ
2、连续型随机变量的方差为:
D(X)=. =
第六章抽样与参数估计
统计方法:
描述统计
推断统计:
参数估计、假设检验
第一节抽样与抽样分布
三、 总体、个体和样本
1、概念要点:
总体:
调查研究的事物或现象的全体;
个体:
组成总体的每个元素;
样本:
从总体中所抽取的部分个体;
样本容量:
样本中所含个体的数量。
2、抽样推断:
从所研究的总体全部元素中抽取一部分元素进行调查,并根据样本数据所提供的信息来推断总体的数量特征。
简单随机抽样:
从含有N个元素的总体中,抽取n个元素作为样本,使得每一个容量为n的样本都有相同的机会被抽中,这样的抽样方式称为~
重复抽样:
从总体中抽取一个元素后,把这个元素放回总体中再抽取第二个元素,直至抽取n个元素为止。
这样的抽样方法称为~
不重复抽样:
一个元素后被抽中后不再放回总体,然后再从剩下的元素中抽取第二个元素,直至抽取n个元素为止。
这样的抽样方法称~
三、 抽样方法概念要点:
1、概率抽样:
根据已知的概率选取样本简单随机抽样:
完全随机的抽选样本
分层抽样(是类型抽样或分类抽样):
总体分成不同的“层”,然后再每一层内进行抽样
整群抽样(就是分区抽样):
将一组被调查者作为一个抽样单位
等距抽样(就是系统抽样):
在样本框中每隔一定距离抽选一个被调查者
(分层抽样是层间差异大于层内差异;
整群抽样是群内差异大于群间差异。
所以,事先对总体结构有一定认识时,可以用分层抽样;
在总体没有原始资料可利用时,可以用整群抽样。
分专业抽样—分层抽样;
分班抽样—整群抽样)
2、非概率抽样:
不是完全按随机原则选取样本非随机抽样:
由调查人员自由选取被调查者判断抽样:
通过某些条件过滤来选择被调查者
3、配额抽样:
选择一群特定数目、满足特定条件的被调查者;
是由调查人员在配额内主观判断选定样本。
四、 样本均值的抽样分布
1、抽样分布:
所有样本指标(如均值、比例、方差等)所形成的分布;
随机变量是样本统计量;
结果来自容量相同的所有可能样本
2、样本均值的抽样分布【样本均值的均值(数学期望)等于总体均值;
样本均值的方差等于总体方差的1/n】
(即总体元素个数N—总体的所有个体,样本容量n—每一次取样的数量,重复抽样,得到容量为n的样本的所有可能取值—所有的Nn种可能都出现
为止。
设一个总体,含有4个元素,即总体单位数N=4。
4个个体分别为
X1=1,X2=2,X3=3,X4=4。
总体的均值、方差及分布如下。
现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有16个样本。
所有样本的结果如下表,计算出各样本的均值,并给出样本均值的抽样分布。
3、样本均值的抽样分布(数学期望与方差)
样本均值的数学期望=μ 样本均值的方差:
重复抽样=方差/n;
不重复抽样...................
4、样本均值的抽样分布与中心极限定理:
当总体服从整体分布N~(μ,方差)时,来自该总体的所有容量为n的样本的均值也服从正态分布,均值的数学期望为μ,方差为方差/n,即X~N(μ,方差/n)
5、中心极限定理:
设从均值为μ,方差为 的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为 /n的正态分布。
6、总体分布:
正态分布—正态分布
非正态分布—大样本:
正态分布
小样本:
非正态分布五、 样本方差的抽样分布
1、设总体服从正态分布N~(μ,方差),X1,X2,,Xn为来自该正态总体的样本,则样
本方差S2的分布为:
将X2(n-1)称为自由度为(n-1)的卡方分布。
(卡方(X2)分布即选择容量为n的简单随机样本,计算样本方差S2,计算卡方值X2,计算出所有的X2值。
六、 样本比例的抽样分布
1、比例:
总体(或样本)中具有某种属性的单位与全部单位总数之比。
总体比例可表示为:
π=N0/N 或 1-π=N1/N
样本比例可表示为:
p=n0/n 或 1-p=n1/n
2、样本比例的抽样分布:
在重复选取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布;
当样本容量很大时,样本比例的抽样分布可用正态分布近似
3、样本比例的抽样分布:
数学期望E(p)=π=N0/N
π(1-π)/n;
[π(1-π)/n]*[N-n/N-1]七、 样本统计量的抽样分布(两个总体参数推断时)
1、两个样本均值之差的抽样分布:
两个总体都抽取简单随机样本容量n,计算每一对样本,所有可能样本的抽样分布
2、两个样本比例之差的抽样分布
3、两个样本方差比的抽样分布
第二节参数估计基本方法
参数估计的方法:
点估计;
区间估计
基本概念:
估计量:
用来估计总体参数的统计量的具体数值,称~
估计值:
用来估计总体参数时计算出来的估计量的具体数值,称~参数的点估计:
用样本估计量的值直接作为总体参数的估计值,称~
参数的区间估计值:
在点估计的基础上,给出总体参数估计的一个范围,称~一、 点估计
1、点估计:
从总体中抽取一个样本,根据该样本的观察值对总体的未知参数作出一个数值点的估计;
用样本均值作为总体未知均值的估计值就是一个点估计。
对某企业的产品进行抽样检验,设抽出100件产品,其中不合格产品5件,试估计该企业产品的合格率是多少?
2、估计量:
用于估计总体某一参数的随机变量;
如样本均值、样本比例、样本中位数等
3、估计量的优良性准则:
一致性:
随着样本容量的增加,样本均值与总体均值之间的差异缩小无偏性:
抽样分布的均值等于总体均值
有效性:
如果与其他任何无偏估计量相比,样本均值更接近总体均值,我们就称样本均值是个更有效的估计量
四、 区间估计
1、区间估计:
在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减抽样误差而得到的;
根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量。
(置信区间是统计量的取值范围;
置信水平是概率)
2、置信水平:
如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比率,称为~。
a是总体参数未在区间内的比例,置信水平是(1-a)%
3、置信区间:
由样本统计量所构造的总体参数的估计区间,称~,其中区间最小值称置信下限,最大值称为置信上限。
(用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值。
样本均值落在抽样分布的置信区间等于抽样分布的均值落在样本均值的误差范围之中。
若样本区间包含了总体均值,则样本均值落在抽样分布的置信区间。
4、风险值a 置信水平1-a 边际误差△x 误差范围△x 可靠性系数Za/2 临界值Za/2
估计误差△x:
Za/2(δ/更号n) 公式:
μx+- Za/2(δ/更号n)=置信上(下)限
第三节总体均值和总体比例的区间估计
一、 总体均值的区间估计(大样本)
1、假定条件:
总体服从正态分布,且方差δ2未知;
如果不是正态分布,可由正态分布来近似;
2、使用正态分布统计量z=x-—μ/(δ/更号n)~N(0,1);
3、总体均值μ落在1-a置信水平下的置信区间为
x-+-Za/2(δ/更号n)或x-+-Za/2(s/更号n)(δ未知)
[此处δ为总体标准差,δ未知时以样本标准差s代替。
]
4、例题:
一家食品生产企业以生产袋装食品为主,为对产量质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。
现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示。
已知产品重量的分布服从正态分布,且总体
标准差为10g。
试估计该批产品平均重量的置信区间,置信水平为95%
5、例题:
一家保险公司收集到由36投保个人组成的随机样本,得到每个投保人的年龄数据如下表。
试建立投保人年龄90%的置信区间
二、 总体均值的区间估计(小样本)
1、假定条件:
小样本(n《30);
2、使用t分布统计量t=x-—μ/(s/更号n)~t(n-1)自由度为n-1的t分布
3、总体均值μ在1-a置信水平下的置信区间为
x