统计学无敌权威完整版重点.docx

资源描述

统计学无敌权威完整版重点.docx

《统计学无敌权威完整版重点.docx》由会员分享，可在线阅读，更多相关《统计学无敌权威完整版重点.docx（14页珍藏版）》请在冰点文库上搜索。

统计学无敌权威完整版重点.docx

统计学无敌权威完整版重点

统计学

第一章数据与统计学

1.1统计数据与统计学

（1）统计学是一门收集、整理、显示和分析统计数据的科学，其目的是探究数据内在的数据量规律性，为决策提供参考（含义）

（2）应用统计研究过程：

实际问题→收集数据（取得数据）→整理数据（处理数据）→显示数据→分析数据

→解释数据→实际问题

（3）例子：

新生婴儿的性别、掷硬币和骰子、农作物试验、商品广告、汽车合格的统计、化妆品试用的抽样。

1.2统计学的产生和发展

（1）三个源头：

◎英国经济学家威廉·配第◎英国约翰·格朗特

◎布莱斯·帕斯卡、皮埃尔·德·费马。

1.3统计学的分类

（1）描述统计：

是用图形、表格和概括性的数字对数据进行描述的统计方法。

（2）推断统计：

是根据样本信息对总体进行估计、假设检验、预测或其他推断的统计

方法。

（3）统计学分为描述统计和推断统计，一方面反映了统计发展的前后两个阶段。

另

一方面夜反映了统计方法研究和探索客观事物内在数量规律性的先后过程。

（4）

图统计学探究客观现象数量规律性过程的款图

（5）统计研究过程的起点是数据，终点是探索到客观事件总体内在的数据规律性。

描述统计是整个统计学的基础和统计研究工作的第一步，推断统计是现代统计学的核心和统计研究工作的关键环节。

（6）理论统计和应用统计

1.4统计数据的来源

（1）统计数据的来源：

按直接获取和间接获取分类。

（2）直接获取的数据：

普查：

应用面窄、费时费力、反映总体数据的手段、实效性差。

抽样调查：

节省人力物力、实效性强、有误差。

1.5统计数据的质量

（1）统计调查阶段是统计研究的第一步，是直接收集统计数据的阶段。

可分为非抽样误差和抽样误差。

1.6统计学的基本概念

（1）总体：

是人们研究的所有基本单位的总和。

（2）变量：

在研究总体时，重点关注的是总体单位具有哪些特征和属性，指这些特征。

（3）参数：

概括性的数学度量。

（主体）

（4）统计量：

概括样本的数学度量。

（样本）

（5）样本：

是总体的一部分单位。

1.7数据的有关知识

一、数据的计量尺度

1.列名尺度（定类尺度）：

层次最低、平行分类、列名时要穷尽所有的。

“＝≠”

2.顺序尺度（定序尺度）：

在分类的基础上给出类别的顺序。

“﹥﹤”

3.间隔尺度（定距尺度）：

更加准备的测量，没有绝对的零点。

“＋－”

4.比例尺度（定比尺度）：

有绝对的零点。

“＋－×÷”

四种计量尺度的比较

定类

定序

定距

定比

分类

√

排序

√

间距

√

比值

√

二、数据类型

1.数据的类型分为定性（品质）和定量（数量）。

2.变量：

品质变量和数量变量。

三、数据的表现形式

1.分绝对数（总量的时期数和相对数）和相对数（两个绝对值的比值）

2.单位：

实物单位、价值单位、复合单位。

第二章统计数据的描述

2.1数据统计的整理

一、数据的预处理

1审核：

原始资料（完整性、准确性）

第二手资料（适用性、实效性）

2筛选

3排序：

按照一定的顺序将数据进行排序。

二、统计数据的分组

1.分组的定义：

将数据按照一定的特征标准分组。

2.品质标志分组：

按照性别、质量、民族等定性指标分组（定类、定序）

数量标志分组：

按照数量或数值等定量指标分组。

（定距、定比）

三、次数（频率）分配

四、数量标志分组方法：

单变量分组---只适合离散型变量

组距分组

五、组距分组：

将其分为若干个区间。

步骤：

①确认组数（斯特格斯公式K=1+㏒N/㏒2）基本为奇数（5-15）

②组距：

上限值-下限值

公式：

组距==（最大值-最小值）÷组数

③整理成频率分布表原则：

不重不漏

④等距分组、不等距分组

⑤选择分组的标志原则：

反映数据的本质特征；符合统计研究需要；结合现实历史条件。

六、次数分布的图示

1直方图---等距分组

2折线图（次数多变形图）---曲线图

3茎叶图

四种常见曲线：

1.正态分布曲线---钟形曲线例：

所有的试验、测量和观测误差都服从正态分布。

2.偏态曲线：

正偏（右偏）、负偏（左偏）。

例：

人均收入。

3.J形曲线：

正J形曲线、供给曲线-------倒J形曲线、需求曲线。

4.U形曲线：

死亡率曲线、产品故障率曲线或浴盆曲线。

2.2分布集中趋势的测度

一、众数

1.含义：

出现次数最多的变量数

2.特点：

不受极限的影响；一个众数、多个众数也有可能。

3.近似公式：

M。

=L+△1／（△1+△2）×i

L表示众数所在组的下组限；△1表示众数组次数与前一组次数之差；△2表示众数组次数与后一组次数之差；i表示众数组的组距。

二、中位数

1.含义：

数据排列后，位置在中间的数据。

2.特点：

不受极限值的影响（稳健性）；U型分布、资料缺失Me失去代表性；

∑｜xi-Me︱=min（最小）→数据值与中位数之差得绝对值之和最小。

3.N：

奇数--（N+1）÷2偶数---{（N／2）+（N／2+1）}÷2

4.近似公式：

Me=L+（N／2-Sm-1）／fm×i

N／2表示中位数所在的位置；L表示中位数所在组的下组限；Sm-1表示中位数所在组以下各组的累积次数；fm表示中位数所在组的次数；i表示中位数所在组的组距。

三、分位数

将统计分布从中间分成面积相等的两部分，同样也有四分位数、十分位数、百分位数。

四、均值

1.含义：

就是算数平均数，是数据集中趋势的最主要测度值。

2.公式：

X的均值是（x1+x2+x3+…+xn）／n

（对于已经分组的数据）X的均值是∑xifi／∑fi

xi是次数分配中变量分组的组中值（上限+下限／2）；fi是各组次数，也称权数。

五、几何平均数

公式：

（把基数考虑进去）G≒n√（1+%）×（1+%）×…

七、切尾均值

去掉最大值、最小值取平均数。

八、众数、中位数、均值的关系

1.结论：

对于对称、正态的数据用均值比较好

偏态较大时用M。

Me比较好

均值比较适用于定距和定比

M。

Me可用于任何尺度

2.右偏（正偏）分布左偏（负偏）分布

※

M。

﹤Me﹤￣X

￣X﹤Me﹤M。

2.3分布离散程度的测度

1.极差：

也称全距，是数据最大值减去最小值之差，是数据离散或差异程度的最简单的测量值。

弊：

①收到极端值影响。

②只考虑两个数值。

公式：

R=max（xi）-min（xi）

2.内距：

两个四分位数之差，即内距=上四分位数-下四分位数=Q3-Q1

优点：

极端值的影响不大，考虑了更多的因素。

3.方差和标准差

样本方差的公式：

注意：

对于样本分组数据，求方差，公式：

4.离散系数：

用来对两组数据的差异程度进行相对比较的。

公式：

优点：

离散系数是从相对的角度观察差异和离散程度的，在比较相关事物的差异程度时，较之直接比较标准差要好些。

2.4分布偏态与峰度的测度

1.偏态及其测量

偏态是对分布偏斜方向及程度的测量。

记为SK

SK﹥0正偏、右偏

SK==0对称

SK﹤0负偏、左偏

2.峰度及其测量

峰度是对数据分布平峰或程度的测量。

记为K

K﹥0尖峰分布

K==0标准正态分布

K﹤0尖峰分布

2.5统计表与统计图

一、统计表与统计图是显示统计数据的两种方式。

二、统计表

结构与内容：

统计表一般由四个主要部分组成：

表头、行标题、列标题、数值资料。

注意要点：

①合理安排统计表的结构

②表头一般包括表号、总标题和表中数据的单位等内容。

③表中的上下横线一般用粗线，中间的其他线要用细线。

两边不封口，列标题之间用竖线分开，行标题之间通常不必用横线隔开。

④表中数据右对齐，对于没有数据的表格单位，一般用“—”表示。

⑤表的下方加上注释，特别要注意注明资料来源。

三、统计图

1.统计图是统计数据的表现形式。

2.茎叶图、箱线图。

3.注意：

图的表号在图的下方。

第三章概率、概率分布与抽样分布

3.3常用的抽样方法

概率分布：

是根据一个已知的概率来抽取样本单位。

非概率分布：

是研究人员有意识地选取样本单位。

一、简单随机抽样

概念：

在从总体中抽取n个单位作为样本时，要使得每一个总体单位都有相同的机会。

简单随机抽样有两种抽取单位的具体方法：

重复抽样和不重复抽样。

二、分层抽样

（1）概念：

在抽样之前将总体的单位分为若干层，然后从各个层中抽取一定数量的单位组成一个样本，也称分类抽样。

（2）要求：

层各单位的差异尽可能的小，而使层与层之间的差异尽可能大。

（3）优点：

除了对总体估计，还可以对各层的子总体进行估计；可以按自然区域或行政区域进行划分；总体分布比较均匀；精度高。

三、系统分布

（1）概念：

在抽样中先将总体各单位按某种顺序排列，并按某种规律确定一个随机起点，然后每隔一定的间隔抽取一个单位，直至抽取n个单位形成一个样本。

也称等距样本或机械抽样。

（2）优点：

一、简便易行。

二、样本在总体的分布均匀，误差小于简单随机抽样。

（3）要求：

先排序，后抽样。

四、整群抽样

（1）概念：

先将总体划分为若干群，然后再以群作为调查单位从中抽取部分群，进而对个体单位进行调查。

（2）优点：

不需要有总体单位的具体名额。

五、阶段抽样

3.3样本分布

一、抽样分布：

有样本n个观察值计算的统计量的概率分布。

推断统计：

根据样本数据推断参数。

二、X￣样本分布的形式

样本总体的分布

↙↘

正态分布非正态分布

无论样本量的大小↓N≧30↓↘N<30

正态分布正态分布非正态分布

三、X￣样本分布的特征

第四章参数估计

4.1参数估计的基本原理

1.参数估计（随机原则）可靠性

概念：

1）参数估计就是用样本统计量去估计总体的参数。

2）估计量是用来估计总体参数的统计量的名称。

是样本的数字特征。

3）估计值是用来估计总体参数时计算出来的估计量的具体数据。

作用：

1）用于无限总体研究；

2）不可能进行全面调查，又要了解其全面情况；

3）对报表和普查进行修正。

2．点估计与区间估计

概念：

1）点估计就是用样本量的值直接作为总体参数的估计值。

2）区间估计是在用点估计值代表总体参数的同时，还必须给出一个用于衡量点估计可靠性的度量。

●规律：

1）由样本均值的抽样分布可知，在重复抽样或无限抽样的情况下，样本均值的期望值等于总体均值，样本均值的标准误差为。

2）由样本统计量所构造总体参数的估计区间，成为置信区间。

区间最小值为置信下限，区间最大值为置信上限。

置信区间的宽度随着置信系数的增大而增大。

3．评价估计量的标准

1）无偏性：

是指估计量抽样分布的数学期望等于被估计的总体参数。

2）有效性（最小方差性）：

估计量的方差越小，估计也就越有效。

3）一致性：

是指随着样本量的增大，点估计量的值越来越接近总体的参数。

4.2一个总体参数的区间估计

1.总体均值的区间估计

总体分布

样本容量

已知

未知

正态分布

大样本

小样本

非正态分布

大样本

2.总体比率的区间估计

这里只讨论大样本情况下总体比率的估计问题。

当样本足够大时，P的数学期望等于总体的比率∏。

即得总体比率在（1-）置信水平下地置信区间：

4.3样本量的确定

1.估计总体均值时样本量的确定

总体均值的置信区间是由样本均值和允许误差两部分组成的。

在重复抽样或无限总体抽样条件下，允许误差为。

的值和样本量共同确定了允许误差的大小。

一旦确定了置信水平为，的值就确定了。

对于给定的值和总体标准差，就可以确定任意希望的允许误差所需要的样本量。

令E=

确定样本量的公式：

2.估计总体比率时样本量的确定

令E=

确定样本量的公式：

第五章假设检验

5.1假设检验的基本原理

1.假设的陈述

概念：

1）假设：

对总体参数的具体数值所作的陈述。

2）假设检验：

利用样本信息判断假设是否成立的过程。

3）原假设：

通常是研究者想收集证据予以反对的假设，也称零假设，用Ho表示。

4）备择假设：

通常是研究者想收集证据予以反对的假设，也称研究假设，用H1表示。

建立假设需要注意：

1）HoH1是完备事件组，相互对立的。

2）先确定备择假设。

3）“==”在原假设中。

4）HoH1有很强的主观色彩。

分类：

参数假设检验、非参数假设检验。

假设检验的基本形式

假设

双侧检验

单侧检验

左侧检验

右侧检验

原假设

备择假设

2.两类错误与显著性水平

（1）当原假设为真时拒绝原假设，所犯的错误称为第一类错误，又称弃真错误，概率记为。

（2）当原假设为假时没有拒绝原假设，所犯的错误称为第二类错误，又称取伪错误，概率记为。

（3）发生第一类错误概率也常被用于检验结论的可靠性度量，假设检验中犯的第一类错误的概率被称为显著水平（指原假设实际是正确的时，检验统计量落在拒绝域的概率），记为。

3.检验统计量与拒绝域

（1）检验统计量：

根据样本观测结果得到的、并据以对原假设和备择假设做出决策的某个样本统计量。

（2）标准化的检验统计量==

（3）拒绝域：

由显著性水平a所围成的区域.

可以根据a值的大小确定出拒绝域的具体边界值，称为临界值。

样本固定时，拒绝域的面积随a的减小而减小。

（4）双侧检验左侧检验右侧检验

4.利用P值进行决策

（1）P值：

就是当原假设正确时，得到所观测的数据的概率。

是反映实际观测到的数据与原假设Ho之间不一致的一个概率值。

（2）用P值进行决策的准则:

无论是大呢检验还是双侧检验，如果P值

如果P值>a值，不拒绝原假设。

5.2一个总体参数的检验

1.总体均值的检验

（1）解决步骤：

①陈述HoH1；

②抽样；

③确定检验统计量；

④计算具体值。

确定a、临界值、拒绝域；

⑤标准化统计量与临界值比较，判断假设假设是否成立。

（2）大样本情况下一个总体均值的检验方法

双侧检验

左侧检验

右侧检验

假设形式

检验统计量

a与拒绝域

P值决策准则

（3）小样本情况下一个总体均值的检验方法

双侧检验

左侧检验

右侧检验

假设形式

检验统计量

a与拒绝域

P值决策准则

2.总体比率的检验

（1）通常用字母∏表示总体比率，表示对总体比率的某个假设值。

P鄙视样本比率。

（2）大样本情况下一个总体比率的检验方法

双侧检验

左侧检验

右侧检验

假设形式

检验统计量

a与拒绝域

P值决策准则

3.总体方差的检验

（1）一个总体方差检验的方法

双侧检验

左侧检验

右侧检验

假设形式

检验统计量

a与拒绝域

P值决策准则

第六章方差分析与试验设计

6.1方差分析引论

1.方差分析及其有关术语

（1）含义：

方差分析：

是检验多个总体均值是否相等的统计方法。

实质是分类型变量对数据型因变量的影响；

因素或因子：

所要检验的对象；

水平或处理：

因素的具体表现；观测值：

每个因素的样本数据；

2.方差分析

（1）数据的误差是用平方和来表示的。

分为组内误差。

衡量因素的同一水平（同一总体）下样本数据的误差。

组间误差。

衡量因素的不同水平（不同总体）下样本数据的误差。

（2）组内误差只包括随机误差，而组间误差既包括随机误差，也包括系统误差。

当组间误差与组内误差经过平均后的数据就应该很接近，他们的比值就会接近1。

3．方差分析中德基本假设

（1）每个总体都应服从正态分布。

（2）每个总体的方差必须相同。

（3）观测值是独立的。

4.问题的一般提法

设因素有k个水平，每个水平的均值分别用u1、u2…uk表示，要检验k个水平（总体）的均值是否相等，需要提出如下假设：

6.2单因素方差分析

方差分析只涉及一个分类型自变量时，称为单因素方差分析。

它研究的是一个分类型自变量对一个数值型因变量的影响。

1.数据结构

（1）在单因素分析中，用A表示因素，因素的K个水平分别用A1、A2、…Ak表示，每个观测值用Xij表示，即表示第i个水平的第j个的观察值。

2.分析步骤

首先需要提出“两个变量在总体没有关系”的一个原假设，然后构造一个用于检验的统计量来检验这一检验

展开阅读全文