统计学知识点梳理3dmax知识点梳理.docx

资源描述

统计学知识点梳理3dmax知识点梳理.docx

《统计学知识点梳理3dmax知识点梳理.docx》由会员分享，可在线阅读，更多相关《统计学知识点梳理3dmax知识点梳理.docx（17页珍藏版）》请在冰点文库上搜索。

统计学知识点梳理3dmax知识点梳理.docx

统计学知识点梳理3dmax知识点梳理

统计学

第一章导论

1.1.1什么是统计学统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。

数据分析所用的方法分为描述统计方法和推断统计方法。

1.2统计数据的类型

1.2.1分类数据、顺序数据、数值型数据按照所采用的计算尺度不同，可以将统计数据分为分类数据、顺序数据、数值型数据。

分类数据：

只能归于某一类别的非数字型数据，它是对事物进行分类的结果，数据表现为类别，是用文字来表示。

例如：

支付方式、性别、企业类型等。

顺序数据：

只能归于某一有序类别的非数字型数据。

例如：

员工对改革措施的态度、产品等级、受教育程度等。

数值型数据：

按数字尺度测量的观测值，其结果表现为具体的数值。

例如：

年龄、工资、产量等。

统计数据大体上可分为品质数据（定性数据）和数量数据（定量数据、数值型数据）。

1.2.2观测数据和实验数据按照统计数据的收集方法，可以分为观测数据和实验数据。

观测数据：

通过调查或观测而收集的数据。

例如：

降雨量、GDP、家庭收入

等。

实验数据：

在实验中控制实验对象而收集到的数据。

例如：

医药实验数据、化学实验数据等。

1.2.3截面数据和时间序列数据按照被描述的现象与时间的关系，可分类截面数据和时间序列数据。

截面数据：

在相同或近似相同的时间点上收集的数据。

例如：

2012年我国

各省市的GDP。

时间序列数据：

同一现象在不同的时间收集的数据。

例如：

2000-2012年湖

北省的GDP。

1.3.1总体和样本

总体：

包含所研究的全部个体（数据）的集合样本：

从总体中抽取的一部分元素的集合。

1.3.2参数和统计量参数：

用来描述总体特征的概括性数字度量。

统计量：

用类描述样本特征的概括性数字度量。

例如：

某研究机构准备从某乡镇5万个家庭中抽取1000个家庭用于推断该乡镇所有农村居民家庭的年人均纯收入。

这项研究的总体是5万个家庭；样本是1000个家庭；参数是5万个家庭的人均纯收入；统计量是1000个家庭的人均纯收入。

第二章数据的搜集

2.1数据的来源

2.1.1数据的间接来源

间接来源的数据：

如果与研究内容有关的原信息已经存在，我们只是对这些原信息重新加工、整理，使之成为我们进行统计分析可以使用的数据。

例如：

统计公报、统计年鉴、某机构或某团体提供的数据、期刊、报纸和图书提供的数据、会议交流的数据、互联网查阅的数据等。

二手数据的优缺点：

优点：

搜集方便，采集成本低，数据采集快，作用广泛等。

缺点：

针对性不够。

2.1.2数据的直接来源

普查：

调查针对总体中的所有个体单位进行。

普查数据的优缺点：

优点：

调查范围广，被调查单位多，信息全面，完整缺点：

调查费时，费力，费钱。

2.2调查数据

2.2.1概率抽样和非概率抽样

重复抽样：

从总体中抽取一个元素后，把这个元素放回到总体中再抽取第二个元素，直至抽取n个元素为止的抽样方法。

简单随机抽样：

从含有N个元素的总体中，抽取n个元素作为样本，使得总体中的每一个元素都有相同的概率被抽中的抽样方式。

分层抽样：

在抽样时，将总体分成互不交叉的若干个层级，然后按一定的比例，从各层次独立地随机抽取一定数量的个体，将各层次取出的个体合在一起作为样本。

整群抽样：

先将总体划分为若干群体，然后以群作为抽样单位从中抽取部分群，再对抽中的各个群中所包含的所有元素进行观察的抽样方式。

方便抽样：

调查过程中由调查员依据方便原则，自行确定入样单位。

滚雪球抽样：

调查时首先选择一组调查单位，对其实施调查后，再请他们提供另外一些属于研究总体的调查对象，调查人员根据所提供的线索，进行此后的调查的调查方式。

2.4.1抽样误差样本量与抽样误差成反比。

随着样本量的逐渐增大，抽样误差就越小。

2.4.3误差的控制

通过样本量的大小控制可以改变误差大小，要求的抽样误差越小，所需要的样本量就越大。

第三章数据的图表展示

3.2.1分类数据的整理与图示

（3）饼图主要用于表示一个样本（或总体）中各组成部分的数据占全部数据的比例。

适合于描述结构性问题。

（4）环形图

显示多个样本各部分所占的相应比例。

适合于比较研究两个或多个样本或总体的结构性问题。

3.3.1数据分组为解决数据分组不重的问题，统计分组时习惯上规定“上组限不在内”即当相邻两组的上下限重叠时，恰好等于某一组上限的变量值不算在本组内，而计算在下

一组。

（a

3.3.2数值型数据的图示

1.分组数据：

直方图用于展示分组数据分布的一种图形。

直方图与条形图区别：

条形图：

条形长度表示频数；宽度固定不变；矩形分开排列；展示分类数据直方图：

面积表示频数；宽度表示组距；矩形连续排列；展示数值型数据

3.时间序列数据：

线图主要用于反映现象随时间变化的特征，描述其变化趋势。

4.多变量数据的图示

（1）散点图适合用于描述两变量之间是否存在某种关系。

数据图示的原则：

适合于低层次数据的整理和显示方法也适合于高层次的数据；但适合于高层次数据的整理和显示方法并不适合于低层次的数据

第四章数据的概率性度量

4.1集中趋势的度量

集中趋势：

一组数据向其中心值靠拢的倾向和程度，它反映了一组数据中心点的位置所在。

原则：

低层次数据的测度值适用于高层次的测量数据，但高层次数据的测度值并不适用于低层次的测量数据

4.1.1分类数据：

众数一组数据中出现次数最多的变量值。

适合于数据量较多时使用。

主要用于分类数据，也可用于顺序数据和数值型数据。

4.1.2顺序数据：

中位数和分位数

1.中位数

一组数据排序后处于中间位置上的变量值，用Me表示。

中位数将全部数据

平分为两部分，各占50%数据。

适用范围：

顺序数据、数值型数据的集中趋势测度，不适用于分类数据测量。

中位数计算步骤：

1.数据排序；2.确定中位数位置；3.确定具体值

中位数位置计算：

（n+1）/2中位数值的计算：

奇数时，X（n+1）/2;偶数时，1/2{X（n/2）+X（n/2+1）}

2■四分位数

将一组数据数据排序后四等份（各占25%数据）,处于25%位置点（下四分位）和75%位置点（上四分位）上的值。

四分位数计算步骤：

1•数据排序；2•确定四分位数位置；3•确定具体值四分位数位置确定方法：

（不同确定方法，不同四分位数值）

Ql=n/4;Qu=3n/4整数位置：

整数对应值

0.5的位置：

两侧值得平均值

0.25或0.75的位置：

下侧值+（上侧值一下侧值）*0.25或者0.75

4.1.3数值型数据：

平均数

一组数据相加之后除以数据个数得到的数值，是集中趋势的最主要测度值适用范围：

数值型数据，不适用于顺序数据和分类数据。

4.1.4众数、中位数和平均数的比较

1.众数、中位数和平均数的关系众数：

一组数据分布的最高峰中位数：

处于一组数据的中间位置的值平均数：

全部数据的算术平均对称分布情况：

众数=中位数=平均数左偏分布情况：

存在较小值，平均数v中位数v众数右偏分布情况：

存在极大值，众数V中位数V平均数

4.2离散程度的度量

反映各变量值远离中心值的程度。

离散程度越大，集中趋势测度值的代表性越差。

4.2.3数值型数据：

方差和标准差

1.极差（全距）

一组数据的最大值与最小值的差。

3■方差和标准差

方差是各变量值与平均数离差平方的平均数（通过平方消去正负号）。

标准差是方差的平方根。

方差和标准差能较好地反映出数据的离散程度，是实际中应用最广的离散程

度测度值。

424相对离散程度：

离散系数

离散系数是一组数据的标准差与平均数的比值，是离散程度的相对统计量。

适用于比较不同样本数据的离散程度。

离散系数越大，离散程度越大（正比）。

练习题：

4.1（P94）、4.2（P95）

第六章统计量及其抽样分布

6.4样本均值的分布于中心极限定理

当总体服从正态分布N（卩，c2）时，来自该总体的所有容量为n的样本的均值x也服从正态分布，x的数学期望为卩，方差为//n。

即〜N（卩，c2/n）

中心极限定理：

从均值为J方差为匚2的一个任意总体中抽取容量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为卩、方差为c2/n的正态分布。

经验法则是n》30时算是充分大，满足中心极限定理要求。

关于大样本和小样本：

理论而言，小样本：

样本量固定，不论样本量多少；

大样本：

样本量n—x

经验做法，大样本：

n》30

小样本：

nv30

第七章参数估计

7.1.2点估计与区间估计

当置信水平固定时，置信区间的宽度随着样本量的增大而减小。

95%的置信水平是指在用同样方法构造的总体参数的多个区间中，包含该总体参

数的区间的比例为95%。

这个概率不是用来描述某个特定区间包含真值的可能性，一个特定的区间总是包含或者绝不包含真值，不存在一会包含，一会不包含的问题。

用概率可以知道在多次抽样得到的区间中大概有多少个包含了参数的真值。

7.1.3评估估计量的标准

1无偏性

无偏性是指估计量抽样分布的数学期望等于被估计的总体参数。

2有效性

较小标准误差的点估计量比其他点估计量相对有效。

3一致性一个大样本给出的估计量要比一个小样本给出的估计量更接近总体参数

第八章假设检验

&1假设检验的基本问题

假设检验的基本思想：

假设检验推断过程所依据的基本思想是小概率反证法思想。

小概率思想是指发生概率很小的随机事件，在某一次特定的实验中是几乎不可能发生的。

若小概率事件在一次实验中发生了则假设可能错误。

反证法思想是首先对总体参数值提出假设，然后再利用样本提供的信息去验证先前提出的假设是否成立。

如果样本数据不能够充分证明和支持假设，则在一定概率条件下，应该拒绝该假设；相反，如果样本数据不能够充分证明和支持假设是不成立的，则不能推翻假设成立的合理性和真实性。

&1.2假设的表达式

原假设假定两个或多个事物之间是等同的或没有关系的，是变量之间无关的

陈述。

原假设表示否定的意义。

备择假设假定变量间存在一定的关系。

零假设是变量之间无关的陈述，而研究假设是变量有关系的明确陈述。

在逻辑上与原假设内容完全对立的假设成为备择假设。

原假设与备择假设在逻辑上是互斥的，肯定原假设，则备择假设就必须放弃；否定原假设，则接受备择假设。

&1.3两类错误

根据所犯错误的类型，我们分为两种类型：

（举例见教材P188）

第一类：

原假设为真，拒绝真假设，犯此类错误的概率为〉，称为〉错误或

弃真错误。

第二类：

原假设为伪，接受伪假设，犯此类错误的概率为-称为［错误或取伪错误对原假设为真的判断与概率：

（1）拒绝原真假设的概率为：

•，也称为显著性水平。

（2）接受原真假设，做出正确判断的概率为1<。

在实践中，由进行假设检验的人设定显著性水平，一般取：

•为0.05和0.01.

通过选择：

•，控制了犯第一类错误的概率。

在应用中，一般将只控制第一类错误的结社检验称为显著性检验。

许多假设检验的应用都属于这一种类型。

对原假设为伪的判断与概率：

（1）接受原伪假设的概率为一：

（2）拒绝原伪假设，做出正确判断的概率为1--

正确决策与犯错误决策的概率归纳表见表8-1。

我们希望犯这两类错误的概率越小越好。

但是对于特定样本量来说，不能同时做到犯这两类错误的概率都很小。

如果减小：

•错误（弃真），则犯［错（取伪错误）的概率就增加。

弃真取伪

如果减小［错误（取伪），则犯〉错误（弃真错误）的概率就增加。

取伪弃真

8.1.4假设检验的流程

1•提出原始假设和备择假设

2.选择检验统计量

3.确定显著性水平

4.根据数据计算出检验统计量的值

5.得到检验是否显著的结论

假设检验决策的两种方法：

（1）临界值法是利用检验统计量与其临界值进行比较作出决策，根据检验

统计量落入的区域作出是否拒绝原假设的决策。

若检验统计量大于临界值，落入

拒绝域，则拒绝原假设，反之，则不能拒绝原假设。

以F检验为例。

若F>F:

拒绝Ho;若F

不拒绝Ho

（2）P值法是根据检验统计量的概率P值与显著性水平:

进行比较，以要判定应拒绝原假设还是不应拒绝原假设。

如果P值小于显著性水平〉，则拒绝原假设；如果P值大于显著性水平：

•，则不能拒绝原假设。

&1.5利用P值进行决策

P值：

当原假设为真是所得到的样本观察结果或更极端结果出现的概率。

P值决策原理：

得到检验统计量的概率P值后的决策就是要判定应拒绝原假设还是不应拒

绝原假设。

如果检验统计量的概率P值小于显著性水平：

•，则拒绝原假设；P值越小，拒绝原假设的理由就越充分。

反之，如果检验统计量的概率P值大于显著性水平：

•，则不应拒绝原假设。

8.2.1检验统计量的确定

检验统计量选择的影响因素：

样本量n、总体标准差c

1■样本量

在大样本情况下，样本量都服从正态分布，我们使用z统计量

2.总体标准差二是否已知

（1）总体标准差匚已知

样本统计量服从正态分布，采用z统计量。

（2）总体标准差二未知

使用样本标准差代替总体标准差，样本统计量服从t分布，采用t统计量。

当nv30且总体标准差二未知时，采用t统计量；当n>30时，根据使用者偏好选择z统计量还是t统计量。

一个总体参数检验的检验统计量的确定归纳为图8-7，见教材p195。

8.4.1关于检测结果的解释

通常统计学家建议我们在叙述中采用“不能拒绝Ho”而不采用“接受Ho”

这种说法。

8.4.2单侧检验中假设的建立

在实际应用中，我们通常把希望验证的命题放在备择假设，通过备择假设来确定原假设，即把原有的、传统的观点或结论放在原假设上。

我们需要注意的是：

如果没有拒绝原假设，并不意味着原假设是真实的、真理，也并不意味着备择假设就是错的，只是暂时没有充分的证据证明原假设不成立

（如同无罪假设）；接受备择假设则一定意味着原假设是错误的。

关于何谓“原有的、传统的”，原假设，即原有理论、看法、状况、历史经验、以及被大多数人认可的事情，在没有充分证据的情况下，被假定为正确的事情。

关于何谓“新的、可能的”备择假设，即检验者感兴趣的那些新事物、可能的、猜测质疑的问题，希望用事实推翻原假设以得出新观点。

第十章方差分析

10.1.1方差分析及其有关术语

方差分析是比较多个总体的均值是否相等的统计方法，本质上主要是研究一个或多个分类自变量与一个数值型变量之间的关系（即分类自变量对数值型因变量的影响）。

10.1.2方差分析的基本思想和原理

2.误差分解

组内误差：

来自水平内部的数据误差，反映了一个样本内部数据的离散程度。

组内误差只含有随机误差。

（见教材P238）

组间误差：

来自不同水平之间的数据误差，是随机误差和系统误差的总和，反映了不同样本之间数据的离散程度。

在方差分析中，数据的误差是用平方和来表示的。

总平方和（SST）：

反映全部数据误差大小的平方和。

教材P239

误差平方和（SSE）:

反映组内误差大小的平方和。

教材P239因素平方和（SSA）:

反映组间误差大小的平方和。

教材P239SST=SSE+SSA

10.1.3方差分析中的基本假定

（1）每个总体应服从于正态分布。

（2）各总体的方差必须相同。

（3）观测值是独立的。

10.2.2分析步骤

1.提出假设

2.构造检验的统计量

为构造检验的统计量，在方差分析中，需要计算三个误差平方和。

SSE:

每个组的各样本数据与其组均值的误差平方和，反映了每个样本各观测值的离散程度（随机误差的大小）。

对随机误差大小的度量，反映了除自变量对因变量的影响之外，其他因素对因变量的总影响，也即残差变量。

残差变量所引起的误差成为残差效应。

SSA：

各组均值与总均值的误差平方和，反映各样本均值之间的差异程度。

对随机误差和系统误差大小的测度，反映了自变量对因变量的影响，称为自变量效应或因子效应。

SST：

全部观测值与总均值的误差平方和。

对全部数据总误差程度的度量，反映了自变量和残差变量的共同影响，等于自变量效应与残差效应之和。

总平方和（SST）=组间平方和（SSA）+组内平方和（SSE）

为了消除观测值多少对误差平方和大小的影响，需要将其平均，也就是用各平方和除以它们所对应的自由度。

计算结果成为均方或方差。

三个平方和所对应的自由度分别为：

SST的自由度为n-1,其中n为全部观测值的个数。

SSA的自由度为k-1，其中k为因素水平的个数。

SSE的自由度为n-k。

SSA的均方也称为组间均方或组间方差，记为MSA，其计算公式：

MSA=SSA/（k-1）SSE的均方也称为组内均方或组内方差，记为MSE，其计算公式：

MSE=SSE/（n-k）将上述MSA与MSE进行对比（MSA/MSE），即得到所需要的检验统计量F。

3.统计决策

如果F>Fa,则拒绝原假设，表明各水平的均值有显著差异，也即所检验的因素（行业）对观测值有显著影响。

如果FvFa,则不能拒绝原假设，没有证据表明各水平的均值有显著差异，也即不能认为所检验的因素（行业）对观测值有显著影响。

在进行决策时，除了使用以上方法进行判断之外，还可以直接利用方差分析表中的P值与显著性水平a的值进行比较。

如果PVa时，则拒绝原假设；如果P>a时，贝U不能拒绝原假设。

4.方差分析表

教材P246、P247,表10-4、表10-5,熟练掌握表中各字母及数值的代表意义、利用临界值或P值进行统计决策。

练习题：

10.7（P263），熟练应用。

第十一章一元线性回归

11.1.1变量间的关系

函数关系：

因变量随着自变量一起变化，并完全依赖于自变量。

一一对应的确定关系。

例如：

销售额与销售量