统计学基本概念Word下载.docx

资源描述

统计学基本概念Word下载.docx

《统计学基本概念Word下载.docx》由会员分享，可在线阅读，更多相关《统计学基本概念Word下载.docx（25页珍藏版）》请在冰点文库上搜索。

统计学基本概念Word下载.docx

（5）进行假设检验，诊断残差序列是否为白噪声。

（6）利用已通过检验的模型进行预测分析。

白噪声（Whitenoise）：

白噪声一个平稳的随机过程满足下列条件的随机过程称为白噪声，记为：

注：

所谓时间序列的平稳性，是指时间序列的统计规律不会随着时间的推移而发生变化。

直观上，一个平稳的时间序列可以看作一条围绕其均值上下波动的曲线。

根据平稳时间序列分析的理论可知，当时，该序列｛Yt｝是平稳的,此模型是经典的Box-Jenkins时间序列AR

（1）模型。

因此，检验序列的非平稳性就变为检验特征方程是否有单位根，这就是单位根检验方法的由来。

时间序列的非平稳性：

是指时间序列的统计规律随着时间的位移而发生变化，即生成变量时间序列数据的随机过程的特征随时间而变化。

DF检验：

统计学家Dickey、Fuller得到DF检验的临界值，并编制了DF检验临界值表供查。

在进行DF检验时，比较t统计量值与DF检验临界值，就可在某个显著性水平上拒绝或接受原假设。

ADF检验：

AugmentedDickey-Fuller检验（ADF检验）：

DF检验存在的问题是，在检验所设定的模型时，假设随机扰动项不存在自相关。

但大多数的经济数据序列是不能满足此项假设的，当随机扰动项存在自相关时，直接使用DF检验法会出现偏误，为了保证单位根检验的有效性，人们对DF检验进行拓展，从而形成了扩展的DF检验（AugmentedDickey-FullerTest），简称为ADF检验。

DF和ADF检验的步聚：

计算在原假设成立的条件下t统计量值，查DF检验临界值表得临界值，然后将t统计量值与DF检验临界值比较：

若t统计量值小于DF检验临界值，则拒绝原假设，说明序列不存在单位根；

说明是平稳序列。

若t统计量值大于或等于DF检验临界值，则接受原假设，说明序列存在单位根；

有单位根说明非平稳。

（二）平稳性检验方法

1.单位根方法

2.自相关函数法

3.DF检验方法

4.如果该特征方程的所有根在单位圆外（根的模大于1），则AR（p）模型是平稳的。

特征根z=1/j，当|j|<

1，则表示特征根大于1，说明是平稳的，否则是非平稳的。

三、灰色系统关联度

四、描述性统计与推断统计学

1.描述性统计学是指研究如何取得反映客观规律的数据，并通过图表形式对所收集的数据进行加工处理和显示，进而通过综合、概括与分析得出反映客观现象的规律性数量特征。

其内容包括数据收集方法，数据的加工处理方法、数据显示方法，数据分布特征的概括与分析、解释方法.

2.推断统计学。

是指研究如何根据样本数据去推断总体数量的特征的方法，它是在对样本数据进行描述的基础上，对统计总体的未知数量做出以概率的形式表述的推断（既利用样本信息和概率论对总体的数量特征进行估计和检验）。

五、数据类型（StatisticalData）

统计数据它是采用某种计量尺度对事物进行计量的结果，采用不同的计量尺度会得到不同类型的统计数据。

可以将统计数据分为以下四种类型：

定类数据——表现为类别，但不区分顺序，是由定类尺度计量形成的。

例如将国民经济按其经济类型，可以分为国有经济、集体经济、私营经济、个体经济等类，并用（01）代码表示国有经济，（02）表示集体经济，（03）表示私营经济，（04）表示个体经济。

定序数据——表现为类别，但有顺序，是由定序尺度计量形成的。

定序尺度不但可以用数表示量的不同类（组）别，而且也反映量的大小顺序关系，从而可以列出各单位、各类（组）的次序。

这种尺度的主要数学特征是“>

”或“<

”。

例如对合格产品按其性能和好坏，分成优等品、一等品、合格品等等。

定距数据——表现为数值，可进行加、减运算，是由定距尺度计量形成的。

它不仅能将事物区分为不同类型并进行排序，而且可以准确地指出类别之间的差距是多少。

例如，学生某门课程的考分，可以从高到低分类排序，形成90分、80分、70分，直到零分的序列。

它们不仅有明确的高低之分，而且可以计算差距，90分比80分高10分，比70分高20分等等。

定距尺度的计量结果表现为数值，可以进行加或减的运算，但却不能进行乘或除的运算，

定比数据——表现为数值，可进行加、减、乘、除运算，是由定比尺度计量形成的。

前两类数据说明的是事物的品质特征，不能用数据表示，其结果均表现为类别，也称为定性数据或品质数据（Oualitativedata）；

后两类数据说明的是现象的数量特征，能够用数值来表现，因此也称为定量数据或数量数据（Quantitativedata）。

由于定距尺度和定比尺度属于同一测度层次，所以可以把后两种数据看作是同一类数据，统称为定量数据或数值型数据。

区分测量的层次和数据的类型是十分重要的，因为对不同类型的数据将采用不同的统计方法来处理和分析。

比如，对定类数据，通常计算出各组的频数或频率，计算其众数和异众比率，进行列联表分析和x2检验等；

对定序数据，可以计算其中位数和四分位差，计算等级相关系数等非参数分析；

对定距或定比数据还可以用更多的统计方法进行处理，如计算各种统计量、进行参数估计和检验等。

我们所处理的大多为数量数据。

这里需要特别指出的是，适用于低层次测量数据的统计方法，也适用于较高层次的测量数据，因为后者具有前者的数学特性。

比如：

在描述数据的集中趋势时，对定类数据通常是计算众数，对定序数据通常是计算中位数，但对定距和定比数据同样也可以计算众数和中位数。

反之，适用于高层次测量数据的统计方法，则不能用于较低层次的测量数据，因为低层次数据不具有高层次测量数据的数学特性。

比如，对于定距和定比数据可以计算平均数，但对于定类数据和定序数据则不能计算平均数。

理解这一点，对于选择统计分析方法是十分有用的。

六、数据的分布特征与测度

（一）集中度测度：

是指一组数据向某一中心值靠拢的倾向。

1.定类数据的测度指标：

众数（mode）：

是指一组数据中出现次数最多的变量值。

用MO表示。

2.定序数据的测度指标：

中位数（median）：

处于中间位置上的变量值，用ME表示。

3.定距数据和定比数据的测度指标：

均值（mean）：

它在统计学具有重要地位，是集中度测度值的最重要指标。

（1）当三者相等时，表示数据分布是对称分布的；

（2）当均值<

ME<

MO，表示是左偏分布或负偏。

（3）当均值>

ME>

MO表示左偏或正偏分布。

在实际利用统计软件中，常常看偏态值（Skewness）来判断数据的偏态方向。

其计算公式是：

当偏态值=0时，表示对称分布；

当偏态值>

0表示正偏；

当偏态值<

0时表示负偏。

同时为了得到数据分布集中趋势的高峰的形状，还需要另一个指标：

峰度（Kurtosis）,若分布形状比正态分布还要高则称为尖峰分布，若比正态分布更矮则表示平峰分布。

判断准则：

由于正态分布的峰度系数等于3，所以当峰度（Kurtosis）>

3，表示尖峰分布，当峰度（Kurtosis）<

3表示平峰分布。

在E-VIEWS软件中，JB统计量值用来检验观测值是否服从正态分布，统计量的公式，它服从，其中n为样本容量，S为偏态值，K为峰度值，在此假设检验中，原假设H0：

变量服从正态分布

H1：

变量不服从正态分布，

当P值大于0.05时，则接受原假设，否则拒绝原假设。

（二）离散程度的测度：

它反映的是各变量运离中心值的程度。

1．定类数据的离散程度的测度指标：

异众比率（Variationration）,是指非众数组的频数占总频数的比率。

2.定序数据的离散程度的测度指标：

四分位差。

3.定距和定比数据的测度指标：

方差和标准差，还有极差

极差=max（Xi）-min（Xi）

离散系数（Coefficientofvatiation）：

对于平均水平不同或计量单位不同的不同组别的变量值，是不能用方差和标准差、极差等测度值进行比较的，为削除变量值水平高低和计量单位的不同对离散程度的影响，引入了离散系数

，它标准差与均值的之比。

离散系数

七、数据标准化的方法（NormalizationMethod）；

标准化数值（Z-Score）

数据的标准化是将数据按比例缩放，使之落入一个小的特定区间。

由于信用指标体系的各个指标度量单位是不同的，为了能够将指标参与评价计算，需要对指标进行规范化处理，通过函数变换将其数值映射到某个数值区间。

一般常用的有以下几种方法。

1.统计标准化：

z-score规范化也称零-均值规范化：

它是最广泛的使用方法，计算公式为：

其中Xi是原值，是均值，是标准差。

2.极值标准化（rang）：

3.定基与环比转换：

此种方法主要用于构造时间序列指数的指标转换。

定基转换

环比转换

八、权数的构造方法

权重的构造方法一般有两种，一是主观构权法：

它是指根据研究者的主观判断来指定指标权重的一种方法，主要有专家评判法、层次分析法（Theanalytichierarchyprocess,简称AHP）。

另一种方法是客观构权法，它是指根据原始信息通过数学或统计方法处理后获得的权数的一种方法，具体有：

主成成分分析法、因子分析法、相关法、回归法。

九、特征值（eigen）

应用：

1.在多个变量之间计算其协整关系，其检验就要用到特征值。

2.时间序列平稳性的理论识别条件。

十、假设检验

统计学中，假设检验是对我们所关心的却又是未知的总体参数先作出假设，然后抽取样本，利用样本所提供的信息对假设的正确性进行判断的过程。

（一）假设检验的步骤

1.提出假设（原假设和备择假设）。

假设检验实践中，大家都在执行这样一个原则：

把最关心的问题作为原假设提出，从而将后果较严重的错误放在α上，事先加以控制。

2.确定检验统计量一般来说，检验统计量的计算公式是=

3.确定显著性水平

4.计算统计量：

其基本计算公式是

式中，为样本均值，为被假设的参数值，为总体标准差，n为样本容量。

5.作出统计决策

根据显著性水平和统计量的分布查出临界值，用计算出来的检验统计量与临界值进行比较。

决策规则：

当计算出来的统计量>

大于临界值，则拒绝原假设，接受备择假设。

当计算出来的统计量<

大于临界值，则接受原假设，拒绝备择假设。

（二）假设检验的基本思想

就是利用了小概率原理，它是指发生概率的很小的随机事件在一次实验中是几乎不可能发生的。

（三）双侧检验和单侧检验

1.双侧检验：

一般形式H0：

=某一数值表示没有显著差异

某一数值表示有显著差异

决策规划就是：

若统计量，则接受H0，拒绝H1

，则拒绝H0，接受H1

2.左则检验。

如果希望考察的值越大越好，其一般形式是

则接受H0，拒绝H1

3.右则检验：

如果希望考察的值越小越好，则用右则检验。

一般形式是：

某一数值某一数值

决策规划与左则检验的决策规划是一样的。

（四）一个正态总体的参数检验

1.总体方差已知的均值检验。

因为知道了总体方差，此时就用Z检验统计量

2.总体方差未知的均值检验，因为不知道总体方差。

此时，不能用Z检验统计量，此时需要用样本方差替代，用服从自由度n-1的T分布，其计算公式是

（在计量经济学，系数显著性与此不一样）

（五）两个正态总体的参数检验。

也称为两个均值差异的显著性检验——T检验。

T检验通常用于比较两个均值是否相同，或者说两个均值之差是否等于0以此推断两个样本是否来自同一个样本，或者两个样本是否存在显著差异。

T检验包括两个：

一个是独立样本的T检验（Independent-samplesTTest）和配对样本的T检验。

5.1.独立样本的T检验

目的思想：

按随机原则确定的两个相互独立的样本，然后检验两个样本的平均值是否存在显著差异，并借此推断两个样本是否所属的总体。

三个前提假设：

（1）样本是正态性的。

（2）方差齐性。

方差齐性检验用“Levene~stestfor”.其原假设是：

方差非齐性；

（3）独立样本。

5.2配对样本的T检验

目的思路：

适用于只有两个处理水平的单因素随机区设计，然后判断他们是否存显著差异。

（六）假设检验中的P值

当原假设为真时，样本可能结果不低于实际观测值（右侧检验），或不高于实际观测结果（左侧检验）的概率。

或简单地概括为：

当原假设为真时，却拒绝的概率；

或者说是犯第一类错误的概率。

决策规划：

当P>

显著性水平时，则接受原假设，拒绝备择假设

显著水平时，则拒绝原假设，接受备择假设。

概括地说，当P值非常小时，则拒绝原假设，接受备择假设，当P值较大时，则接受原假设，拒绝备择假设。

所以，在假设检验时，要注意原假设和备择假设。

事实上，P值可以提供更多的信息，不仅可以用P值与规定的显著性水平比较进行检验决策，而且P值显示了样本值在一定范围内出现的概率。

在统计软件SPSS中，sig就是P值。

（七）正态性检验

检验数据的分布是否正态性一般有三种方法，一是残差直方图（HistogramofResiduals），它是一种粗略但灵活方便的方法。

二是正态概率图（Normalprobabilityplot）是专门研究随机变量的概率密度的函数的形状。

三是雅克—贝拉检验（Jarque-beratest）：

其中，S代表偏态，K代表峰度，N代表样本容量。

对于正态分布来说是偏态等于0，且峰度等3.

判断方法，如果一项应用中算出来的统计量的P值很小，说明数据非正态分布，如果P较大，就可以认为是正态分布。

（八）原假设和备择假设设置原则与各类设置集

在各类假设检验中，弄清楚原假设和备择假设是至关重要的，如果弄反了往往会得出相反的结论。

在假设检验中，把需要通过样本去推断其正确与否的命题称为原假设，一般的原则是:

：

H0：

两者之间没有显著差异

两者之间有显著差异。

1.T检验中：

两个样本同属于一个总体，即没有显著差异

两个本不属于同一个总体，即存在显著差异。

2.方差齐性检验

Levene~stestforequalityofvariances

H0:

方差非齐性

方差齐性。

3.KMO值

KMO检验的目的：

Kaiser-Meyer-OlkinMeasureofSamplingAdequacy是用于比较观测相关系数值与偏相关系数值的一个指标，其值愈逼近1，表明对这些变量进行因子分析的效果愈好。

一般认为KMO检验值大于0.5就可以进行因子分析。

kmo值越大，因子的贡献率也就越高。

4.巴特利检验

其与KMO检验是一样的，都是用来判断是否可以做因子分析

相关矩阵是单位阵（说明不可做因子分析）

相关矩阵是非单位阵（说明可以做因子分析）

5.相关分析的检验

在SPSS中，关于相关分析在三个选项：

1.Pearson积差相关系数；

2.Kendall`stau-b；

3.Speraman等级相关检验。