统计学基本概念Word下载.docx

上传人:b****4 文档编号:6869949 上传时间:2023-05-07 格式:DOCX 页数:25 大小:32.15KB
下载 相关 举报
统计学基本概念Word下载.docx_第1页
第1页 / 共25页
统计学基本概念Word下载.docx_第2页
第2页 / 共25页
统计学基本概念Word下载.docx_第3页
第3页 / 共25页
统计学基本概念Word下载.docx_第4页
第4页 / 共25页
统计学基本概念Word下载.docx_第5页
第5页 / 共25页
统计学基本概念Word下载.docx_第6页
第6页 / 共25页
统计学基本概念Word下载.docx_第7页
第7页 / 共25页
统计学基本概念Word下载.docx_第8页
第8页 / 共25页
统计学基本概念Word下载.docx_第9页
第9页 / 共25页
统计学基本概念Word下载.docx_第10页
第10页 / 共25页
统计学基本概念Word下载.docx_第11页
第11页 / 共25页
统计学基本概念Word下载.docx_第12页
第12页 / 共25页
统计学基本概念Word下载.docx_第13页
第13页 / 共25页
统计学基本概念Word下载.docx_第14页
第14页 / 共25页
统计学基本概念Word下载.docx_第15页
第15页 / 共25页
统计学基本概念Word下载.docx_第16页
第16页 / 共25页
统计学基本概念Word下载.docx_第17页
第17页 / 共25页
统计学基本概念Word下载.docx_第18页
第18页 / 共25页
统计学基本概念Word下载.docx_第19页
第19页 / 共25页
统计学基本概念Word下载.docx_第20页
第20页 / 共25页
亲,该文档总共25页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

统计学基本概念Word下载.docx

《统计学基本概念Word下载.docx》由会员分享,可在线阅读,更多相关《统计学基本概念Word下载.docx(25页珍藏版)》请在冰点文库上搜索。

统计学基本概念Word下载.docx

(5)进行假设检验,诊断残差序列是否为白噪声。

(6)利用已通过检验的模型进行预测分析。

白噪声(Whitenoise):

白噪声一个平稳的随机过程满足下列条件的随机过程称为白噪声,记为:

注:

所谓时间序列的平稳性,是指时间序列的统计规律不会随着时间的推移而发生变化。

直观上,一个平稳的时间序列可以看作一条围绕其均值上下波动的曲线。

根据平稳时间序列分析的理论可知,当时,该序列{Yt}是平稳的,此模型是经典的Box-Jenkins时间序列AR

(1)模型。

因此,检验序列的非平稳性就变为检验特征方程是否有单位根,这就是单位根检验方法的由来。

时间序列的非平稳性:

是指时间序列的统计规律随着时间的位移而发生变化,即生成变量时间序列数据的随机过程的特征随时间而变化。

DF检验:

统计学家Dickey、Fuller得到DF检验的临界值,并编制了DF检验临界值表供查。

在进行DF检验时,比较t统计量值与DF检验临界值,就可在某个显著性水平上拒绝或接受原假设。

ADF检验:

AugmentedDickey-Fuller检验(ADF检验):

DF检验存在的问题是,在检验所设定的模型时,假设随机扰动项不存在自相关。

但大多数的经济数据序列是不能满足此项假设的,当随机扰动项存在自相关时,直接使用DF检验法会出现偏误,为了保证单位根检验的有效性,人们对DF检验进行拓展,从而形成了扩展的DF检验(AugmentedDickey-FullerTest),简称为ADF检验。

DF和ADF检验的步聚:

计算在原假设成立的条件下t统计量值,查DF检验临界值表得临界值,然后将t统计量值与DF检验临界值比较:

若t统计量值小于DF检验临界值,则拒绝原假设,说明序列不存在单位根;

说明是平稳序列。

若t统计量值大于或等于DF检验临界值,则接受原假设,说明序列存在单位根;

有单位根说明非平稳。

(二)平稳性检验方法

1.单位根方法

2.自相关函数法

3.DF检验方法

4.如果该特征方程的所有根在单位圆外(根的模大于1),则AR(p)模型是平稳的。

特征根z=1/j,当|j|<

1,则表示特征根大于1,说明是平稳的,否则是非平稳的。

三、灰色系统关联度

四、描述性统计与推断统计学

1.描述性统计学是指研究如何取得反映客观规律的数据,并通过图表形式对所收集的数据进行加工处理和显示,进而通过综合、概括与分析得出反映客观现象的规律性数量特征。

其内容包括数据收集方法,数据的加工处理方法、数据显示方法,数据分布特征的概括与分析、解释方法.

2.推断统计学。

是指研究如何根据样本数据去推断总体数量的特征的方法,它是在对样本数据进行描述的基础上,对统计总体的未知数量做出以概率的形式表述的推断(既利用样本信息和概率论对总体的数量特征进行估计和检验)。

五、数据类型(StatisticalData)

统计数据它是采用某种计量尺度对事物进行计量的结果,采用不同的计量尺度会得到不同类型的统计数据。

可以将统计数据分为以下四种类型:

定类数据——表现为类别,但不区分顺序,是由定类尺度计量形成的。

例如将国民经济按其经济类型,可以分为国有经济、集体经济、私营经济、个体经济等类,并用(01)代码表示国有经济,(02)表示集体经济,(03)表示私营经济,(04)表示个体经济。

定序数据——表现为类别,但有顺序,是由定序尺度计量形成的。

定序尺度不但可以用数表示量的不同类(组)别,而且也反映量的大小顺序关系,从而可以列出各单位、各类(组)的次序。

这种尺度的主要数学特征是“>

”或“<

”。

例如对合格产品按其性能和好坏,分成优等品、一等品、合格品等等。

定距数据——表现为数值,可进行加、减运算,是由定距尺度计量形成的。

它不仅能将事物区分为不同类型并进行排序,而且可以准确地指出类别之间的差距是多少。

例如,学生某门课程的考分,可以从高到低分类排序,形成90分、80分、70分,直到零分的序列。

它们不仅有明确的高低之分,而且可以计算差距,90分比80分高10分,比70分高20分等等。

定距尺度的计量结果表现为数值,可以进行加或减的运算,但却不能进行乘或除的运算,

定比数据——表现为数值,可进行加、减、乘、除运算,是由定比尺度计量形成的。

前两类数据说明的是事物的品质特征,不能用数据表示,其结果均表现为类别,也称为定性数据或品质数据(Oualitativedata);

后两类数据说明的是现象的数量特征,能够用数值来表现,因此也称为定量数据或数量数据(Quantitativedata)。

由于定距尺度和定比尺度属于同一测度层次,所以可以把后两种数据看作是同一类数据,统称为定量数据或数值型数据。

区分测量的层次和数据的类型是十分重要的,因为对不同类型的数据将采用不同的统计方法来处理和分析。

比如,对定类数据,通常计算出各组的频数或频率,计算其众数和异众比率,进行列联表分析和x2检验等;

对定序数据,可以计算其中位数和四分位差,计算等级相关系数等非参数分析;

对定距或定比数据还可以用更多的统计方法进行处理,如计算各种统计量、进行参数估计和检验等。

我们所处理的大多为数量数据。

这里需要特别指出的是,适用于低层次测量数据的统计方法,也适用于较高层次的测量数据,因为后者具有前者的数学特性。

比如:

在描述数据的集中趋势时,对定类数据通常是计算众数,对定序数据通常是计算中位数,但对定距和定比数据同样也可以计算众数和中位数。

反之,适用于高层次测量数据的统计方法,则不能用于较低层次的测量数据,因为低层次数据不具有高层次测量数据的数学特性。

比如,对于定距和定比数据可以计算平均数,但对于定类数据和定序数据则不能计算平均数。

理解这一点,对于选择统计分析方法是十分有用的。

六、数据的分布特征与测度

(一)集中度测度:

是指一组数据向某一中心值靠拢的倾向。

1.定类数据的测度指标:

众数(mode):

是指一组数据中出现次数最多的变量值。

用MO表示。

2.定序数据的测度指标:

中位数(median):

处于中间位置上的变量值,用ME表示。

3.定距数据和定比数据的测度指标:

均值(mean):

它在统计学具有重要地位,是集中度测度值的最重要指标。

(1)当三者相等时,表示数据分布是对称分布的;

(2)当均值<

ME<

MO,表示是左偏分布或负偏。

(3)当均值>

ME>

MO表示左偏或正偏分布。

在实际利用统计软件中,常常看偏态值(Skewness)来判断数据的偏态方向。

其计算公式是:

当偏态值=0时,表示对称分布;

当偏态值>

0表示正偏;

当偏态值<

0时表示负偏。

同时为了得到数据分布集中趋势的高峰的形状,还需要另一个指标:

峰度(Kurtosis),若分布形状比正态分布还要高则称为尖峰分布,若比正态分布更矮则表示平峰分布。

判断准则:

由于正态分布的峰度系数等于3,所以当峰度(Kurtosis)>

3,表示尖峰分布,当峰度(Kurtosis)<

3表示平峰分布。

在E-VIEWS软件中,JB统计量值用来检验观测值是否服从正态分布,统计量的公式,它服从,其中n为样本容量,S为偏态值,K为峰度值,在此假设检验中,原假设H0:

变量服从正态分布

H1:

变量不服从正态分布,

当P值大于0.05时,则接受原假设,否则拒绝原假设。

(二)离散程度的测度:

它反映的是各变量运离中心值的程度。

1.定类数据的离散程度的测度指标:

异众比率(Variationration),是指非众数组的频数占总频数的比率。

2.定序数据的离散程度的测度指标:

四分位差。

3.定距和定比数据的测度指标:

方差和标准差,还有极差

极差=max(Xi)-min(Xi)

离散系数(Coefficientofvatiation):

对于平均水平不同或计量单位不同的不同组别的变量值,是不能用方差和标准差、极差等测度值进行比较的,为削除变量值水平高低和计量单位的不同对离散程度的影响,引入了离散系数

,它标准差与均值的之比。

离散系数

七、数据标准化的方法(NormalizationMethod);

标准化数值(Z-Score)

数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。

由于信用指标体系的各个指标度量单位是不同的,为了能够将指标参与评价计算,需要对指标进行规范化处理,通过函数变换将其数值映射到某个数值区间。

一般常用的有以下几种方法。

1.统计标准化:

z-score规范化也称零-均值规范化:

它是最广泛的使用方法,计算公式为:

其中Xi是原值,是均值,是标准差。

2.极值标准化(rang):

=

3.定基与环比转换:

此种方法主要用于构造时间序列指数的指标转换。

定基转换

环比转换

八、权数的构造方法

权重的构造方法一般有两种,一是主观构权法:

它是指根据研究者的主观判断来指定指标权重的一种方法,主要有专家评判法、层次分析法(Theanalytichierarchyprocess,简称AHP)。

另一种方法是客观构权法,它是指根据原始信息通过数学或统计方法处理后获得的权数的一种方法,具体有:

主成成分分析法、因子分析法、相关法、回归法。

九、特征值(eigen)

应用:

1.在多个变量之间计算其协整关系,其检验就要用到特征值。

2.时间序列平稳性的理论识别条件。

十、假设检验

统计学中,假设检验是对我们所关心的却又是未知的总体参数先作出假设,然后抽取样本,利用样本所提供的信息对假设的正确性进行判断的过程。

(一)假设检验的步骤

1.提出假设(原假设和备择假设)。

假设检验实践中,大家都在执行这样一个原则:

把最关心的问题作为原假设提出,从而将后果较严重的错误放在α上,事先加以控制。

2.确定检验统计量一般来说,检验统计量的计算公式是=

3.确定显著性水平

4.计算统计量:

其基本计算公式是

式中,为样本均值,为被假设的参数值,为总体标准差,n为样本容量。

5.作出统计决策

根据显著性水平和统计量的分布查出临界值,用计算出来的检验统计量与临界值进行比较。

决策规则:

当计算出来的统计量>

大于临界值,则拒绝原假设,接受备择假设。

当计算出来的统计量<

大于临界值,则接受原假设,拒绝备择假设。

(二)假设检验的基本思想

就是利用了小概率原理,它是指发生概率的很小的随机事件在一次实验中是几乎不可能发生的。

(三)双侧检验和单侧检验

1.双侧检验:

一般形式H0:

=某一数值表示没有显著差异

某一数值表示有显著差异

决策规划就是:

若统计量,则接受H0,拒绝H1

,则拒绝H0,接受H1

2.左则检验。

如果希望考察的值越大越好,其一般形式是

则接受H0,拒绝H1

3.右则检验:

如果希望考察的值越小越好,则用右则检验。

一般形式是:

某一数值某一数值

决策规划与左则检验的决策规划是一样的。

(四)一个正态总体的参数检验

1.总体方差已知的均值检验。

因为知道了总体方差,此时就用Z检验统计量

2.总体方差未知的均值检验,因为不知道总体方差。

此时,不能用Z检验统计量,此时需要用样本方差替代,用服从自由度n-1的T分布,其计算公式是

(在计量经济学,系数显著性与此不一样)

(五)两个正态总体的参数检验。

也称为两个均值差异的显著性检验——T检验。

T检验通常用于比较两个均值是否相同,或者说两个均值之差是否等于0以此推断两个样本是否来自同一个样本,或者两个样本是否存在显著差异。

T检验包括两个:

一个是独立样本的T检验(Independent-samplesTTest)和配对样本的T检验。

5.1.独立样本的T检验

目的思想:

按随机原则确定的两个相互独立的样本,然后检验两个样本的平均值是否存在显著差异,并借此推断两个样本是否所属的总体。

三个前提假设:

(1)样本是正态性的。

(2)方差齐性。

方差齐性检验用“Levene~stestfor”.其原假设是:

方差非齐性;

(3)独立样本。

5.2配对样本的T检验

目的思路:

适用于只有两个处理水平的单因素随机区设计,然后判断他们是否存显著差异。

(六)假设检验中的P值

当原假设为真时,样本可能结果不低于实际观测值(右侧检验),或不高于实际观测结果(左侧检验)的概率。

或简单地概括为:

当原假设为真时,却拒绝的概率;

或者说是犯第一类错误的概率。

决策规划:

当P>

显著性水平时,则接受原假设,拒绝备择假设

P<

显著水平时,则拒绝原假设,接受备择假设。

概括地说,当P值非常小时,则拒绝原假设,接受备择假设,当P值较大时,则接受原假设,拒绝备择假设。

所以,在假设检验时,要注意原假设和备择假设。

事实上,P值可以提供更多的信息,不仅可以用P值与规定的显著性水平比较进行检验决策,而且P值显示了样本值在一定范围内出现的概率。

在统计软件SPSS中,sig就是P值。

(七)正态性检验

检验数据的分布是否正态性一般有三种方法,一是残差直方图(HistogramofResiduals),它是一种粗略但灵活方便的方法。

二是正态概率图(Normalprobabilityplot)是专门研究随机变量的概率密度的函数的形状。

三是雅克—贝拉检验(Jarque-beratest):

其中,S代表偏态,K代表峰度,N代表样本容量。

对于正态分布来说是偏态等于0,且峰度等3.

判断方法,如果一项应用中算出来的统计量的P值很小,说明数据非正态分布,如果P较大,就可以认为是正态分布。

(八)原假设和备择假设设置原则与各类设置集

在各类假设检验中,弄清楚原假设和备择假设是至关重要的,如果弄反了往往会得出相反的结论。

在假设检验中,把需要通过样本去推断其正确与否的命题称为原假设,一般的原则是:

H0:

两者之间没有显著差异

两者之间有显著差异。

1.T检验中:

两个样本同属于一个总体,即没有显著差异

两个本不属于同一个总体,即存在显著差异。

2.方差齐性检验

Levene~stestforequalityofvariances

H0:

方差非齐性

方差齐性。

3.KMO值

KMO检验的目的:

Kaiser-Meyer-OlkinMeasureofSamplingAdequacy是用于比较观测相关系数值与偏相关系数值的一个指标,其值愈逼近1,表明对这些变量进行因子分析的效果愈好。

一般认为KMO检验值大于0.5就可以进行因子分析。

kmo值越大,因子的贡献率也就越高。

4.巴特利检验

其与KMO检验是一样的,都是用来判断是否可以做因子分析

相关矩阵是单位阵(说明不可做因子分析)

相关矩阵是非单位阵(说明可以做因子分析)

5.相关分析的检验

在SPSS中,关于相关分析在三个选项:

1.Pearson积差相关系数;

2.Kendall`stau-b;

3.Speraman等级相关检验。

相关系数为0(即不相关)

相关系数不为0(即存在相关)

6.单位根方法(ADF检验)

在此检验中,H0:

=1,即时间序列是非平衡的。

7.DW检验

其原假设是不存在自关,即H0:

=0

8.正态检验

数据分布是正态的

数据分布是非正态的

(九)单样本T检验(one-sampleTtest)

基本功能:

检验样本所在总体的均值是否与已知的总体相同,用以判断样本与总体是否存在显著差异,或者样本是否来自总体。

样本与总体没有显著差异

H2:

样本与总体有显著差异

十一、方差分析

(一)概念与基本原理:

在实际问题中,经常对两个以上的正态总体进行均值比较,即检验两个样本是否取自同一总体。

方差分析是对多个总体均值是否相等这一假设进行检验。

这一检验要思想就是对TSS进行分解分析。

可以说,T检验是方差分析的一个特例。

方差分析所使用的检验统计量是F统计量,它是方差估计值之比。

这里不是根据用途而是根据分析方法来命名的。

2.在方分析中,常用F统计量=组间方差/组内方差。

一般来说F越大越好,越大说明拒绝原假设,接受备择假设。

在方程显著性检验(TestingtheOverallSignificance)中也常用F统计量,其计算公式是

其中,K代表自变量(独立变量)个数(independent),N代表样本个数。

因变量也称被解释变量(dependent)

(二)单因素方差分析

1.基本思想:

就是研究单个因素(Factor)是否对被解释变量(dependen)产生影响。

2.前提假设:

数据的正态性、方差齐性和数据独立性。

3.基本步骤:

第一步:

建立假设

第二步:

计算样本均值

第三步:

计算总样本均值

第四步:

计算样本方差

第五步:

计算总体方差的组间估计

第六步:

计算总体方差的组内估计

第七步:

计算F统计量

第八步:

编制方差分析表

第九步:

做出统计决策

4.在SPSS的实现方法步聚:

选择[Analyze]=>

[CompareMeans]=>

[One-WayANOVA...],打开[One-WayANOVA]主对话框,然后设置因变量和因素。

(三)单因素分析中的多重分析

若想进一步了解哪些两个总体均数不等,需进行多个样本均数间的两两比较或称多重比较(multiplecomparison)。

基本思想:

例子:

如果分析颜色对饮料销售量有无影响,则属于单因素分析。

如果进一步分析颜色中哪一个颜色(黄色、红色、粉色等)对销售量的影响最大,则需要进行多重比较分析。

最常用的方法就是最显著性差异法(LSD)。

假设检验也常用T检验。

(四)双因素方差分析

对两个因素对因变量的影响程度进行分析,称为双因素分析。

实际上这些计算用SPSS是十分容易解决的。

因此读者完全没有必要去记表中繁琐的公式,只需掌握其主要思想并学会应用SPSS就可以了。

步骤:

计算样本均值和总样本值

计算离差平方和

计算均方值

编制双因素方差分析表

在SPSS中的实现方法

[GeneralLinearModel]=>

[Univariate...],打开[Univariate]主对话框。

从主对话框左侧的变量列表中设定因变量,单击按钮使之进入[DependentList]框,再选定变量自因变量,单击按钮使之进入[FixedFactor(s)]框。

资料“在GLM(Generallinealmodel),用Univariate你可以做多因素方差分析,Mutivariate可以做多应变量方差分析,RepeatedMeasure...可以做重复测量方差分析,等等

十二、统计学中的常用概念

1.均值(算术平均数Arithmeticmean),在计算公式中一般用表示。

均值在统计学中具有重要的地位,它是进行统计分析和统计推断的基础,首先从统计思想上看,它是一组数据的重心所在,其次均值具有一些重要数学性质。

(1)各变量值与其均值的离差这和等于0

(2)各变量值与其均值的离差平方和(即方差)最小,即

2.几何平均数(Geometricmean)

3.方差和标准差:

方差就是各变量值与其均值的离差平方和,它是测度离散程度的主要方法,方差越大说明数据波动程度越大或离散程度越高,方差越小说明数据集中度越高。

方差分为总体方差和样本方差,标准差也分为总体标准差和样本标准差。

总体方差(在方差分析中称为TSS)和标准差

样本方差和标准差:

3.协方差和相关系数

令X和Y为两个随机变量,其均值是和,于是协方差的定义为

Cov(X,Y)==E(XY)-

当x和y独立时,则Cov(X,Y)=E(x)E(y)-=0

可见,协方差作为描述X和Y相关程度的量,在同一物理量纲之下有一定的作用,但同样的两个量采用不同的量纲使它们的协方差在数值上表现出很大的差异。

所以又引入的相关系数的概念。

所以,cov(x,y)=R*

4.数学期望:

又称期望或均值,是平均数的一种推广。

是随机变量按概率的加权平均,表征其概率分布的中心位置,即用以测量数据的平均水平或集中程度。

(1)离散随机变量X的期望值E(X)

(2)连续随机变量X的期望值E(X)

5.残差:

表示实际观察值与估计值之差。

6.总离差平方和(TSS):

7.残差平方和(RSS):

ESS反映样本观测值与估计值偏离的大小,

8.解释平方和(ESS)(ExplainedSumofSquares),反映由模型中解释变量所解释的那部分离差的大小;

9.众数(MODE):

众数是一组数据中出现次数最多的变量值。

主要用于分类数据,也可用于顺序数据和数值型数据。

10.中位数(Median):

中位数是一组数据按一定顺序排列后,处于中间位置上的变量值。

11.平均差(Md):

是各单位实际值对其算术平均数的离差绝对值的算术平均数,反映的是各标志值与其平均数的平均差异程度。

12.均方(meansquare):

(与标准差是

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 人文社科 > 法律资料

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2