第五章时间序列的模型识别汇总.docx

资源描述

第五章时间序列的模型识别汇总.docx

《第五章时间序列的模型识别汇总.docx》由会员分享，可在线阅读，更多相关《第五章时间序列的模型识别汇总.docx（25页珍藏版）》请在冰点文库上搜索。

第五章时间序列的模型识别汇总.docx

第五章时间序列的模型识别汇总

第五章时间序列的模型识别

前面四章我们讨论了时间序列的平稳性问题、可逆性问题，关于线性平稳时间序列模型,引入了自相关系数和偏自相关系数，由此得到ARMA（/;.q）统计特性。

从本章开始，我们将运用数据开始进行时间序列的建模工作，其工作流程如下：

图5.1建立时间序列模型流程图在ARMASM）的建模过程中，对于阶数少旳）的确定，是建模中比较重要的步骤，也是比较困难的。

需要说明的是，模型的识别和估计过程必然会交叉，所以，我们可以先估计一个比我们希望找到的阶数更高的模型，然后决定哪些方面町能被简化。

在这里我们使用估计过程去完成一部分模型识别，但是这样得到的模型识别必然是不精确的，而且在模型识别阶段对于有关问题没有精确的公式可以利用，初步识别可以我们提供有关模型类型的试探性的考虑。

对于线性平稳时间序列模型来说，模型的识别问题就是确定ARMA9，q）过程的阶数，从而判定模型的具体类别，为我们卞一步进行模型的参数估计做准备。

所采用的基本方法主要是依据样本的自相关系数（ACF）和偏自相关系数（PACF）初步判定其阶数，如果利用这种方法无法明确判定模型的类别，就需要借助诸如AIC、BIC等信息准则。

我们分别给出几种定阶方法，它们分别是

（1）利用时间序列的相关特性，这是识别模型的基本理论依据。

如果样本的自相关系数（ACF）在滞后q+/阶时突然截断，即在q处截尾，那么我们可以判定该序列为MA（q）序列。

同样的道理，如果样本的偏自相关系数（PACF）在"处截尾，那么我们可以判定该序列为AR（〃）序列。

如果ACF和PACF都不截尾，只是按指数衰减为零，则应判定该序列为ARMA（p,q）序列，此时阶次尚需作进一步的判断；

（2）利用数理统计方法检验高阶模型新增加的参数是否近似为零，根据模型参数的置信区间是否含零来确定模型阶次，检验模型残差的相关特性等；（3）利用信息准则，确定一个与模型阶数有关的准则函数，既考虑模型对原始观测值的接近程度，又考虑模型中所含待定参数的个数，最终选取使该函数达到最小值的阶数，常用的该类准则有AIC、EIC、FPE等。

实际应用中，往往是几种方法交叉使用，然后选择最为合适的阶数（p,q）作为待建模型的阶数。

§5.1自相关和偏自相关系数法

在平稳时间序列分析中，最关键的过程就是利用数据去识别和建模，根据第三章讨论的内容，一个比较直观的方法，就是通过观察自相关系数（ACF）和偏自相关系数（PACF）可以对拟合模型有一个初步的识别，这是因为从理论上说，平稳AR、MA和ARMA模型的ACF和PACF有如下特性：

模型（序列）

AR（/J

MA（q）

ARMA（/7,g）

自相关系数（ACF）

拖尾

q阶截尾

拖尾

偏自相关系数（PACF）

P阶截尾

拖尾

但是，在实际中ACF和PACF是未知的，对于给定的时间序列观测值召,兀2，...,為.，我们需要使用样本的自相关系数｛久｝和偏自相关系数｛无｝对其进行估计。

然而由于｛久｝和｛几｝均是随机变量，对于相应的模型不可能具有严格的"截尾性"，只能呈现出在某步之后围绕零值上、下波动，因此，我们需要借助｛Q｝和｛&J的“截尾性”来判断｛久｝和“如｝的截尾性，进而由此可以给出模型的初步识别。

首先，我们需要给出样本的自相关系数｛A｝和偏自相关系数｛必｝的定义。

设平稳时间序列｛X,｝的一个样本^，…，与。

则样本自协方差系数定义为

1T-k

久行若-元）（％-无），皿灯-1（51

1丁

其中x=为样本均值，则样本自协方差系数｛%｝是｛X」的自协方差系数｛齐｝的估

Tj=i

计。

样本自相关系数定义为

A=n/n5\k\

是｛x,｝的自相关系数｛qJ的估计。

作为｛x,｝的自协方差系数忆｝的估计，根据数理统计知识，样本自协方差系数还可以写为

1T-k

I口（5.3）

乙=久,1“"-1

在上述两种估计中，当样本容量T很人，而R的绝对值较小时，上述两种估计值相差不人,其中由（5.1）定义的第一种估计值的绝对值较小。

根据前面章节的讨论，因为AR（p）,MA（q）或者ARMA（p,q）模型的自协方差系数｛齐｝都是以负指数阶收敛到零，所以在对平稳时间序列的数据拟合AR（p）,MA（q）或者ARMA（p,q）模型时，希望实际计算的样本自协方差系数｛%｝能以很快的速度收敛。

因此，我们一般选择由（5.1）定义的第一种估计值作为｛%｝的点估计。

根据第三章偏自相关系数的计算，利用样本自相关系数｛0/的值，定义样本偏自相关系数｛NJ如下:

冰气"1,2,

…A-：

…A

•

…Pk-i

‘A=

•

…p2

•

•••

...1

•

•••

A-i

A-

…Pk

关于样本的自相关系数｛A｝的统计性质，我们将在下一章给予讨论。

Quenouille证明，｛亦｝也满足Bartlett公式，即当样本容量T充分人时,

必〜N（0,1仔）

这样根据正态分布的性质，我们有

=68.3%

=95.5%

（5.4）

（5.5）

（5.6）

（5.7）

这样，关于偏自相关系数｛血｝的截尾性的判断，转化为利用上述性质（5.6）或者（5.7）,可以判断｛&J的截尾性。

具体方法为对于每一个0>0,考查%十,蚣+2

中落入应卜寺或应卜滸的比例是否占总数M的68.3%或95.5%。

一般地，我们取M=『如果p=pQ之前&火都明显地不为零，而当p>pQ时,

k+l・"o+l'0"o+2,"o+2，中满足不等式

的个数占总数M的68.3%或95.5%,则可以认定｛如｝在几处截尾，由此可以初步判定序列｛/｝为AR（几）模型。

对于样本的自相关系数｛A｝,由第二章的Bartlett公式，对于q>0,｛p,｝满足

（5.8）

（5.9）

XN0,-1+2工0；

I7L冃」丿

进一步地，当样本容量T充分人时，｛Q｝也满足

A〜N（0,l/T）

类似于（5.6）或者（5.7）式，对于每一个q>0,检查氏+「氏乜，…，昭中落入

中的比例是否占总数M的68.3%或95.5%左右。

如果在条之前,

A都明显不为零，而当q=q°时，必。

+2,…，蔦。

枷中满足上述不等式的个数达到比例，则判断｛久｝在％处截尾。

初步认为序列｛XJ为MA（q°）模型。

至此我们可以利用样本的自相关系数｛A｝和偏自相关系数｛入｝，得到ARMA模型阶数的初步判定方法。

具体做法如卜•：

（1）如果样本自相关系数｛久｝在最初的q阶明显的大于2倍标准差范围，即2（1/存），而后几乎95%的样本自相关系数A都落在2倍标准差范围之内，并且由非零样本自相关

系数衰减为在零附近小值波动的过程非常突然，这时通常视为自相关系数截尾，既可以初步判定相应的时间序列为MA（§）模型

⑵同样，样本偏自相关系数｛无｝如果满足上述性质，则可以初步判定相应的时间序列为

AR（p）模型。

⑶对于样本自相关系数｛A｝和样本偏自相关系数｛矗｝，如果均有超过5%的值落入2倍标准差范闱之外,或者由非零样本自相关系数和样本偏自相关系数衰减为在零附近小值波动的过程非常缓慢，这时都视为不戴尾的，我们将初步判定时间序列为ARMA模型,那么这样的判断往往会失效，因为这时ARMAQq）模型的阶数卩和q很难确定。

总之，基于样本自相关和偏自相关系数的定阶法只是一种初步定阶方法，可在建模开始时加以粗略地估计。

例5.1绿头苍蝇数据的时间序列。

具有均衡性别比例数目固定的成年绿头苍蝇保存在一

个盒子中，每天给一定数量的食物，每天对绿头苍蝇的总体计数，共得到T=82个观测值。

经过平稳性处理后计算其基于样本自相关和偏自相关系数，见表5.1

A加

0.73

0.49

-0.09

0.30

-0.04

0.20

0.04

0.12

-0.03

0.02

-0.12

-0.01

0.07

-0.04

-0.05

-0.01

0.07

-0.03

-0.08

表5.1绿头苍蝇的样本ACF和PACF

样本门相关系数

样本偏门相关系数

110

图5.2绿头苍蝇的样本ACF和PACF

由表5・1和图5・2知，样本自相关函数｛A｝呈拖尾状，而从10个偏自相关系数的绝对值来

看，除亦显著地异于零之外，其余9个中绝对值不人于

1_1

#_>/82

=0.11的有8个,

-«0.89>68.3%,故该时间序列初步判定为AR⑴模型。

例5.2某时间序列数据（T=273）的样本自相关系数和偏自相关系数计算数据如下:

表5.2某时间序列数拯的样木他偏门相关系数

样本自相关系数

样本偏自相关系数

0球

Okk

0.82

0.46

0.82

0.19

0.45

0.64

-0.68

0.01

0.047

0.63

-0.12

-0.01

-0.26

0.45

0.06

-0.03

-0.41

0.16

-0.02

0.02

-0.36

-0.11

0.18

0.05

-0.15

-0.30

0.20

-0.06

0.16

0.04

由上表知，样本自相关函数｛久｝呈拖尾状，而从15个偏自相关系数的绝对值来看，除几,

氐显著地异于零之外,

其余13个中绝对值不人于

1=1

#_>/273

=0.0605的有9个,

—=0.692^6&3%,故该时间序列初步判定为AR

（2）模型。

例5.3某车站1993-1997年个月的列车运行数量数据共60个，见表5.3,试对该序列给

出初步的模型识别。

表5.3某车站1993-1997年个月的列车运行数量数据（单位：

T•列•T•米）

观测值

1196.8

1206.5

1238.9

1261.6

1183.0

1306.0

1181.3

1204.0

1267.5

1274.5

1228.0

1209.0

1222.6

1234.1

1200.9

1196.4

1274.0

1248.0

1229.3

1146.0

1245.5

1222.6

1218.0

1208.0

1221.5

1304.9

1249.9

1174.7

1263.0

1231.0

1148.4

1221.9

1220.1

1212.6

1205.0

1244.0

1250.2

1244.1

1267.4

1215.0

1210.0

1296.0

1174.4

1194.4

1182.3

1191.0

1243.0

1221.0

1234.5

1281.5

1221.7

1179.0

1266.0

1287.0

1209.7

12773

1178.1

1224.0

1200.0

1191.0

图5.3,5.4分别为原始数据和平稳化以后（第8章将给出具体平稳化方法）数据的散点图。

图5.3列车运行数量数据图5.4平稳化列车运行数量数据

经过计算，其前20个样本自相关系数和偏自相关系数如下

表5.4平稳化列车运行数呈数据样木1%偏白相关系数

样本自相关系数

样本偏自相关系数

0球

-0.685

-0.036

-0.685

-0.130

0.341

0.156

-0.243

0.139

-0.193

-0.165

-0.139

0.136

0.042

0.038

-0.208

-0.184

-0.068

0.001

-0.313

-0.120

0.199

-0.027

0.046

-0.012

-0.221

0.143

-0.030

0.196

0.185

-0.130

-0.037

0.025

-0.130

0.004

-0.002

-0.143

0.037

0.021

-0.042

-0.073

由上表知，样本自相关函数｛必｝呈拖尾状，而从20个自相关系数的绝对值来看，样本自相关系数｛久｝在最初的2阶明显的大于2倍标准差范围，即（-0.26,0.26）,而后95%以上的

样本自相关系数A都落在（-0.26,0.26）内，并且由非零样本自相关系数衰减为在零附近小

值波动的过程非常突然，这时通常视为自相关系数｛几｝截尾，故该时间序列初步判定为

MA⑵或MA（3）模型。

§5.2F检验法

利用F分布进行假设检验是实践中经常使用的统计检验方法，在回归分析中，往往用F检验来考察两个回归模型是否有显著差异，因此常彼用来判定ARMA模型的阶数。

考虑如

卜线性回归模型

y=ex】+a2X2+・・・++s

（5.10）

丫=（儿，儿厂・，Xv）T为N个独立的随机观察值，X,=（XxXa・、XQT，j=12…』为厂个回归因子，"G心,…,J）T为模型残差。

设0是模型（5.7）中参数a=（al,a2,--,ar）T的最小二乘估计，为了检验其中后面$个元素对因变量的影响是否显著，设去掉此s个因素的线性回归模型为

y=a[X{+a\X2+--+a^xX^s+e（5.11）

其中模型（5.11）的参数/的最小二乘估计为因此，检验模型（5.10）与（5.11）是否有

显著差异等价于检验原假设，即

（5.12）

=ar=0

是否成立。

为此，考虑上述两个模型的残差平方和Q。

与Q"于是有

2=込-讥-/x“——arXrl）r=l

（5.13）

Ql=X（yl-^Xll-a2X2l—-ar_sXr_J（5.14）

/=!

借助回归分析中残差平方和的分布结论：

Q。

〜o•'才（N—r）,0。

与0-00相互独立,且当原假设H。

为真时，0—2~，才（0,因此有：

（5.15）

（5.16）

（5.17）

0/_gg_〜f©,N—r）

sN_r

据此构造统计量

f_Q「Qo$Q°

sN-r

对于预先给定的显著性水平&,由附录F分布表查出满足

P（F>Fa）=a

若F>F"N-»则拒绝原假设H。

，即后面s个因素对因变量的影响是显著的；若F

5.2.1AR（p）模型定阶的F准则

1967年，瑞典控制论专家KJ.Astidm教授将F检验准则用于对时间序列模型的定阶。

设Xz（l

并用模型AR（p）

X严肚1+0丸7+…+0,Xr+£

（5.18）

进行拟合。

根据模型阶数节省原则（parsimonyprinciple）,采取由低阶逐步升高的“过拟合”办法。

先对观测数据拟合模型AR（p）（p=l,2,...）,用递推最小二乘估计其参数^（1<；

）并分别计算对应模型的残差平方和。

根据适用的模型应具有较小的残差平方和的特点，用F准则判定模型的阶数改变后相应的残差平方和变化是否显著。

检验假设0,=0即表示模型AR（p-l）是合适的。

由于模型AR（p）残差平方和为

=L（X：

%Xi_p）（5.19）

/=p+l

而模型AR（p-l）的残差平方和为

21=Z（5.20）

/=p+i

统计量F服从自由度为1和N-p的F分布。

即

尸=Q_00/鸟_〜fQ»N—p）（5.21）

1N-p

对照式（5.16）,这里n=p是模型阶数总数，s=l是被检验的阶数差数。

对给定的显著性Q=0・05或0.01,查附录F分布表得FgN—p）,并计算gl~g°-/-^o若

1N-pF>Fa就拒绝假设Ho,即AR（p-l）是不适合模型；若F

例5.4根据某实测数据序列拟合的时间序列模型为AR（p）,其中N=80o当阶数卩二0,

b2,3时，参数估计及F检验结果分别如表5.5、表5.6所示

表5.5AR（p）模型的参数估计结果

参数

AR（p）模型

AR（0）

（1）

（2）

AR⑶

0.8223

1.3543

1.4258

0.0643

0.0774

入

0.0983

表5.6各模型的F检验结果

检验统计量

AR（p）模型

AR（0）

（1）

（2）

AR⑶

100316

31125

18149

17282

175.64

55.72

3.86

45.66

由表5.5和表5.6可知，当模型阶次从1增加到2时，残差平方和Q值急剧减少。

根据F检验定价方法，当a=0.05和N=80时，查附录F分布表得Fa=3.96.当p=ll时求得F=55.7>代，这表明F检验显著，表明AR

（1）模型是不适用的，应改用AR

（2）模型。

计算得F=3.86

（2）模型是适用的。

5.2.2ARMA（p,q）模型定阶的F准则

仿照AR（p）模型定阶F检验准则，可以将F检验应用于ARMA（p,q）模型的定阶。

采用过拟合方法，首先对观测数据用ARMA（p,q）模型进行拟台，再假定％,-高阶系数中某些取值为零，用F检验准则来判定阶数降低之后的模型与ARNIA（p,q）模型之间是否存在显著性差异。

如果差异显著，则说明模型阶数仍存在着升高的可能性；若差异不显著，则说明模型阶数可以降低，低阶模型与高阶模型之间的差异用残差平方和来衡量。

假定原假设为H。

：

蚣=0,0=0,记Q。

为ARMA（p.q）模型的残差平方和，Qi为

ARMA（p-l,qJ）模型的残差平方和，则可以计算统计量

Qi-Qo

〜F（2,N-p-q）

（5.22）

对照式（5.16）这里n=p+q是模型阶数的总数，s=2是被检验阶散的差数。

如果F〉F,则Ho不成立，模型阶数仍有上升的可能；否则Ho成立，即ARNIA（p-l,q・l）是合适的模型。

§5.3信息准则法

5.3.1FPE准则法

前面两节中模型的定阶都采用统计检验手段，在给定显著性水平Q卞作假设检验，带有一定的人为性和主观性。

而FPE、AIC和BIC准则都避免上述的缺陷。

1969年，口本统计学家赤池（Akaike）提出了一种识别AR模型阶数的最终预报误差准则（FuualPredictionEnor）,简称FPE准则。

其基本思想是用模型一步预报误差的方差来判定自回归模型的阶数是否适用，一步预报误差的方差愈小，就认为模型拟合愈好。

设随机序列｛X,｝所适合的真实模型为AR（p）,即

=叽X—+0X/7+•••+0,Xf_p+£｛

用丘⑴表示f时刻的

一步预报值，则有

乂（0=&X-+&X.+…+4>pXt_p（5.23）

可以证明一步预报误差的方差为

E[X,+1-X,

（1）]2-（1+^2（5.24）

可以证明，当样本总量11充分大时有

E[cr2]«（1-—）cr2（5.25）

上式表明F/（l-上）是b1的无偏估计。

在式（5.21）中用无偏估计来代替亍便可得到n

£[X屮一兄

（1）F2（1+上）（1一上）T&'（5.26）

因而将FPE准则定义为

（5.27）

FPEp=（J2

其中可以看出，系数U随着"的增人而增人，而当阶数由低阶至高阶增加时，AR（p）n_p

模型残差方差（T2开始是随着p的增大而减小，但当p超过序列X,的真正模型阶数p.之

后，歹2就不会再减少了，这时仝厘将起主导作用。

最终，使FPE-取最小值的那个卩就/?

-P

可以判定为模型的最佳阶数。

根据经验，当样本点数n=100〜200时取预先设定的样本上限£=—；当n=50〜1001112〃

呵，収L=一〜一。

如果"Ep的数值从p=i就开始上升，则可以判定模型阶数p=l。

若FPEp的值随p增加而一直下降，则很可能是由于实际数据序列不宜采用AR序列来描述。

如果在某一p的FPE】,值下降很快，以后又有缓慢地下降，则可以将这个p值作为模型的阶。

如果随p的增加FPE,,的值上、卞剧烈跳动，取不出最小值，这很可能是由于样本数据长度n太小引起的,可增人样本长度后再进行定阶。

例5・5根据某实测数据序列拟合的AR（p）（p=l,2,...,10）模型的或和FPEp结果如卞表所示：

表5.4拟合各阶AR（p）模型的和

FPEp

1.7203

0.5097

0.5202

0.4790

0.4989

0.4728

0.5027

0.4708

0.5109

0.4705

0.5211

0.4705

0.5318

0.4679

0.5399

0.4664

0.5493

0.4664

0.5607

0.4453

0.5465

由表中可以看出，或随着〃的增加持续下降，但是FPEp在"=2时取得最小值，这提示着模型取为AR

（2）较合适。

5.3.2AI

展开阅读全文