是{x,}的自相关系数{qJ的估计。
作为{x,}的自协方差系数忆}的估计,根据数理统计知识,样本自协方差系数还可以写为
1T-k
I口(5.3)
乙=久,1“"-1
在上述两种估计中,当样本容量T很人,而R的绝对值较小时,上述两种估计值相差不人,其中由(5.1)定义的第一种估计值的绝对值较小。
根据前面章节的讨论,因为AR(p),MA(q)或者ARMA(p,q)模型的自协方差系数{齐}都是以负指数阶收敛到零,所以在对平稳时间序列的数据拟合AR(p),MA(q)或者ARMA(p,q)模型时,希望实际计算的样本自协方差系数{%}能以很快的速度收敛。
因此,我们一般选择由(5.1)定义的第一种估计值作为{%}的点估计。
根据第三章偏自相关系数的计算,利用样本自相关系数{0/的值,定义样本偏自相关系数{NJ如下:
冰气"1,2,
1
A
A
…A-:
1
A
…A
>%
A
•
1
•
…Pk-i
A
‘A=
A
Pl
•
1
•
…p2
•
•
•
•
a
•••
...1
•
•
A
•
•
•••
Pz
A-i
A-
…Pk
关于样本的自相关系数{A}的统计性质,我们将在下一章给予讨论。
Quenouille证明,{亦}也满足Bartlett公式,即当样本容量T充分人时,
必〜N(0,1仔)
这样根据正态分布的性质,我们有
=68.3%
=95.5%
(5.4)
(5.5)
(5.6)
(5.7)
这样,关于偏自相关系数{血}的截尾性的判断,转化为利用上述性质(5.6)或者(5.7),可以判断{&J的截尾性。
具体方法为对于每一个0>0,考查%十,蚣+2
中落入应卜寺或应卜滸的比例是否占总数M的68.3%或95.5%。
一般地,我们取M=『如果p=pQ之前&火都明显地不为零,而当p>pQ时,
k+l・"o+l'0"o+2,"o+2,中满足不等式
的个数占总数M的68.3%或95.5%,则可以认定{如}在几处截尾,由此可以初步判定序列{/}为AR(几)模型。
对于样本的自相关系数{A},由第二章的Bartlett公式,对于q>0,{p,}满足
(5.8)
(5.9)
1q
XN0,-1+2工0;
I7L冃」丿
进一步地,当样本容量T充分人时,{Q}也满足
A〜N(0,l/T)
类似于(5.6)或者(5.7)式,对于每一个q>0,检查氏+「氏乜,…,昭中落入
中的比例是否占总数M的68.3%或95.5%左右。
如果在条之前,
A都明显不为零,而当q=q°时,必。
+2,…,蔦。
枷中满足上述不等式的个数达到比例,则判断{久}在%处截尾。
初步认为序列{XJ为MA(q°)模型。
至此我们可以利用样本的自相关系数{A}和偏自相关系数{入},得到ARMA模型阶数的初步判定方法。
具体做法如卜•:
(1)如果样本自相关系数{久}在最初的q阶明显的大于2倍标准差范围,即2(1/存),而后几乎95%的样本自相关系数A都落在2倍标准差范围之内,并且由非零样本自相关
系数衰减为在零附近小值波动的过程非常突然,这时通常视为自相关系数截尾,既可以初步判定相应的时间序列为MA(§)模型
⑵同样,样本偏自相关系数{无}如果满足上述性质,则可以初步判定相应的时间序列为
AR(p)模型。
⑶对于样本自相关系数{A}和样本偏自相关系数{矗},如果均有超过5%的值落入2倍标准差范闱之外,或者由非零样本自相关系数和样本偏自相关系数衰减为在零附近小值波动的过程非常缓慢,这时都视为不戴尾的,我们将初步判定时间序列为ARMA模型,那么这样的判断往往会失效,因为这时ARMAQq)模型的阶数卩和q很难确定。
总之,基于样本自相关和偏自相关系数的定阶法只是一种初步定阶方法,可在建模开始时加以粗略地估计。
例5.1绿头苍蝇数据的时间序列。
具有均衡性别比例数目固定的成年绿头苍蝇保存在一
个盒子中,每天给一定数量的食物,每天对绿头苍蝇的总体计数,共得到T=82个观测值。
经过平稳性处理后计算其基于样本自相关和偏自相关系数,见表5.1
k
A
Pk
k
A加
1
0.73
1
0.73
2
0.49
2
-0.09
3
0.30
3
-0.04
4
0.20
4
0.04
5
0.12
5
-0.03
6
0.02
6
-0.12
7
-0.01
7
0.07
8
-0.04
8
-0.05
9
-0.01
9
0.07
10
-0.03
10
-0.08
表5.1绿头苍蝇的样本ACF和PACF
样本门相关系数
样本偏门相关系数
110
图5.2绿头苍蝇的样本ACF和PACF
由表5・1和图5・2知,样本自相关函数{A}呈拖尾状,而从10个偏自相关系数的绝对值来
看,除亦显著地异于零之外,其余9个中绝对值不人于
1_1
#_>/82
=0.11的有8个,
Q
-«0.89>68.3%,故该时间序列初步判定为AR⑴模型。
例5.2某时间序列数据(T=273)的样本自相关系数和偏自相关系数计算数据如下:
表5.2某时间序列数拯的样木他偏门相关系数
样本自相关系数
样本偏自相关系数
k
A
Pk
k
A
Pk
k
A
0球
k
A
Okk
1
0.82
9
0.46
1
0.82
9
0.19
2
0.45
10
0.64
2
-0.68
10
0.01
3
0.047
11
0.63
3
-0.12
11
-0.01
4
-0.26
12
0.45
4
0.06
12
-0.03
5
-0.41
13
0.16
5
-0.02
13
0.02
6
-0.36
14
-0.11
6
0.18
14
0.05
7
-0.15
15
-0.30
7
0.20
15
-0.06
8
0.16
8
0.04
由上表知,样本自相关函数{久}呈拖尾状,而从15个偏自相关系数的绝对值来看,除几,
氐显著地异于零之外,
其余13个中绝对值不人于
1=1
#_>/273
=0.0605的有9个,
Q
—=0.692^6&3%,故该时间序列初步判定为AR
(2)模型。
例5.3某车站1993-1997年个月的列车运行数量数据共60个,见表5.3,试对该序列给
出初步的模型识别。
表5.3某车站1993-1997年个月的列车运行数量数据(单位:
T•列•T•米)
k
观测值
k
观测值
k
观测值
k
观测值
k
观测值
k
观测值
1
1196.8
11
1206.5
21
1238.9
31
1261.6
41
1183.0
51
1306.0
2
1181.3
12
1204.0
22
1267.5
32
1274.5
42
1228.0
52
1209.0
3
1222.6
13
1234.1
23
1200.9
33
1196.4
43
1274.0
53
1248.0
4
1229.3
14
1146.0
24
1245.5
34
1222.6
44
1218.0
54
1208.0
5
1221.5
15
1304.9
25
1249.9
35
1174.7
45
1263.0
55
1231.0
6
1148.4
16
1221.9
26
1220.1
36
1212.6
46
1205.0
56
1244.0
7
1250.2
17
1244.1
27
1267.4
37
1215.0
47
1210.0
57
1296.0
8
1174.4
18
1194.4
28
1182.3
38
1191.0
48
1243.0
58
1221.0
9
1234.5
19
1281.5
29
1221.7
39
1179.0
49
1266.0
59
1287.0
10
1209.7
20
12773
30
1178.1
40
1224.0
50
1200.0
60
1191.0
图5.3,5.4分别为原始数据和平稳化以后(第8章将给出具体平稳化方法)数据的散点图。
图5.3列车运行数量数据图5.4平稳化列车运行数量数据
经过计算,其前20个样本自相关系数和偏自相关系数如下
表5.4平稳化列车运行数呈数据样木1%偏白相关系数
样本自相关系数
样本偏自相关系数
k
A
A
k
A
k
A
0球
k
A
0球
1
-0.685
11
-0.036
1
-0.685
11
-0.130
2
0.341
12
0.156
2
-0.243
12
0.139
3
-0.193
13
-0.165
3
-0.139
13
0.136
4
0.042
14
0.038
4
-0.208
14
-0.184
5
-0.068
15
0.001
5
-0.313
15
-0.120
6
0.199
16
-0.027
6
0.046
16
-0.012
7
-0.221
17
0.143
7
-0.030
17
0.196
8
0.185
18
-0.130
8
-0.037
18
0.025
9
-0.130
19
0.004
9
-0.002
19
-0.143
10
0.037
20
0.021
10
-0.042
20
-0.073
由上表知,样本自相关函数{必}呈拖尾状,而从20个自相关系数的绝对值来看,样本自相关系数{久}在最初的2阶明显的大于2倍标准差范围,即(-0.26,0.26),而后95%以上的
样本自相关系数A都落在(-0.26,0.26)内,并且由非零样本自相关系数衰减为在零附近小
值波动的过程非常突然,这时通常视为自相关系数{几}截尾,故该时间序列初步判定为
MA⑵或MA(3)模型。
§5.2F检验法
利用F分布进行假设检验是实践中经常使用的统计检验方法,在回归分析中,往往用F检验来考察两个回归模型是否有显著差异,因此常彼用来判定ARMA模型的阶数。
考虑如
卜线性回归模型
y=ex】+a2X2+・・・++s
(5.10)
丫=(儿,儿厂・,Xv)T为N个独立的随机观察值,X,=(XxXa・、XQT,j=12…』为厂个回归因子,"G心,…,J)T为模型残差。
设0是模型(5.7)中参数a=(al,a2,--,ar)T的最小二乘估计,为了检验其中后面$个元素对因变量的影响是否显著,设去掉此s个因素的线性回归模型为
y=a[X{+a\X2+--+a^xX^s+e(5.11)
其中模型(5.11)的参数/的最小二乘估计为因此,检验模型(5.10)与(5.11)是否有
显著差异等价于检验原假设,即
(5.12)
=ar=0
是否成立。
为此,考虑上述两个模型的残差平方和Q。
与Q"于是有
2=込-讥-/x“——arXrl)r=l
(5.13)
Ql=X(yl-^Xll-a2X2l—-ar_sXr_J(5.14)
/=!
借助回归分析中残差平方和的分布结论:
Q。
〜o•'才(N—r),0。
与0-00相互独立,且当原假设H。
为真时,0—2~,才(0,因此有:
(5.15)
(5.16)
(5.17)
0/_gg_〜f©,N—r)
sN_r
据此构造统计量
f_Q「Qo$Q°
sN-r
对于预先给定的显著性水平&,由附录F分布表查出满足
P(F>Fa)=a
若F>F"N-»则拒绝原假设H。
,即后面s个因素对因变量的影响是显著的;若F5.2.1AR(p)模型定阶的F准则
1967年,瑞典控制论专家KJ.Astidm教授将F检验准则用于对时间序列模型的定阶。
设Xz(l并用模型AR(p)
X严肚1+0丸7+…+0,Xr+£
(5.18)
进行拟合。
根据模型阶数节省原则(parsimonyprinciple),采取由低阶逐步升高的“过拟合”办法。
先对观测数据拟合模型AR(p)(p=l,2,...),用递推最小二乘估计其参数^(1<;?
)并分别计算对应模型的残差平方和。
根据适用的模型应具有较小的残差平方和的特点,用F准则判定模型的阶数改变后相应的残差平方和变化是否显著。
检验假设0,=0即表示模型AR(p-l)是合适的。
由于模型AR(p)残差平方和为
=L(X:
%Xi_p)(5.19)
/=p+l
而模型AR(p-l)的残差平方和为
21=Z(5.20)
/=p+i
统计量F服从自由度为1和N-p的F分布。
即
尸=Q_00/鸟_〜fQ»N—p)(5.21)
1N-p
对照式(5.16),这里n=p是模型阶数总数,s=l是被检验的阶数差数。
对给定的显著性Q=0・05或0.01,查附录F分布表得FgN—p),并计算gl~g°-/-^o若
1N-pF>Fa就拒绝假设Ho,即AR(p-l)是不适合模型;若F例5.4根据某实测数据序列拟合的时间序列模型为AR(p),其中N=80o当阶数卩二0,
b2,3时,参数估计及F检验结果分别如表5.5、表5.6所示
表5.5AR(p)模型的参数估计结果
参数
AR(p)模型
AR(0)
AR
(1)
AR
(2)
AR⑶
a
-
0.8223
1.3543
1.4258
/K
-
-
0.0643
0.0774
入
03
-
-
-
0.0983
表5.6各模型的F检验结果
检验统计量
AR(p)模型
AR(0)
AR
(1)
AR
(2)
AR⑶
Q
100316
31125
18149
17282
F
175.64
55.72
3.86
45.66
由表5.5和表5.6可知,当模型阶次从1增加到2时,残差平方和Q值急剧减少。
根据F检验定价方法,当a=0.05和N=80时,查附录F分布表得Fa=3.96.当p=ll时求得F=55.7>代,这表明F检验显著,表明AR
(1)模型是不适用的,应改用AR
(2)模型。
计算得F=3.86^,这表明F检验不显著,因此AR
(2)模型是适用的。
5.2.2ARMA(p,q)模型定阶的F准则
仿照AR(p)模型定阶F检验准则,可以将F检验应用于ARMA(p,q)模型的定阶。
采用过拟合方法,首先对观测数据用ARMA(p,q)模型进行拟台,再假定%,-高阶系数中某些取值为零,用F检验准则来判定阶数降低之后的模型与ARNIA(p,q)模型之间是否存在显著性差异。
如果差异显著,则说明模型阶数仍存在着升高的可能性;若差异不显著,则说明模型阶数可以降低,低阶模型与高阶模型之间的差异用残差平方和来衡量。
假定原假设为H。
:
蚣=0,0=0,记Q。
为ARMA(p.q)模型的残差平方和,Qi为
ARMA(p-l,qJ)模型的残差平方和,则可以计算统计量
Qi-Qo
〜F(2,N-p-q)
(5.22)
对照式(5.16)这里n=p+q是模型阶数的总数,s=2是被检验阶散的差数。
如果F〉F,则Ho不成立,模型阶数仍有上升的可能;否则Ho成立,即ARNIA(p-l,q・l)是合适的模型。
§5.3信息准则法
5.3.1FPE准则法
前面两节中模型的定阶都采用统计检验手段,在给定显著性水平Q卞作假设检验,带有一定的人为性和主观性。
而FPE、AIC和BIC准则都避免上述的缺陷。
1969年,口本统计学家赤池(Akaike)提出了一种识别AR模型阶数的最终预报误差准则(FuualPredictionEnor),简称FPE准则。
其基本思想是用模型一步预报误差的方差来判定自回归模型的阶数是否适用,一步预报误差的方差愈小,就认为模型拟合愈好。
设随机序列{X,}所适合的真实模型为AR(p),即
X?
=叽X—+0X/7+•••+0,Xf_p+£{
其中£•(£•,)=0,=设©的估计值为(l用丘⑴表示f时刻的
一步预报值,则有
乂(0=&X-+&X.+…+4>pXt_p(5.23)
可以证明一步预报误差的方差为
E[X,+1-X,
(1)]2-(1+^2(5.24)
n
可以证明,当样本总量11充分大时有
E[cr2]«(1-—)cr2(5.25)
n
上式表明F/(l-上)是b1的无偏估计。
在式(5.21)中用无偏估计来代替亍便可得到n
£[X屮一兄
(1)F2(1+上)(1一上)T&'(5.26)
nn
因而将FPE准则定义为
(5.27)
FPEp=(J2
其中可以看出,系数U随着"的增人而增人,而当阶数由低阶至高阶增加时,AR(p)n_p
模型残差方差(T2开始是随着p的增大而减小,但当p超过序列X,的真正模型阶数p.之
后,歹2就不会再减少了,这时仝厘将起主导作用。
最终,使FPE-取最小值的那个卩就/?
-P
可以判定为模型的最佳阶数。
根据经验,当样本点数n=100〜200时取预先设定的样本上限£=—;当n=50〜1001112〃
呵,収L=一〜一。
32
如果"Ep的数值从p=i就开始上升,则可以判定模型阶数p=l。
若FPEp的值随p增加而一直下降,则很可能是由于实际数据序列不宜采用AR序列来描述。
如果在某一p的FPE】,值下降很快,以后又有缓慢地下降,则可以将这个p值作为模型的阶。
如果随p的增加FPE,,的值上、卞剧烈跳动,取不出最小值,这很可能是由于样本数据长度n太小引起的,可增人样本长度后再进行定阶。
例5・5根据某实测数据序列拟合的AR(p)(p=l,2,...,10)模型的或和FPEp结果如卞表所示:
表5.4拟合各阶AR(p)模型的和
P
&2
FPEp
0
1.7203
1.7203
1
0.5097
0.5202
2
0.4790
0.4989
3
0.4728
0.5027
4
0.4708
0.5109
5
0.4705
0.5211
6
0.4705
0.5318
7
0.4679
0.5399
8
0.4664
0.5493
9
0.4664
0.5607
10
0.4453
0.5465
由表中可以看出,或随着〃的增加持续下降,但是FPEp在"=2时取得最小值,这提示着模型取为AR
(2)较合适。
5.3.2AI