房地产价格指数的R语言.docx

资源描述

房地产价格指数的R语言.docx

《房地产价格指数的R语言.docx》由会员分享，可在线阅读，更多相关《房地产价格指数的R语言.docx（19页珍藏版）》请在冰点文库上搜索。

房地产价格指数的R语言.docx

房地产价格指数的R语言

南京理工大学

课程考核论文

课程名称：

应用时间序列分析

论文题目：

房地产销售价格指数的时间序列分析

指导老师：

谢建春

姓名：

张春雷

学号：

113113001019

成绩：

任课教师评语：

签名：

年月日

前言

近十年来，国内的房地产业发展迅速，开发的面积和规模也越来越大。

大多数国人对房地产这个话题的热情是经久不衰，房地产业内任何重大的政策和举措都对普通老百姓的生活产生深刻的影响。

本文选择的比较对象是一篇关于1998年初-2009年底的房地产销售价格指数的时间序列论文。

原作者使用的是SAS软件，而我将使用R语言软件对数据进行观察研究并预测其走势。

通过两者的过程及结果，比较其优劣。

一、时间序列概述……………………………………………………………………4

1、概念………………………………………………………………………4

2、定义………………………………………………………………………4

3、主要分析方法……………………………………………………………4

4、研究意义…………………………………………………………………4

二、时间序列的预处理………………………………………………………………5

1、平稳性……………………………………………………………………5

2、纯随机性…………………………………………………………………5

三、时间序列分析的主要方法及模型………………………………………………6

1、平稳时间序列分析的模型………………………………………………6

2、非平稳序列分析…………………………………………………………6

3、非平稳序列的模型………………………………………………………7

四、实例分析…………………………………………………………………………9

1、平稳性检验………………………………………………………………

2、拟合及残差白噪声检验………………………………………………11

3、预测效果及比对………………………………………………………13

完整的程序…………………………………………………………………………16

参考文献……………………………………………………………………………16

一、时间序列概述

1.概念

所谓时间序列就是按照时间的顺序记录的一列有序数据。

对时间序列进行观察、研究，找寻它变化发展的规律，预测它将来的走势就是时间序列分析时间序列分析有着非常广泛的应用领域。

2.定义

在统计研究中，常用按时间序列排列的一组随机变量…,

…

来表示一个随机事件的时间序列，简记为

或

。

3.主要分析方法

时间序列分析方法主要有描述性时序分析和统计时序分析。

描述性时序分析主要通过直观数据比较或绘图测绘，统计时序分析主要有频域分析方法以及时域分析方法。

常用的是时域分析法，时域分析法的基本思想是源于事件的发展通常具有一定的惯性，这种惯性用统计语言来描述就是序列值之间存在一定的相关关系，而这种关系具有某种统计规律。

我们分析的重点就是找寻这种规律，选取合适的数学模型拟合，进而预测该事件发展走向。

4.研究意义

事件序列分析具有现实意义，在金融经济、气象水文、信号处理、机械振动等众多领域具有广泛的应用。

二、时间序列的预处理

通常得到一个观察值序列后首先要对其进行平稳性以及纯随机性进行检验。

根据检验结果的不同我们有不同的处理方法。

1.平稳性

时间序列的平稳性分为严平稳与宽平稳

（1）严平稳定义

设

一时间序列。

对任意整数

，任取

，对任意整数

，有

，则称序列

为严稳序列。

其中

为分布函数。

（2）宽平稳定义

如果

满足：

①任取

，有

；

②任取

，有

，

为常数；

③任取

，且

，有

；

则称

为宽平稳序列。

其中

表示

与

的自相关系数。

（3）平稳性的检验

平稳性检验主要有时序图检验以及自相关图检验。

2.纯随机性

（1）纯随机性定义

如果时间序列

满足以下性质：

1任取

，有

，

为常数；

2任取

，有

则称序列为纯随机序列，也称为白噪声（whitenoise）序列。

（2）纯随机性检验

构造检验统计量，主要是Q统计量以及LB统计量。

三、时间序列分析的主要方法及模型

1.平稳时间序列分析的模型

（1）AR模型（autoregressionmodel）

具有如下结构的模型称为p阶自回归模型，记为AR（p）：

（2）MA模型（movingaverage）

具有如下结构的模型称为q阶移动平均模型，记为MA（q）：

（3）ARMA模型（autoregressionmovingaverage）

具有如下结构的模型称为自回归移动平均模型，记为ARMA（p,q）：

若

，该模型称为中心化ARMA（p,q）模型。

2.非平稳序列分析

事实上在自然界中绝大部分序列都是非平稳的，因而对非平稳序列的分析更普遍更重要。

对非平稳时间序列的分析法通常分为确定性时序分析和随机时序分析。

这里简要介绍常用确定性时序分析方法。

（1）趋势分析

有些时间序列具有非常显著的趋势，我们分析的目的就是要找到序列中的这种趋势，并利用这种趋势对序列对序列的发展做出合理的预测。

（2）季节效应分析

在日常生活中我们可以看到许多有季节效应的时间序列，如四季气温等等。

凡是呈现出固定的周期性变化的时间，我们都称其有季节效应。

（3）综合分析

既有趋势起伏变动又有季节效应的复杂序列的分析方法，常用模型有：

1加法模型

2乘积模型

3混合模型a.

式中，

代表序列的长期趋势波动；

代表序列的季节性（周期性）变化；

代表随机波动。

3.非平稳序列的模型

事实上，许多非平稳序列差分后会显示出平稳序列的性质，称之为差分平稳序列。

对差分平稳序列可以用ARIMA模型拟合。

具有如下结构的模型称为求和自回归移动平均（autoregressiveintegratedmovingaverage）模型，简记为ARIMA（p,d,q）模型：

式中：

；

，为平稳可逆ARMA（p,q）模型的自回归系数多项式；

，为平稳可逆ARMA（p,q）模型的移动平滑系数多项式；{

}为零均值白噪声序列。

由上式可知ARIMA模型的实质就是差分运算与ARMA模型的组合。

当序列具有非常显著的确定性趋势或季节效应时，人们会怀念确定性因素分解方法对各种确定性效应的解释，但又因为它对残差信息的浪费而不敢轻易使用。

为了解决这个问题人们构造了残差自回归（auto-regressive）模型。

Auto-Regressive模型的构造思想是首先通过确定性因素分解方法提取序列中主要的确定性信息：

；式中，

为趋势效应拟合，

为季节效应拟合。

考虑到因素分解方法对确定性信息的提取可能不够充分，因而需要进一步检验残差序列

的相关性。

如果检验结果显示残差序列自相关性不显著，说明确定性回归模型对信息提取比较充分，可以停止分析。

如果检验结果显示残差序列自相关性显著，这时可以考虑对残差拟合自回归模型，进一步提取相关信息：

这样构造的模型：

称为残差自回归模型。

四、实例

数据为1998年3月-2009年12月的房地产销售价格指数。

在实例分析过程中，我会加入原论文的结果（用红色字体显示），与之进行比较分析。

1、平稳性检验

首先我们要判断序列是否平稳，主要通过时序图和单位根两个方法进行验证。

如果不平稳，就进行差分运算，直至结果平稳。

原数据的时序图、自相关图、偏自相关图（如下）：

图1原数据的时序图、自相关图、偏自相关图

通过观察时序图，序列有递增趋势，所以我们基本可以判断该序列非平稳。

原论文对序列的平稳性检验如下：

两者结论一致，因此做出差分的决定。

差分后的序列图如下：

图2一阶差分后的时序图、自相关图、偏自相关图

直观判别：

通过观察一阶差分后的时序图，可以初步判断已经平稳，而且数值在-4到4之间，比较对称。

理论判别：

使用单位根检验对一阶差分后的的序列进行验证。

结果如下：

AugmentedDickey-FullerTest

data:

Dickey-Fuller=-4.8375,Lagorder=3,p-value=0.01

alternativehypothesis:

stationary

Warningmessage:

Inadf.test（d）:

p-valuesmallerthanprintedp-value

从上可以看出，p值等于0.01，远远小于0.05，因此拒绝原假设。

因此从序列图和单位根两个方面都可以认定一阶差分后的序列基本平稳。

原论文的一阶差分结果如下：

时序图和自相关图显示序列平稳。

目前为止，R语言和SAS软件对序列的平稳性检验完全一致。

2、拟合及残差白噪声检验

首先，在前面的过程中，我们确定了ARIMA模型的d取值为1。

接下来，我们考虑样本的容量，p和q分别取0到3并依次验证，取AIC值最小者。

AIC

170.16

163.29

165.28

166.65

168.6

165.27

163.65

168.48

169.43

151.97

153.63

157.12

155.53

157.52

159.45

从上面的表格可以看出，当p取2，q取2的时候，AIC函数的值最小。

利用Box-pierce方法对残差进行白噪声检验，结果如下：

图3残差的时序图

Box-Piercetest

data:

X-squared=0.0013,df=1,p-value=0.9715

从P值可以看出，远远大于0.05，因此接受原假设，模型检验合格。

模型最终定为ARIMA（2,1,2）。

拟合函数为：

xt=2.263xt-1-2.192xt-2+0.929xt-3+εt-0.0748εt-1-1.9252εt-2+εt-3

原论文的拟合结果为：

残差白噪声检验显示差分后序列蕴含着很强的相关信息，不能视为白噪声序列。

需要进一步拟合ARIMA模型，观察自相关图和偏自相关图，可初步确定P=3，Q=5观察拟合效果。

拟合效果不佳，部分值的P值过大，不显著，去掉结果不显著的参数项，考虑疏系数模型p=（1,3）q=（1,5）。

参数显著性检验显示两个参数均显著。

我将原论文的结果ARIMA（3,1,5）代入进去，发现AIC值为156.35。

残差检验P值为0.9583。

两者存在一些差别。

3、预测及比对

图4qq图

从qq图的效果可以看出，二者还是比较吻合的，但是右侧头部和左侧尾部偏离期望的正态分布。

图5拟合效果图

黑色是观测数据图，红色是根据拟合的模型得出的预测图，两者趋势基本吻合，在部分区域略有偏差。

我们可以认为，总体上还是能够反映序列的变化并进行适当预测的。

对未来五期的预测结果如下：

$pred

TimeSeries:

Start=49

End=53

Frequency=1

[1]107.8934109.1713109.2693109.3310109.3356

$se

TimeSeries:

Start=49

End=53

Frequency=1

[1]1.2808792.3561723.4928214.3606195.097315

原论文的拟合模型为疏系数模型p=（1,3）q=（1,5）。

拟合及预测的结果如下：

拟合效果图显示拟合效果良好。

R语言结果

原论文结果

107.8934

109.8092

109.1713

111.6537

109.2683

111.3785

109.3310

109.9109

109.3356

108.1931

两个预测结果进行比较，略有差距，其中的原因可能是拟合的问题，也可能是软件的差异。

另外我将原模型的ARIMA（3,1,5）运行以后，结果如下：

$pred

TimeSeries:

Start=49

End=53

Frequency=1

[1]108.5229108.7080106.3036103.3478101.4853

$se

TimeSeries:

Start=49

End=53

Frequency=1

[1]1.0002761.6288752.3582442.9072993.279682

结果表明，差异更大。

完整的程序如下：

library（tseries）

price<-read.table（'D:

\\1.txt'）

par（mfrow=c（2,2））;plot.ts（price）;acf（price）;pacf（price）

d=diff（ts（price））

par（mfrow=c（2,2））;plot.ts（d）;acf（d）;pacf（d）

adf.test（d）

nihe=arima（price,order=c（2,1,2）,method="ML"）

nihe

r=nihe$residuals

plot.ts（r）

Box.test（r）

qqnorm（r）

qqline（r）

library（forecast）

fore=forecast（nihe,h=5,fan=T）

plot（fore）;lines（fitted（nihe）,col="red"）

price.fore=predict（arima（price,order=c（2,1,2））,n.ahead=5）

price.fore

参考文献：

1王燕应用时间序列分析.北京：

中国人民大学出版社，2005

2何书元应用时间序列分析北京：

北京大学出版社，2003

3PaulTeetorR语言经典实例北京：

机械工业出版社，2013

展开阅读全文