时间序列分析模型与回归分析模型算法说明.docx

上传人:b****4 文档编号:3920100 上传时间:2023-05-06 格式:DOCX 页数:18 大小:204.71KB
下载 相关 举报
时间序列分析模型与回归分析模型算法说明.docx_第1页
第1页 / 共18页
时间序列分析模型与回归分析模型算法说明.docx_第2页
第2页 / 共18页
时间序列分析模型与回归分析模型算法说明.docx_第3页
第3页 / 共18页
时间序列分析模型与回归分析模型算法说明.docx_第4页
第4页 / 共18页
时间序列分析模型与回归分析模型算法说明.docx_第5页
第5页 / 共18页
时间序列分析模型与回归分析模型算法说明.docx_第6页
第6页 / 共18页
时间序列分析模型与回归分析模型算法说明.docx_第7页
第7页 / 共18页
时间序列分析模型与回归分析模型算法说明.docx_第8页
第8页 / 共18页
时间序列分析模型与回归分析模型算法说明.docx_第9页
第9页 / 共18页
时间序列分析模型与回归分析模型算法说明.docx_第10页
第10页 / 共18页
时间序列分析模型与回归分析模型算法说明.docx_第11页
第11页 / 共18页
时间序列分析模型与回归分析模型算法说明.docx_第12页
第12页 / 共18页
时间序列分析模型与回归分析模型算法说明.docx_第13页
第13页 / 共18页
时间序列分析模型与回归分析模型算法说明.docx_第14页
第14页 / 共18页
时间序列分析模型与回归分析模型算法说明.docx_第15页
第15页 / 共18页
时间序列分析模型与回归分析模型算法说明.docx_第16页
第16页 / 共18页
时间序列分析模型与回归分析模型算法说明.docx_第17页
第17页 / 共18页
时间序列分析模型与回归分析模型算法说明.docx_第18页
第18页 / 共18页
亲,该文档总共18页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

时间序列分析模型与回归分析模型算法说明.docx

《时间序列分析模型与回归分析模型算法说明.docx》由会员分享,可在线阅读,更多相关《时间序列分析模型与回归分析模型算法说明.docx(18页珍藏版)》请在冰点文库上搜索。

时间序列分析模型与回归分析模型算法说明.docx

时间序列分析模型与回归分析模型算法说明

o

o

SI

II

济指标进行时间序列预测发现其自身的规律性,据此预测未来一段时间内经济数

据的变化。

同时采用回归分析对经济指标间的相关性进行分析,确定指标间的函

、回归分析

线性回归和逻辑回归通常是人们学习预测模型的第一个算法。

由于这二者的

知名度很大,许多分析人员以为它们就是回归的唯一形式了。

而了解更多的学者

事实是有很多种回归形式,每种回归都有其特定的适用场合。

在这篇文章中,

我将以简单的形式介绍7中最常见的回归模型。

通过这篇文章,我希望能够帮

助大家对回归有更广泛和全面的认识,而不是仅仅知道使用线性回归和逻辑回归

1•什么是回归分析?

回归分析是一种预测建模技术的方法,研究因变量(目标)和自变量(预测

例如研究驾驶员鲁莽驾驶与交通事故发生频率之间的关系,就可以通过回归分析

回归分析是进行数据建模、分析的重要工具。

下面这张图反映的是使用一条

曲线来拟合离散数据点。

其中,所有离散数据点与拟合曲线对应位置的差值之和

一个简单的例子来理解:

比如说,你想根据当前的经济状况来估计一家公司的销售额增长。

你有最近的公司数据,数据表明销售增长大约是经济增长的2.5倍。

利用这种洞察力,

我们就可以根据当前和过去的信息预测公司未来的销售情况。

使用回归模型有很多好处,例如:

揭示了因变量和自变量之间的显著关系

揭示了多个自变量对一个因变量的影响程度大小

回归分析还允许我们比较在不同尺度上测量的变量的影响,例如价格变化的影响和促销活动的数量的影响。

这样的好处是可以帮助市场研究者/数据分析家/数据科学家评估选择最佳的变量集,用于建立预测模型。

3.有哪些回归类型?

有许多回归技术可以用来做预测。

这些回归技术主要由三个度量(独立变量的数量、度量变量的类型和回归线的形状)驱动。

我们将在下面的章节中详细讨论。

对于有创造力的人来说,可以对上面的参数进行组合,甚至创造出新的回归。

但是在此之前,让我们来看一看最常见的几种回归。

1)线性回归(LinearRegression

线性回归是最为人熟知的建模技术,是人们学习如何预测模型时的首选之一。

在此技术中,因变量是连续的,自变量可以是连续的也可以是离散的。

回归的本质是线性的。

线性回归通过使用最佳的拟合直线(又被称为回归线),建立因变量(Y和一个或多个自变量(X)之间的关系

它的表达式为:

Y=a+b*X+e,其中a为直线截距,b为直线斜率,e为误差项。

如果给出了自变量X,就能通过这个线性回归表达式计算出预测值,即因变量Y。

HelaiionB/wWeighI&Height

120

140IGO

ISO

200

元线性回归和多元

线性回归的区别在于,多元线性回归有大于1个自变量,而一元线性回归只有1个自变量。

接下来的问题是“如何获得最佳拟合直线?

如何获得最佳拟合直线(确定a和b值)?

这个问题可以使用最小二乘法(LeastSquareMethod)轻松解决。

最小二乘法是一种拟合回归线的常用算法。

它通过最小化每个数据点与预测直线的垂直误差的平方和来计算得到最佳拟合直线。

因为计算的是误差平方和,所有,误差正负值之间没有相互抵消。

自变量和因变量之间必须满足线性关系。

多元回归存在多重共线性,自相关

性和异方差性。

线性回归对异常值非常敏感。

异常值会严重影响回归线和最终的预测值。

多重共线性会增加系数估计的方差,并且使得估计对模型中的微小变化非常敏感。

结果是系数估计不稳定。

在多个自变量的情况下,我们可以采用正向选择、向后消除和逐步选择的方法来选择最重要的自变量。

2)逻辑回归

逻辑回归用来计算事件成功(Success或者失败(Failure)的概率。

当因变量是二进制(0/1,True/FalseYes/Nc)时,应该使用逻辑回归。

这里,丫的取值范围为[0,1],它可以由下列等式来表示。

odds=p/(1-p)=probabilityofeventoccurrenee/probabilityofnoteventoccurrenee

ln(odds)=ln(p/(1-p))

logit(p)=ln(p/(1-p))=b0+b1X1+b2X2+b3X3+bkXk

其中,p是事件发生的概率。

你可能会有这样的疑问“为什么在等式中使用对数log呢?

因为我们这里使用的二项分布(因变量),所以需要选择一个合适的激活函数能够将输出映射到[0,1]之间,Logit函数满足要求。

在上面的等式中,通过使用最大似然估计来得到最佳的参数,而不是使用线性回归最小化平方误差的方法。

逻辑回归广泛用于分类问题。

逻辑回归不要求因变量和自变量之间是线性关系,它可以处理多类型关系,因为它对预测输出进行了非线性log变换。

为了避免过拟合和欠拟合,我们应该涵盖所有有用的变量。

实际中确保这种情况的一个好的做法是使用逐步筛选的方法来估计逻辑回归。

训练样本数量越大越好,因为如果样本数量少,最大似然估计的效果就会比最小二乘法差。

自变量不应相互关联,即不存在多重共线性。

然而,在分析和建模中,我们可以选择包含分类变量相互作用的影响。

如果因变量的值是序数,则称之为序数逻辑回归。

如果因变量是多类别的,则称之为多元逻辑回归。

3)多项式回归(PolynomialRegression)

对应一个回归方程,如果自变量的指数大于1,则它就是多项式回归方程,

如下所示:

y=a+b*xA2

1在多项式回归中,最佳的拟合线不是直线,而是拟合数据点的曲线。

虽然可能会有一些诱导去拟合更高阶的多项式以此来降低误差,但是这样容易发生过拟合。

应该画出拟合曲线图形,重点放在确保曲线反映样本真实分布上。

下图是一个例子,可以帮助我们理解。

尤其要注意曲线的两端,看看这些形状和趋势是否有意义。

更高的多项式可以产生怪异的推断结果。

4)逐步回归(StepwiseRegression

当我们处理多个独立变量时,就使用逐步回归。

在这种技术中,独立变量的选择是借助于自动过程来完成的,不涉及人工干预。

逐步回归的做法是观察统计值,例如R-square、t-stats、AIC指标来辨别重

要的变量。

基于特定标准,通过增加/删除协变量来逐步拟合回归模型。

常见的逐步回归方法如下所示:

标准的逐步回归做两件事,每一步中增加或移除自变量。

前向选择从模型中最重要的自变量开始,然后每一步中增加变量。

反向消除从模型所有的自变量开始,然后每一步中移除最小显著变量。

这种建模技术的目的是通过使用最少的自变量在得到最大的预测能力。

它也

是处理高维数据集的方法之一。

5)岭回归(RidgeRegression

岭回归是当数据遭受多重共线性(独立变量高度相关)时使用的一种技术。

在多重共线性中,即使最小二乘估计(OLS是无偏差的,但是方差很大,使得观察智远离真实值。

岭回归通过给回归估计中增加额外的偏差度,能够有效减少

方差。

之前我们介绍过线性回归方程,如下所示:

y=a+b?

x

这个方程也有一个误差项,完整的方程可表示成:

y=a+b*x+e(errorterm),[errortermisthevalueneededtocorrectforapredictionerrorbetweentheobservedandpredictedvalue]

=>y=a+y=a+b1x1+b2x2+....+e,formultipleindependentvariables.

在线性方程中,预测误差可以分解为两个子分量。

首先是由于偏颇,其次是由于方差。

预测误差可能由于这两个或两个分量中的任何一个而发生。

这里,我

们将讨论由于方差引起的误差。

岭回归通过收缩参数入(lambda)解决了多重共线性问题。

请看下面的方程式:

=argmin||y-X0临+A||邮確gp**

[彳2

和项,前面乘以收缩参数入。

增加第二项的目的是为了缩小系数B的幅值以

减小方差。

6)套索回归(LassoRegressio)

类似于岭回归,套索(LeastAbsoluteShrinkageandSelectionOperate)回归

惩罚的是回归系数的绝对值。

此外,它能够减少变异性和提高线性回归模型的准确性。

请看下面的方程式:

=argmin脸一X训孑+>||训儿

LonPenalty

套索回归不同于岭回归,惩罚函数它使用的是系数的绝对值之和,而不是平方。

这导致惩罚项(或等价于约束估计的绝对值之和),使得一些回归系数估计恰好为零。

施加的惩罚越大,估计就越接近零。

实现从n个变量中进行选择。

7)弹性回归(ElasticNetRegression

弹性回归是岭回归和套索回归的混合技术,它同时使用L2和L1正则化。

当有多个相关的特征时,弹性网络是有用的。

套索回归很可能随机选择其中一个,而弹性回归很可能都会选择。

3=argnuii(||y-A.J||2+『+Ai||4||L)t

9

权衡岭回归和套索回归的一个优点是它让弹性回归继承了一些岭回归在旋转状态下的稳定性。

4.如何选择合适的回归模型?

当你只知道一两种技巧时,生活通常是简单的。

我知道的一个培训机构告诉他们的学生:

如果结果是连续的,使用线性回归;如果结果是二值的,使用逻辑回归!

然而,可供选择的选项越多,选择合适的答案就越困难。

类似的情况也发生在回归模型选择中。

二、时间序列分析

时间序列(timeseries)是同一现象在不同时间上的相继观察值排列而成的序列。

根据观察时间的不同,时间序列中的时间可以是可以是年份、季度、月份或其他任何时间形式。

时间序列:

(1)平稳序列(stationaryseries)

是基本上不存在趋势的序列,序列中的各观察值基本上在某个固定的水平上波动,在不同时间段波动程度不同,但不存在某种规律,随机波动

是包含趋势、季节性或周期性的序列,只含有其中一种成分,也可能是几种成分的组合。

可分为:

有趋势序列、有趋势和季节性序列、几种成分混合而成的复合型序列。

趋势(trend):

时间序列在长时期内呈现出来的某种持续上升或持续下降的变动,也称长期趋势。

时间序列中的趋势可以是线性和非线性。

季节性(seasonality):

季节变动(seasonalfluctuation),是时间序列在一年内重复出现的周期波动。

销售旺季,销售淡季,旅游旺季、旅游淡季,因季节不同而发生变化。

季节,不仅指一年中的四季,其实是指任何一种周期性的变化。

周期性(cyclicity):

循环波动(cyclicalfluctuation),是时间序列中呈现出来的围绕长期趋势的一种波浪形或振荡式波动。

周期性是由商业和经济活动引起的,不同于趋势变动,不是朝着单一方向的持续运动,而是涨落相间的交替波动;不同于季节变动,季节变动有比较固定的规律,且变动周期大多为一年,循环波动则无固定规律,变动周期多在一年以上,且周期长短不一。

周期性通常是由经济环境的变化引起。

除此之外,还有偶然性因素对时间序列产生影响,致使时间序列呈现出某种随机波动。

时间序列除去趋势、周期性和季节性后的偶然性波动,称为随机性

(random),也称不规贝U波动(irregularvariations)。

时间序列的成分可分为4种:

趋势(T)、季节性或季节变动(S)、周期性或循环波动(C)、随机性或不规则波动(I)。

传统时间序列分析的一项主要内容就是把这些成分从时间序列中分离出来,并将它们之间的关系用一定的数学关系式予以表达,而后分别进行分析。

按4种成分对时间序列的影响方式不同,时间序列可分解为多种模型:

加法模型(additivemodel),乘法模型(multiplicativemodel)。

乘法模型:

二、描述性分析

1、增长率分析:

是对现象在不同时间的变化状况所做的描述。

由于对比的基期不同,增长率有不同的计算方法。

(1)增长率(growthrate、:

增长速度,是时间序列中报告期观察值与基期观察值之比减1后的结果,用%表示。

由于对比的基期不同,可分为环比增长率和定基增长率。

环比增长率:

是报告期观察值与前一时期观察值之比减1,说明现象逐期增长变化的程度;

定基增长率是报告期观察值与某一固定时期观察值之比减1,说明现象在整个观察期内总的增长变化程度。

(2)平均增长率(averagerateofincrease):

平均增长速度,是时间序列中逐期环比值(环比发展速度)的几何平均数减1的结果数

(3)增长率分析中应注意的问题

i:

当时间序列中的观察出现0或负数时,不宜计算增长率。

这种序列计算

增长率,要么不符合数学公理,要么无法解释其实际意义。

可用绝对数进行分析。

ii:

有些情况下,不能单纯就增长率论增长率,注意增长率与绝对水平结合起来。

增长率是一个相对值,与对比的基数值的大小有关。

这种情况,计算增长1%的绝对值来克服增长率分析的局限性:

增长1%的绝对值表示增长率每增长一个百分点而增加的绝对数量:

增长1%

的绝对值=前期水平/100

三、时间序列预测的程序时间序列分析的主要目的之一是根据已有的历史数据对未来进行预测。

时间序列含有不同的成分,如趋势、季节性、周期性和随机性。

对于一个具体的时间序列,它可能含有一种成分,也可能同时含有几种成分,含有不同成分的时间序列所用的预测方法是不同的。

预测步骤:

第一步:

确定时间序列所包含的成分,确定时间序列的类型第二步:

找出适合此类时间序列的预测方法

第三步:

对可能的预测方法进行评估,以确定最佳预测方案第四步:

利用最佳预测方案进行预测

1、确定时间序列成分

(1)确定趋势成分确定趋势成分是否存在,可绘制时间序列的线图,看时间序列是否存在趋势,以及存在趋势是线性还是非线性。

利用回归分析拟合一条趋势线,对回归系数进行显著性检验。

回归系数显著,可得出线性趋势显著的结论。

(2)确定季节成分确定季节成分是否存在,至少需要两年数据,且数据需要按季度、月份、周

或天来记录。

可绘图,年度折叠时间序列图(foldedannualtimeseriesplot),需要将每年的数据分开画在图上,横轴只有一年的长度,每年的数据分别对应纵轴。

如果时间序列只存在季节成分,年度折叠时间序列图中的折线将会有交叉;如果时间序列既含有季节成分又含有趋势,则年度折叠时间序列图中的折线将不会有交叉,若趋势上升,后面年度的折线将会高于前面年度的折线,若下降,则后面年度的折线将会低于前面年度的折线。

2、选择预测方法

确定时间序列类型后,选择适当的预测方法。

利用时间数据进行预测,通常假定过去的变化趋势会延续到未来,这样就可以根据过去已有的形态或模式进行预测。

时间序列的预测方法:

传统方法:

简单平均法、移动平均法、指数平滑法等,现代方法:

BoxJenkins的自回归模型(ARMA)。

一般来说,任何时间序列都会有不规则成分存在,在商务和管理数据中通常

不含趋势和季节成分的时间序列,即平稳时间序列只含随机成分,只要通过平滑可消除随机波动。

因此,这类预测方法也称平滑预测方法。

3、预测方法的评估

在选择某种特定的方法进行预测时,需要评价该方法的预测效果或准确性。

评价方法是找出预测值与实际值的差距,即预测误差。

最优的预测方法就是预测误差达到最小的方法。

预测误差计算方法:

平均误差,平均绝对误差、均方误差、平均百分比误差、平均绝对百分比误差。

方法的选择取决于预测者的目标、对方法的熟悉程度。

ME,MAD,MSE的大小受时间序列数据的水平和计量单位的影响,有时并不能真正反映预测模型的好坏,只有在比较不同模型对同一数据的预测时才有意义。

平均百分比误差(meanpercentageerror,MPE)和平均绝对百分比误差(meanabsolutepercentageerror,MAP日则不同,它们消除了时间序列数据的水平和计量单位的影响,是反映误差大小的相对值。

4、平稳序列的预测平稳时间序列只含有随机成分,预测方法:

简单平均法、移动平均法、指数平滑法。

主要通过对时间序列进行平滑以消除随机波动,又称平滑法。

平滑法可用于对时间序列进行短期预测,也可对时间序列进行平滑以描述序列的趋势(线性趋势和非线性趋势)。

(1)简单平均法:

根据已有的t期观察值通过简单平均法来预测下一期的数值。

简单平均法适合对较为平稳的时间序列进行预测,即当时间序列没有趋势时,用该方法比较好。

但如果时间序列有趋势或季节成分,该方法的预测则不够准确。

简单平均法将远期的数值和近期的数值看作对未来同等重要。

从预测角度,近期的数值比远期的数值对未来有更大的作用,因此简单平均法预测的结果不够准确。

(2)移动平均法(movingaverage):

通过对时间序列逐期递移求得平均数作为预测值的一种预测方法,有简单移动平均法(simplemovingaverage)和加权移动平均法(weightedmovingaverage).简单移动平均将最近k期数据加以平均,作为下一期的预测值。

对时间序列的平滑结果,通过这些平滑值可描述出时间序列的变化形态或趋势。

也可以用来预测。

移动平均法只使用最近k期的数据,在每次计算移动平均值时,移动的间隔都为k,也适合对较为平稳的时间序列进行预测。

应用关键是确定合理的移动平均间隔k。

对于同一个时间序列,采用不同的移动间隔,预测的准确性是不同的。

可通过试验的方法,选择一个使均方误差达到最小的移动间隔。

移动间隔小,能快速反映变化,但不能反映变化趋势;移动间隔大,能反映变化趋势,但预测值带有明显的滞后偏差。

移动平均法的基本思想:

移动平均可以消除或减少时间序列数据受偶然性因素干扰而产生的随机变动影响,适合短期预测。

(3)指数平滑法(exponentialsmoothing)是通过对过去的观察值加权平均进行预测,使t+1期的预测值等t期的实际观察值与t期的预测值的加权的平均值。

指数平滑法是从移动平均法发展而来,是一种改良的加权平均法,在不舍弃历史数据的前提下,对离预测期较近的历史数据给予较大权数,权数由近到远按指数规律递减,因此称指数平滑。

指数平滑有一次指数平滑法、二次指数平滑法、三次指数平滑法等。

一次指数平滑法也称单一指数平滑法(singleexponentialsmoothing),只有一个平滑系数,且观察值离预测时期越久远,权数变得越小。

5、趋势型序列的预测时间序列的趋势可分为线性趋势和非线性趋势,若这种趋势能够延续到未来,

就可利用趋势进行外推预测。

有趋势序列的预测方法主要有线性趋势预测、非线性趋势预测和自回归模型预测。

(1)线性趋势预测

线性趋势(lineartrend)是指现象随着时间的推移而呈现稳定增长或下降的线性变化规律。

趋势方程:

时间序列的预测值;是趋势线斜率,表示时间t变动一个单位,观察值的平均变动数量

(2)非线性趋势预测序列中的趋势通常可认为是由于某种固定因素作用同一方向所形成的。

若这种因素随时间推移按线性变化,则可对时间序列拟合趋势直线;若呈现出某种非线性趋势(non-lineartrend),则需要拟合适当的趋势曲线。

6、复合型序列的分解预测复合型序列是指含有趋势、季节、周期和随机成分的序列。

对这类序列的预

测方法是将时间序列的各个因素依次分解出来,然后进行预测。

由于周期成分的分析需要有多年的数据,实际中很难得到多年的数据,因此采用的分解模型为:

预测方法有:

季节性多元回归模型、季节自回归模型和时间序列分解法预测。

分解法预测步骤:

第一步:

确定并分离季节成分。

计算季节指数,以确定时间序列中的季节成分。

然后将季节成分从时间序列中分离出去,即用每一个时间序列观察值除以相

应的季节指数,以消除季节性。

第二步:

建立预测模型并进行预测。

对消除了季节成分的时间序列建立适当的预测模型,并根据这一模型进行预测。

第三步:

计算最后的预测值。

用预测值乘以相应的季节指数,得到最终的预测值。

(1)确定并分离季节成分季节性因素分析是通过季节指数来表示各年的季节成分,以此描述各年的季节变动模式。

i:

计算季节指数(seasonalindex)季节指数刻画了序列在一个年度内各月或各季度的典型季节特征。

在乘法模型中,季节指数以其平均数等于100%为条件而构成的,反映了某一月份或季度的数值占全年平均值的大小。

若现象的发展没有季节变动,则各期的季节指数应等于100%;若某一月份或季度有明显的季节变化,则各期的季节指数应大于或小于100%。

因此,季节变动的程度是根据各季节指数与其平均数(100%)的偏差程度来测定的。

季节指数计算方法较多,移动平均趋势剔除法步骤:

第一步:

计算移动平均值(若是季节数据,采用4项移动平均,月份数据则采用12项移动平均),并对其结果进行中心化处理,即将移动平均的结果再进行一次二项移动平均,即得出中心化移动平均值(CMA)。

第二步:

计算移动平均的比值,即季节比率,即将序列的各观察值除以相应的中心化移动平均值,然后计算出各比值的季度或月份平均值。

第三步:

季节指数调整。

由于各季节指数的平均数应应等于1或100%,若

根据第二步计算的季节比率的平均值不等于1,则需要进行调整。

具体方法:

将第二步计算的每个季节比率的平均值除以它们的总平均值。

ii:

分离季节成分计算出季节指数后,可将各实际观察值分别除以相应的季节指数,将季节成分从时间序列中分离出去:

结果即为季节成分分离后的序列,反映了在没有季节因素影响下时间序列的变化形态。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 自然科学 > 物理

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2