ImageVerifierCode 换一换
格式:DOCX , 页数:18 ,大小:328.30KB ,
资源ID:13736814      下载积分:5 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bingdoc.com/d-13736814.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(SAS学习系列逐步回归.docx)为本站会员(b****1)主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(发送邮件至service@bingdoc.com或直接QQ联系客服),我们立即给予删除!

SAS学习系列逐步回归.docx

1、SAS学习系列逐步回归24. 逐步回归一、原理多元线性回归模型中,并不是所有的自变量都与因变量有显著关系,有时有些自变量的作用可以忽略。这就产生了怎样从大量可能有关的自变量中挑选出对因变量有显著影响的部分自变量的问题。逐步回归的基本思想是,将变量一个一个引入,引入变量的条件是偏回归平方和经检验是显著的,同时每引入一个新变量后,对已选入的变量要进行逐个检验,将不显著变量剔除,这样保证最后所得的变量子集中的所有变量都是显著的。这样经若干步以后便得“最优”变量子集。逐步回归每一步只有一个变量单独的回归因子引进或从当前的回归模型中剔除,当没有回归因子能够引进模型时,该过程停止。二、步骤记引入变量F检验

2、的临界值为Fin,剔除变量F检验的临界值为Fout,一般取Fin Fout. 其确定原则:对k个自变量中的m个(mk),则记F*=F(1,N-m-1),取Fin=Fout= F*.一般也可以直接取Fin=Fout=2.0或2.5. 要想回归方程多进入一些自变量,甚至也可以取为1.0或1.5. 1. 前进法(变量增加法)首先对全部k个自变量,分别对因变量Y建立一元回归方程,并分别计算k个回归系数的F检验值,记为,记为 = max, 若有Fin,则将Xi引入回归方程,记为X1. 接着考虑X1分别与其它自变量与因变量Y二元回归方程,选出最大F值若大于Fin, 则将该变量引入回归方程,记为X2, 依次

3、类推,直到所有末被引入回归方程的自变量的F值均小于Fin时为止。增加法的缺点是,它不能反映后来变化的情况,已引入的变量因为后引入的某个自变量的影响,它可能由显著变为不显著,但并没有和时从回归方程中将它剔除掉。2. 后退法(变量减少法)首先建立全部自变量X1,X2,.,Xk对因变变量Y的回归方程,然后分别求出k个回归系数的F值为,记=min,若有Fout,则将自变量Xi从回归方程中剔除掉。以此类推,直到在回归方程中的自变量的F值均大于Fout为止。减少法的缺点是,一开始把全部变量都引入回归方程,这样计算量比较大。3. 逐步筛选法(变量增减法)在实际的数据中,自变量X1,X2,.,Xk之间往往并不

4、是独立的,而是有一定的相关性存在的,这就会使得随着回归方程中变量的增加和减少,某些自变量对回归方程的贡献也会发生变化。因此将前两种方法综合起来,也就是对每一个自变量,随着其对回归方程贡献的变化,它随时可能被引入回归方程或被剔除出去,最终的回归模型是在回归方程中的自变量均为显著的,不在回归方程中的自变量均不显著。三、需要注意的问题1. 实际中,往往不使用每次计算出的Fin和Fout, 而是使用固定的F 值(避免出现Fin Fout, 造成死循环);2. 自变量进入模型的顺序并不反映它们的重要程度;3. 逐步回归方法的一个局限是,预先假定有单一的最优X变量子集,也可能还有其它最优选择;4. 逐步回

5、归方法的另一个缺点是,当X变量高度相关时,有时会得到不合理的“最优”子集。四、PROC REG过程步基本语法:PROC REG data = 数据集;MODEL 因变量 = 自变量列表 ;SELECTION=选项 用于逐步回归中选择合适的建立模型方法:none全部变量都选forward前进法backward后退法stepwise逐步筛选法maxr最大R2增量法minr最小R2增量法rsquareR2选择法cpMallows Cp选择法adjrsq修正的R2选择法注:在前进法、后退法或逐步回归的变量选择过程中,都有一个判断是否可进入或剔除的显著水平,分别由model语句的选项slentry=和s

6、lstay设定的:start= s指定先从s个自变量的回归模型开始;stop=s指定找到s个自变量的回归模型结束;Mallows的Cp统计量是由Mallows提出的作为选择模型的判别式的变量。Cp是一个误差平方总和的量度:其中,P是模型中包括截距项的参数个数,MSE是满模型时均方误差,ESSp是具有P个自变量(包括截距项)回归模型的误差平方和。作Cp与P的曲线图,Matlows建议取Cp 首次接近P的地方的模型。常用的输出可选项:STB输出标准化偏回归系数矩阵CORRB输出参数估计矩阵COLLINOINT对自变量进行共线性分析P输出个体观测值、预测值和残差 (R/CLM/CLI包含P)R输出每

7、个个体观测值、残差和标准误差CLM输出因变量均值95%的置信界限的上下限CLI对各预测值输出95%的置信界限的上下限MSE要求输出随机扰动项方差𝜎2的估计与残差分析有关的可选项 VIF输出变量间相关性的方差膨胀系数,VIF越大,说明由于共线性存在,使方差变大; COLLIN输出条件数,它表示最大的特征值与每个自变量特征值之比的平方根。一般情况下,条件数越大越可能存在共线性; TOL表示共线性水平的容许值,TOL越小说明其可用别的自变量解释的部分多,自然可能与别的自变量存在共线性关系; DW输出Durbin-Watson统计量; influence对异常点进行诊断,对每一观测点输

8、出统计量(Cooks D 50%, defits/debetas 2说明该点影响较大)。2. 绘制回归分析的图形在PROC REG过程步加入绘图选项语句即可。基本语法:PROC REG data = 数据集PLOTS = (图形类型);可选的绘图类型: FITPLOT带回归线、置信预测带的散点图;RESIDUALS自变量的残差图;DIAGNOSTICS诊断图(包括下面各图);COOKSDCooks D统计量图;OBSERVEDBYPREDICTED根据预测值的因变量图;QQPLOT 检验残差正态性的QQ图;RESIDUALBYPREDICTED根据预测值的残差图;RESIDUALHISTOGR

9、AM残差的直方图;RFPLOT残差拟合图;RSTUDENTBYLEVERAGE杠杆比率的学生化残差图;RSTUDENTBYPREDICTED预测值的学生化残差图;注:残差图(RESIDUALS)和诊断图(DIAGNOSTICS)是自动生成的,根据模型也有其它默认的图形输出;若只绘制指定的图形需要加上ONLY:PROC REG data = 数据集 PLOTS(ONLY) = (图形类型);例1用逐步回归模型,来研究耗氧量的是如何依赖其它变量的。31位成年人心肺功能的调查数据(见下表)age weight Oxygen耗氧量 runtime 跑15英哩的时间(分)rstpulse 休息时每分钟心

10、跳次数runpulse 跑步时每分钟心跳次数Maxpulse每分钟心跳次数最大值4489.4744.60911.37621781824075.0745.31310.07621851854485.8454.2978.65451561684268.1559.5718.17401661723889.0249.8749.22551781804777.4544.81111.63581761764075.9845.68111.95701761804381.1949.09110.85641621704481.4239.44213.08631741763881.8760.0558.63481701864473

11、.0350.54110.13451681684587.6637.38814.03561861924566.4544.75411.12511761764779.1547.27310.60471621645483.1251.85510.33501661704981.4249.1568.95441801855169.6340.83610.95571681725177.9146.67210.00481621684891.6346.77410.25481621644973.3750.38810.08761681685773.3739.40712.63581741765479.3846.08011.176

12、21561655276.3245.4419.63481641665070.8754.6258.92481461555167.2545.11811.08481721725491.6339.20312.88441681725173.7145.79010.47591861885759.0850.5459.93491481554976.3248.6739.40561861884861.2447.92011.50521701765282.7847.46710.5053170172代码:data fitness ;input age weight oxygen runtime rstpulse runpu

13、lse maxpulse;datalines; 44 89.47 44.609 11.37 62 178 18240 75.07 45.313 10.07 62 185 18544 85.84 54.297 8.65 45 156 16842 68.15 59.571 8.17 40 166 17238 89.02 49.874 9.22 55 178 18047 77.45 44.811 11.63 58 176 17640 75.98 45.681 11.95 70 176 18043 81.19 49.091 10.85 64 162 17044 81.42 39.442 13.08 6

14、3 174 17638 81.87 60.055 8.63 48 170 18644 73.03 50.541 10.13 45 168 16845 87.66 37.388 14.03 56 186 19245 66.45 44.754 11.12 51 176 17647 79.15 47.273 10.60 47 162 16454 83.12 51.855 10.33 50 166 17049 81.42 49.156 8.95 44 180 18551 69.63 40.836 10.95 57 168 17251 77.91 46.672 10.00 48 162 16848 91

15、.63 46.774 10.25 48 162 16449 73.37 50.388 10.08 76 168 16857 73.37 39.407 12.63 58 174 17654 79.38 46.080 11.17 62 156 16552 76.32 45.441 9.63 48 164 16650 70.87 54.625 8.92 48 146 15551 67.25 45.118 11.08 48 172 17254 91.63 39.203 12.88 44 168 17251 73.71 45.790 10.47 59 186 18857 59.08 50.545 9.9

16、3 49 148 15549 76.32 48.673 9.40 56 186 18848 61.24 47.920 11.50 52 170 17652 82.78 47.467 10.50 53 170 172;run;proc reg data= fitness;model oxygen = age weight rstpulse maxpulse runpulse runtime /selection=stepwise ;run;运行结果:逐步选择: 第 1 步变量 runtime 已输入: R 方 = 0.7434 和 C(p) = 13.5198条件数字的边界: 1, 1逐步选择:

17、 第 2 步变量 age 已输入: R 方 = 0.7642 和 C(p) = 12.2249条件数字的边界: 1.0369, 4.1478逐步选择: 第 3 步变量 runpulse 已输入: R 方 = 0.8111 和 C(p) = 6.8278条件数字的边界: 1.3548, 11.597逐步选择: 第 4 步变量 maxpulse 已输入: R 方 = 0.8368 和 C(p) = 4.7661条件数字的边界: 8.4182, 76.851留在模型中的所有变量的显著性水平都为 0.1500。没有其他变量满足 0.1500 显著性水平,无法输入该模型。结果说明:(1)在显著水平015

18、下,用逐步回归法挑选出四个自变量按runtime, age, runpulse, maxpulse 先后被选入回归模型。其它变量在0.15水平下是不显著的。(2)同时还输出了每个回归模型变化时的R2值增加值、R2值、CP值、相应的F统计量、P值。另外,在每步还列出了条件指数的最小值最大值,以和每一个回归变量的第类平方和。(3)age变量进入模型后,R2值的增加值(称为偏R2)为(650.66573-632.90010)/851.38154=0.020867 =0.7642-0.7434如果按CP值选择最优子集,随着进入回归模型中的自变量个数P从2到5个(包括截距),相应CP值从大到小为13.5

19、198、12.2249、6.8278、4.7661按照Mallows提出的回归模型最优自变量个数的选择准则,CP=4.7661是最接近自变量个数P=5的模型。当P=5时,CP=138.93001792/5.39197(3125)= 4.76608569因此,用逐步回归方法和CP值确认的拟合回归模型为:oxygen = 98.14789-0.19773age+0.27051maxpulse-0.34811runpulse-2.76758runtime(4)条件指数为最大特征值和每个特征值之比的平方根。当模型进入第四个自变量maxpulse时,最大的条件指数从较小11.597变成了较大76.851

20、,说明存在一定程度的共线性,根据前面上篇例1的分析,这个共线性方程可能为runpulsemaxpulse=0. 若引入新变量代替线性组合关系的变量:maxrun=maxpulse-runpulse重新进行逐步回归:data fitness2;set fitness;maxrun=maxpulse-runpulse;run;proc reg data= fitness2;model oxygen = age weight rstpulse maxrun runtime /selection=stepwise ;run;得到回归方程为:(其它输出略)oxygen = 89.48742 -0.162

21、97 age -0.08063weight+0.38826 maxrun-2.80555 runtime例2 同例1,用R2选择法逐步回归给出全部可能回归的程序,并且以R2值的大到小排序输出。代码:proc reg data= fitness;model oxygen = age weight rstpulse maxpulse runpulse runtime /selection= rsquare b best=2;*选项 b 输出各回归系数;run;运行结果:例如,含2个自变量按R2值第二大(0.7614)的回归模型为: oxygen= 93.088770.07351runpulse3.

22、14019runtime例3 例2中的各个回归模型到底选哪个呢?方法是先用Mallows的Cp方法确定变量个数;对所有可能的回归按Cp由小到大进行排序并保留其前5种,并绘制Cp图。代码:goptions reset=global gunit=pct cback=white border htitle=6 htext=3 ftext=swissb colors=(back);title Cp plot with Reference Lines;proc reg data= fitness;model oxygen = age weight rstpulse maxpulse runpulse r

23、untime /selection=cp adjrsq best=5 ;plot cp. * np. /chocking=red cmallows=blue vaxis=0 to 15 by 2 haxis=0 to 8 by 1;run;运行结果:程序说明:(1) 选项selection=cp 指定用Mallows Cp选择法。选项adjrsq表示要输出每种回归模型的统计量Adj-R2. 选项best=5表示保留Cp值最小的前5种回归模型;(2)plot语句中的cp. * np.表达式(注意统计量关键字母后的小圆点)表示Y轴为Cp值X轴为P值(P值包括截距项);(3)Hocking(1976

24、)建议选择满足Cp2PPfull 且CpP的模型。plot语句的选项chocking=red,表示画Cp=2PPfull 红色参考虚线,其中P是子模型中含截距的参数个数,Pfull是全模型中不含截距的参数个数;(4)Mallows(1973)建议考虑所有满足Cp较小且接近P的模型。plot语句的选项cmallows=blue,表示画Cp=P蓝色参考实线,其中P是子模型中含截距的参数个数;(5)从输出结果看,以Mallows的建议为标准,age, maxpulse, runpulse和runtime四个变量进入回归模型时Cp最小(4.76609),且与P=4+1=5最接近,因为54.76609256=4。而Cp=5.00021的模型满足要求,因为5.00021266=6且5.000210.83681815). 不同的标准提供不同的选择结果,这是常有的情况。

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2