武汉大学SAS复习整理全.docx

资源描述

武汉大学SAS复习整理全.docx

《武汉大学SAS复习整理全.docx》由会员分享，可在线阅读，更多相关《武汉大学SAS复习整理全.docx（16页珍藏版）》请在冰点文库上搜索。

武汉大学SAS复习整理全.docx

武汉大学SAS复习整理全

一、数据集的建立

2.用INSIGHT创建数据集

1）启动SASINSIGHT模块，在“SASINSIGHT：

Open”对话框的”逻辑库“列表框中，选定库逻辑名

2）单击“新建”按钮，在行列交汇处的数据区输入数据值

（注意列名型变量和区间型变量，后面方差分析、相关性分析等都要注意！

）

3）数据集的保存:

“文件”→“保存”→“数据”；选择保存的逻辑库名，并输入数据集名；

2、基本统计分析

1.用INSIGHT计算统计量

1）在INSIGHT中打开数据集

在菜单中选择“Solution（解决方案）”?

“Analysis（分析）”“InteractiveDataAnalysis（交互式数据分析）”，打开“SAS/INSIGHTOpen”对话框，在对话框中选择数据集，单击“Open（打开）”按钮，即可在INSIGHT中打开数据窗口

2）选择菜单“Analyze（分析）”?

“Distribution（Y）（分布）”，打开“Distribution（Y）”对话框。

在数据集的变量列表中，选择分析变量X、分组变量Y。

（注意：

分组变量就是那种可以区别不同种类的变量，例如地区编号、科目、组号等等，而分析变量一般是需要分析的数据，例如成绩，身高书目）

3）单击“Output（输出）”按钮，在打开的对话框中包含描述性统计量选项。

4）选择选项矩统计量和分位数，取消默认的选项：

“BoxPlot/MosaicPlot”和“Histogram/BarChart”，单击“OK”按钮，即可得到变量按分组的各种矩统计量（Moments）和分位数（Quantiles）

2.]用“分析家”计算统计量

1）启动“分析家”

选择主菜单“Solutions（解决方案）”?

“Analysis（分析）”?

“Analyst（分析家）”，打开“分析家”窗口。

选择主菜单“File（文件）”?

“按SAS名称打开”，打开“选择成员”对话框，选择数据集。

2）通过SummaryStatistics菜单计算描述性统计量

选择主菜单“Statistics（统计）”?

“Descriptive（描述性统计）”?

“SummaryStatistics（汇总统计量）”，打开“SummaryStatistics”对话框，选择变量列表中分析变量，单击“Analysis”按钮，选定分析变量

单击“Statistics”按钮，打开“SummaryStatistics：

Statistics”对话框。

对话框中列出可以计算的所有统计量。

3）通过Distributions菜单计算描述性统计量

选择主菜单“Statistics（统计）”?

“Descriptive（描述性统计）”?

“Distributions（分布）”，打开“Distributions”对话框，选择变量列表中的分析变量，单击“Analysis”按钮。

单击“OK”按钮，即可得到关于分析变量的矩统计量和基本统计测度。

四、假设实验

1．总体均值的区间估计

用“insight”计算统计量

1）启动INSIGHT模块，并打开数据集；

2）选择菜单“Analyze（分析）”→“Distribution（Y）（分布）”；

3）在打开的“Distribution（Y）”对话框中选定分析变量放入Y

4）单击Output,在打开的对话框中选中BasicConfidenceInterval

5）两次单击OK按钮

结果包括一个名为“95％ConfidenceIntervals（95%置信区间）”的列表，表中给出了均值、标准差、方差的估计值（Estimate）、置信下限（LCL）和置信上限（UCL）

若想得到其他置信水平的置信区间：

选择“表”→“基本置信区间”→“其他”，然后可以修改置信水平

用“分析家”计算统计量

1）在“分析家”模块中打开数据集；

2）选择菜单“Statistics（统计）”→“HypothesisTests（假设检验）”→“OneSamplet–testforaMean（单样本均值t-检验）”；

3）在打开的“OneSamplet-testforaMean”对话框中选择变量后，单击

Variable

4）单击“test”后设置置信区间类型和置信水平

1.总体比例的置信区间

1）在“分析家”中打开数据集；

2）选择主菜单“Edit（编辑）”→“Mode（模式）”→“Edit（编辑）”，使数据集可以被编辑（修改）；

3）选择主菜单“Data（数据）”→“Transform（变换）”→“RecodeRanges（重编码范围）”，打开“RecodeRangesInformation”对话框

4）单击“OK”按钮，打开“RecodeRanges”对话框，按图3-18右所示生成新变量price_f

注意列类型要改变，还要写明名称！

6）选择菜单“Statistics（统计）”→“HypothesisTests（假设检验）”→“OneSampleTestforaProportion（单样本比例检验）”；

7）在打开的“OneSampleTestforaProportion”对话框中选择分析变量，然后按章前面所示设置置信区间。

2.总体方差的置信区间

1）在“分析家”中打开数据集；

2）选择菜单“Statistics（统计）”→“HypothesisTests（假设检验）”→“OneSampleTestforaVariance（方差的单样本检验）”

3）在打开的“OneSampleTestforaVariance”对话框中设置方差的置信区间，还是如以前所示！

3.两样本总体方差的比较

若1和2分别表示两个分析变量的方差，则检验的是：

H0：

1≥2，H1：

1<2；

检验步骤如下：

1）首先，将数据生成数据集，两个分析变量可用两个变量表示，如分别用s和w表示。

2）在分析家中打开数据集后，选择菜单“Statistics”→“HypothesisTests”→“Two-SampleTestforVariance（双样本方差检验）”，打开“Two-SampleTestforVariance”对话框并按图设置；单击“OK”按钮，得到分析结果。

注意要选两个变量！

！

七．相关分析

1.用INSIGHT模块作相关分析

先说一下建立数据集，找到题中的某句话的意思是，“为了弄清楚。

。

形成的原因，或者是为了分析。

。

的影响因素。

”找到这句话就成功一半了，将这个。

。

元素就写到Y的列下，其他的元素就设成X1X2。

。

这样，有几个元素就几列，但是Y只有一列，而X就看题中给得了！

！

1.制作散点图

首先制作变量之间的散点图，以便判断变量之间的相关性。

步骤如下：

1）在INSIGHT模块中，打开数据集；

2）选择菜单“Analyze（分析）”→“ScatterPlot（YX）（散点图）”；

3）在打开的“ScatterPlot（YX）”对话框中选定Y变量：

Y；选定X变量：

x1、x2、x3、x4；

4）单击“OK”按钮，得到变量的分析结果。

从各散点的分布情况看，初步有一个跟每个元素的线性关系密切或不密切就行了。

2.相关系数计算

1）在INSIGHT模块中，打开数据集；

2）选择菜单“Analyze（分析）”→“Multivariate（YX）（多变量）”；

3）在打开的“Multivariate（YX）”对话框中选定Y变量：

Y；选定X变量：

x1、x2、x3、x4；

4）单击“OK”按钮，得到分析结果。

结果显示各变量的统计量和相关（系数）矩阵，从相关矩阵中可以看出，相关系数高的就关系密切，相关系数低的就关系不密切。

5）为了检验各总体变量的相关系数是否为零，选择菜单：

“Tables”→“CORRp-values”，得到相关系数为零的原假设的p值，如图所示。

基于这些p值，拒绝原假设，即Y因素与其他几个变量之间均存在着显著的正相关关系；若p值＞0.05，则无法拒绝原假设。

3.置信椭圆

继续上述步骤。

6）选择菜单：

“Curves”→“ScatterPlotContEllipse”→“Prediction：

95％”，得到Y与其他几个变量的散点图及预测值的置信椭圆

变量Y和x1间散点图上的这个椭圆被拉得很长，表明变量Y和x1之间有很强的相关性。

用“分析家”作相关分析

1）在“分析家”中打开数据集Mylib.jyzk；

2）选择主菜单“Statistics”→“Descriptive（描述性统计）”→“Correlations（相关）”，打开“Correlations”对话框

都扔进这一个里面了。

。

3）单击plots，打开Correlations:

Plots。

选中Scatterplots（散点图）和Addconfidenceellipses（添加置信椭圆）.

4）两次OK

2.结果分析

＜0.0001的就是高度相关的，较大的就是低度相关的，之间的就是中度相关。

3.置信椭圆

在分析家窗口的项目管理器中依次双击“ScatterPlots”下的“Confidenceellipse：

YX1”～“Confidenceellipse：

YX6”项，得到各变量与单位面积营业额的散点图

置信椭圆较扁长，相关关系强；置信椭圆接近于圆，相关关系小。

八、回归分析

1.用INSIGHT模块作回归分析

1.一元线性回归

数据集的建立与相关分析的数据集建立相同，大家可以看上面的内容！

！

（1）分析

1）在INSIGHT模块中打开数据集。

选择菜单“Analyze”→“Fit（YX）”，打开“Fit（YX）”对话框；

2）在“Fit（YX）”对话框中，将Y设为响应变量，将x1设为自变量；

3）单击“OK”按钮，得到分析结果。

（2）分析结果

第一张表提供关于拟合模型的一般信息，Y=x1表示这个分析是以Y为响应变量，x1为自变量的线性模型；

第二张表给出回归方程：

第三张表是带有回归直线的散点图，给出了回归的图形表示

图的下面是参数回归拟合表。

其中判定系数R-Square（R2）为模型平方和占总平方和的比例，反映了回归方程能够解释的信息占总信息的比例

第四张表提供拟合的汇总度量：

MeanofResponse（响应变量的均值）是变量Y的平均值，RootMSE（均方残差平方根）是对各观测点在直线周围分散程度的一个度量值，为随机误差ε的标准差（也是实测值Y的标准差）的无偏估计。

第五张方差分析表（图4-16）包含对回归方程的显著检验

对一元线性回归，第六张Ⅲ型检验表提供与方差分析表一样的检验

第七张参数估计表给出了回归直线截距和斜率的估计值及其显著性检验等内容。

在这个例子里，截距的p值>=0.05，表示模型还有改进的余地，可以考虑拟合截距为0的回归直线。

斜率的t检验p值<0.0001，表明自变量贷款余额对因变量不良贷款有显著的线性关系

（2）回归诊断

在显示窗的底部有一个残差R_Y和预测值P_Y的散点图，这个图可以帮助验证模型的假定。

从图中看出，数据点随机地散布在零线附近，表明模型中误差等方差、独立性的假设没有问题；若没有随机散步，则模型中方差独立性等假设可能有问题。

为了检验误差为正态分布的假定，回到数据窗口。

可以看到残差R_Y和预测值P_Y已加到数据集之中，可以用Distribution（Y）来验正残差的正态性。

1）选择菜单“Analyze（分析）”→“Distribution（Y）（分布）”，打开“Distribution（Y）”对话框。

在数据表BLDK的变量列表中，选择R_Y，然后单击“Y”按钮，R_Y被选为分析变量；

2）单击“OK”按钮；

3）选择菜单“Curves”→“TestforDistribution”；

4）在打开的“TestforDistribution”对话框中单击“OK”按钮即可。

这一部分就是前面的正态性检验，大家可以看前面的内容！

！

在分析结果的TestforDistribution（分布检验）表中看到，若p值大于0.05，不能拒绝原假设，表明可以接受误差正态性的假定；若p值小于0.05，则不能接受误差正态性。

（3）利用回归方程进行估计和预测

1）回到数据窗口，点击数据表的底部，增加一个新行；在第一个空行中，在x1列填入100，并按Enter键

2）自动计算出Y的预测值并将结果显示在P_Y列之中，这样可以得到任意多个预测值。

（4）拟合不含常数项的回归

要拟合常数项为零的回归模型，只需在上述步骤中的“Fit（YX）”对话框中取消“Intercept”复选项

单击“OK”按钮后，得到的回归模型

记得要做正态性检验哦！

！

2.多元线性回归

（1）分析步骤

在INSIGHT模块中打开数据集。

1）选择菜单“Analyze”→“Fit（YX）（拟合）”，打开“Fit（YX）”对话框；

2）在“Fit（YX）”对话框中，选择变量Y，单击“Y”按钮，将Y设为响应变量；选择变量x1、x2、x3、x4，单击“X”按钮，将x1、x2、x3、x4设为自变量；

还是那句话哦，多的就放到大的框子里面，而少的就放到小的框子里面！

！

3）单击“OK”按钮，得到分析结果。

在显示的结果中可以看到，多元回归分析的输出类似于一元线性回归的输出，同样分为七张表：

第一张表提供关于拟合模型的一般信息；

第二张表给出模型方程（即回归方程）

以下几张表与一元基本相同，就不赘述了。

。

（2）剔除自变量

首先考虑剔除变量x3，对此只需在刚才已打开的拟合窗的任一处选中变量x3，如图所示，再在主菜单中选择“Edit”→“Delete”所有的结果就会修改为不含x3的拟合结果。

若剔除某些变量后拟合的结果比不拟合更好，就可以舍掉某一些自变量！

！

用“分析家”作回归分析

（1）分析步骤

选择主菜单“Statistics（统计）”→“Regression（回归）”→“Linear（线性）”，打开“LinearRegression（线性回归）”对话框，Y进dependent,X1进另一个！

！

在显示的输出结果中，p值<.0001<α=0.05，所以模型的作用是显著的。

参数估计部分列举了回归方程中两个参数的值以及有关的显著性检验的结果。

拟合的回归方程为：

（2）制作散点图

在上述操作打开的“LinearRegression”对话框中，单击“Plots”按钮。

在打开的“LinearRegression：

Plots”对话框中，选择“Predicted”选项卡，选中“Plotobservedvsindependent”复选框。

单击“OK”按钮，得到分析结果，包含响应变量Y与解释变量x2的散点图

（3）拟合不含常数项的回归

在“LinearRegression”对话框中单击“Model”按钮，在打开的“LinearRegression：

Model”对话框中选中“Donotincludeanintercept”复选框

在显示的输出结果中，p值<.0001<α=0.05，所以模型的作用是显著的。

2.多元线性回归

（1）分析步骤

1）选择主菜单“Statistics”→“Regression”→“Linear”，打开“LinearRegression（线性回归）”对话框

平时不都是y=x么，所以这时候也是Y进左边框子，X进右面框子！

！

p值<0.0001<0.05=α显示的分析结果表明模型的作用是显著的

（2）逐步回归

“分析家”中选择变量的方法很多，在上述步骤的“LinearRegression”对话框中，单击“Model”按钮，打开“LinearRegression：

Model”对话框。

在“Method”选项卡中包含多种变量的选择方法，选择其中一种，例如选择“Backwardelimination（逐步剔除法）”

继续剔除进入回归的变量中最不显著的自变量x6，…，直到所有的参数显著不为0

使用REG过程作回归分析（我最喜欢的编程）

1.REG过程的语法格式

•REG过程的基本用法为：

–PROCREGDATA＝<输入数据集>[<选项列表>]；

–VAR<变量列表>；

–MODEL<因变量>=<自变量表>/<选项>；

–PRINT<选项列表>；

–PLOT[=<符号>][/<选项列表>]；

–RUN；

说明：

MODEL语句用以指定所要拟合的回归模型，其后的选项与REG语句的选项类似。

PLOT语句用以对两个变量绘制散点图，表达式中位置在前（在乘号“*”之前）的变量作为散点图的y轴，位置在后的变量作为散点图的x轴。

等号后的符号为散点图中表示点的图形符号，此项内容可省略，SAS会用默认方式显示图形，但如需指定，符号要用单引号括起来。

对于同一个模型可以指定多个plot语句。

PRINT语句用于交互地显示MODEL语句中的有关选项，可以将拟合模型的有关统计量显示在结果中。

2.多元回归

例如：

procregdata=Mylib.jyzk;

varyx1–x6;

modely=x1–x6;

run;

3.逐步回归

在MODBL语句中加上“SELECTION=选择方法”的选项就可以自动挑选自变量，选择方法有NONE（全用，这是缺省），FORWARD（向前逐步引入法），BACKWARD（向后逐步剔除法），STEPWISE（逐步筛选法），MAXR（最大R2增量法），MINR（最小R2增量法），RSQUARE（R2选择法），ADJRSQ（修正R2选择法），CP（Mallows的Cp统计量法）。

例如：

modely=x1–x6/selection=stepwise;

run;

可得到逐步筛选法的分析结果

4.预测

REG过程给出的缺省结果比较少。

用PRINT语句和PLOT语句可以显示额外的结果。

为了显示模型的预测值（拟合值）和预测值的95%置信区间，使用语句：

»printcli;

»run;

用printcli列出的是预测值的置信区间，使用如下语句还可以列出模型均值的置信区间：

»printclm;

»run;

5.散点图

对于自变量是一元的情况，可以在自变量和因变量的散点图上附加回归直线和均值置信界限。

比如

»ploty*x2/conf95;

»run;

四、正态性检验

1.分布拟合图

（1）用“insight”绘图

选择菜单“Analyze（分析）”→“Distribution（Y）（分布）”，打开“Distribution（Y）”对话框

设置正态性！

！

（2）绘制QQ图

要选择QQ图的选项！

！

1）选择菜单“Curves（曲线）”→“QQRefLine（QQ参考线）”，打开“QQRefLine”对话框。

选择“Method（方法）”栏下的“LeastSquares（最小二乘）”单击“OK”按钮得到带参考线的QQ图

选择最小二乘法！

！

2）选择菜单“Graphs（图形）”→“QQPlot（QQ图）”，打开“QQPlot”对话框。

选择“Distribution（分布）”栏下的“LognormalQQPlot（对数正态QQ图）”，单击“OK”按钮得到对数正态QQ图

选择对数正态！

！

（3）正态性检验

注意：

前两种检验都是从图线上直观看出结果，不是很准确，最后这种是最准确的！

！

建议大家做正态性检验时，用这种方法！

！

1.在INSIGHT中继续上述操作：

选择菜单“Curves（曲线）”→“TestforDistribution（分布检验）”，打开“TestforDistribution”对话框。

单击“OK”按钮，得到分析变量的经验分布和拟合的正态累计分布曲线图。

2.列举了拟合正态分布的均值（即样本均值）和标准差（即样本标准差），并提供了KolmogorovD统计量的数值0.1377，而相应的p值>0.05=α，所以不能拒绝原假设，可以认为分析变量总体分布为正态分布。

这是检验的一步，注意看P值与0.05的比较，当P值大于0.05时，就可以确定这个分析变量总体分布为正态分布！

！

2.在“分析家”绘图

（1）绘制分布拟合图和QQ图

1）首先在“分析家”中打开数据集；

2）选择主菜单“Statistics”→“Descriptive”→“Distributions…”，打开“Distributions”对话框。

选择分布拟合图和QQ图！

！

（2）分布检验

1）继续上述步骤。

在分析家窗口的项目管理器中双击“FittedDistributionsofGcjg”项，得到检验结果

2）分析结果时，注意看P值与0.05的比较，当P值大于0.05时，就可以确定这个分析变量总体分布为正态分布！

！

用编程方法进行检验

用编程方法是最方便的方法，也比较省时间，所以建议大家用这种方法！

！

使用UNIVARIATE过程

在PROCUNIVARIATE语句中加上NORMAL选项可以进行正态性检验。

例如：

procunivariatedata=Mylib.yczlnormal;

varweight;（分析变量！

！

）

run;

检验结果：

结果中给出了分析变量的四种正态性检验结果，其中Shapiro-Wilk检验是首选的。

当看到p值很大大于0.05，所以在0.05水平下不能拒绝原假设，即认为分析变量服从正态分布

展开阅读全文