MINTAB进行回归分析Word格式文档下载.docx

资源描述

MINTAB进行回归分析Word格式文档下载.docx

《MINTAB进行回归分析Word格式文档下载.docx》由会员分享，可在线阅读，更多相关《MINTAB进行回归分析Word格式文档下载.docx（14页珍藏版）》请在冰点文库上搜索。

MINTAB进行回归分析Word格式文档下载.docx

产生一组残差图用来进行残差分析。

正常score图，单值残差图，残差柱状图以及残差和拟合图。

二元推理分析

进行响应可能只有两个值的回归分析，例如：

存在或不存在。

分类

最大概率

顺序推理

对响应可能有三个或更多的值的响应进行回归分析，该响应值有自然的顺序，例如：

无影响、中等影响、严重影响。

名义推理

对响应可有三个或更多的值的响应进行回归分析，该响应值没自然的顺序，例如：

甜、咸、酸

您可以使用回归方法来进行用最小二乘法为基础的一元和多元回归分析。

使用本程序您可以产生最小二乘法关系模型，贮存回归统计量，检验残差，产生点估计、进行预测以及置信区间，并且可以进行lack-of-fit检验。

同时您也可以使用该命令产生多元回归关系模型。

然而，如果您要使用一个预测因子来获得一个多元回归关系模型，您将会发现使用拟合线性图更好。

数据

在数字型列中输入相等长度的响应和预测因子变量，这样您的工作表中每行的数据包含着对应观察值的测量结果。

在回归方程计算和方差分析表中，MINITAB忽略了响应或预测因子中所有包含丢失值的观测值列。

线性回归分析

1.选择统计>

回归>

2.在“响应”栏中，输入包含响应变量（Y）的列。

3.在“预测因子”栏中输入包含预测因子（X）变量的列。

4.如果需要的话，可以使用下面显示的选项，然后单击“确立”

选项

图形子对话框

为正常、标准、已删除残差图画5个不同的残差图。

参考-----2-5页选择残差图类型。

有效的残差图包括：

柱状图

正态概率图

残差图及拟合值

残差图及数据顺序。

每个数据点的行号都显示在图中X轴上。

（例如：

12345…n）

独立的残差图及每个选定列。

参考2-6页的残差图。

结果子对话框

在对话窗口中显示下列内容：

不输出

估计的回归关系方程，系数表、S，R2,以及方差分析表。

默认的输出设置，包括上面的输出方式加上连续平方和fitsandresidualsofunusualobservations

选项子对话框

执行加权回归分析-----参考2-6页加权回归分析

excludetheintercepttermfromtheregressionbyuncheckingFitIntercept—see

Regressionthroughtheoriginonpage2-7

显示varianceinflation因子（VIF---共线性影响度量值）

与每个预测因子相关-----参考2-7页Varianceinflationfactor

显示杜宾-瓦特森统计，它是用来检测残差的自相关—参考2-7页检测残差的自相关

显示PRESS统计以及校正的R2。

当预测因子重复时，用纯误差lack-of-fit来检验关系模型的适合性，---参考2-8页检验lack-of-fit

用数据子子集lack-of-fit测试来检验关系模型的适合性---参考2-8页检验lack-of-fit

预测响应结果、置信区间以及新观测值的区间---参考2-9页新的观测值的预测。

存储子对话框

存储系数、拟合值、以及正常、标准、已删除残差图---参考2-5页选择残差类型。

storetheleverages,Cook’sdistances,andDFITS,foridentifyingoutliers—see

Identifyingoutliersonpage2-9.

存储

storethemeansquareerror,the（XX）-1matrix,andtheRmatrixoftheQRor

Choleskydecomposition.（Thevariance-covariancematrixofthecoefficientsis

MSE*（XX）-1.）SeeHelpforinformationonthesematrices.

残差分析及回归推断

当建立了回归关系模，回归分析通常没有完成。

您同样也可以检验残差图和其它回归推理来评定残差图是否是随机和正态分布。

MINITAB通过图形子对话图提供许多残差图，做为选择，关系模型及残差被存储以后，您可以使用统计>

残差图命令可以在同一图形窗口获得四个残差图。

MINITAB也可以用回归推理来识别不正常的观测值，这些观测值可能对回归结果产生很显著的影响，参考2-9页识别OUTLIERS，您可检验一下这些异常数据看它们是否正确。

假如这样的话，您可以确定它们为什么产生异常以及它们对回归关系方程有什么影响。

您也可以验证当存在OUTLIERS时，回归结果的敏感程度。

Outliers可以暗示关系模型不充分或者需要另外的信息。

选择残差类型

您可以计算三各残差类型，使用下表可以帮助您选择哪种图形。

残差类型

选择您需要列

计算方法

常规

examineresidualsintheoriginalscaleofthedata

responsefit

标准

使用ruleofthumb来识别与关系模型关联关系不十分密切的观测值。

一个标准的残差绝对值大于2，MINITAB将这些观测值显示在异常观测值表中，并有R表示。

（残差）/（残差的标准差）

Studentized

识别与关系模型关联关系不十分密切的观测值，删除影响变量估计及参数估计的观测值。

较大的Studentized残差绝对值表明关系模型中包含该观测值将会增大误差变化或者它对参数的估计有很大的影响，或者对二者都有影响。

第I个studentized残差值是用第I个被删除的观测值计算出来的。

MINITAB可以产生残差图这样您就可以验证您建立的关系模型的拟合度，您可以选择以下残差图：

残差正态分布图：

如果残差服从正态分布，图中的点将基本形成一条直线。

如果图中的点背离了该直线，残差服从正态布的假设就会不成立，检验数据是否服从正态分布，可以使用统计>

基本统计>

正态检验（1-43）。

残差柱状图：

该图必须类似正态分布图并且其平均值为0（钟形），许多点串远离零点，关系模型之外的因子可能影响了您的结果。

残差及拟合度：

本图应该显示的是残差应是随机的分布在0周围。

在残差图内应该没有任何recognizablepatterns，以下的几点可以说明残差图是非随机的：

----几点连续上升或下降

----绝大部分的点是正残差，或绝大部的点是负残差。

–patternssuchasincreasingresidualswithincreasingfits

残差与顺序图：

本图所有残差都是按照数据搜集顺序排列的，它可以用来发现非随机错误，特别是与时间相关的影响。

残差图与其变量图：

这是个残差与其它变量图。

一般地，你可以使用关系模型中预测因子或变量来检查一下您的是否有您想要图形。

如果某些残差值被考虑，您可以用刷子工具来标识这些值，您可以参考MINITAB使用者指南中BrushingGraphs的章节。

加权回归分析

加权最小二乘法回归分析用来分析观测值中包含有非常量变量的一种方法。

如果变量不是常量变量那么：

1）带有大变量的观测值应相应地加上较小的权重。

2）带有小变量的观测值应相应地加上较大的权重。

一般情况的权重是响应中纯误差变量相反值。

Theusualchoiceofweightsistheinverseofpureerrorvarianceintheresponse.

1.选择统计>

2.在“权重”栏中，输入包含权重的列，权重必须大于或等于0，在每个对话框中单击“确定”

3.在数据组中有n个观测值，MINITAB产生了nn的矩阵W，权重列作为矩阵的对角和零点。

MINITAB使用（XWX）-1（XWY）来计回归系数，这样就等于将加权平方和误差最小化。

，式中wi为权重。

通过原点的回归

一般的情况下，y截矩（也叫常数项）被包含在等式，因此minitab选用下面关系模型：

然而，如果在x=0时，响应值也自然为0时，可以选用一个没有截矩的关系模型。

如果是这样，在选项子对话框中，不选截矩项，并且0项就会被忽略，minitab选用下面的关系模型：

因为当没有常数项解释R2是非常困难的，所以R2没有显示出来。

如果您想比较带有截矩项与不带有截矩项关系模型的拟合度，可以进行平均值平方误差及验证残差图。

变量inflationfactor

Thevarianceinflationfactor（VIF）用来检测一个预测因子和剩下的预测因子是否有很强的线性关系（预测因子中存在多重共线性）。

如果您的预测因子是相关的（或多重线性相关）时，VIF测量的是估计的回归因子增加程序。

VIF>

=1时表明因子之间不相关，所有预测因子中最大的VIF通常是用来作为多重共线性的指示。

MontgomeryandPeck[21]建议当VIF大于5-10时，回归系数估计得毫无结果。

你应该考虑使用选项中的方法来分散预测因子间的多重共线性：

重新搜集数据，删除预测因子，使用不同的预测因子或最小二乘法回归分析的替代，获得附加的信息请参考[3],[21].。

检验残差的自相关

在线性回归分析中，我们总是假设残差都是彼此相互独立的（即它们之间不存大自相关）。

如果相互独立的假设被破坏，一些关系模型的拟合结果就会被怀疑。

例如：

误差的正相关可以放在系数的t值。

选定一个模型后检验关系模型的假设是回归分析的一个很重要的部分。

Minitab提供了两种方法也检验这个假设：

1.残差与数据顺序（1234…….n）图可以提供很直观的方法来检验残差的自关性。

2.杜宾-瓦特森统计测试回归残差是否存在自相关是通过两个相邻误差项的相关系数是否为0来决定的。

该测试是以误差由第一顺序自回归过程的假设为基础的。

如果列中有丢失的观测值，同样在计算时这些数据就会忽略了，仅仅使用没有丢失的数据。

为了从检验中得出结论，您需要用表中的上下限比较显示的统计量，如果D>

上限，没有相关；

如果D<

下限，表示存在正相关；

如果D在上下限之间，不能确定其相关性。

如果想得到其它信息，请参考[4],[22].

检验lack-of-fit

MINITAB提供了两种lack-of-fit检验，这样您可确定建立的回归模型是否能够完全适合您的数据。

纯误差lack-of-fit检验需要副本（replicates）;

thedatasubsettinglack-of-fittestdoesnotrequirereplicates.

纯误差lack-of-fit检验----如果您的预测因子中包含重复的数据（一个因子几个同样的X值或多预测因子中有几个同样的X值组合），MINITAB可以为lack-of-fit计算一个纯误差检验。

误差项将被分成纯误差（errorwithinreplicates）和lack-of-fit误差。

F检验可以检验您是否选择了适合的回归关系方程。

如果需要其它信息，请参考[9],[22],[29].

数据子集lack-of-fit检验----MINITAB同样也可以进行lack-of-fit检验数据，其数据不需要副本但是要包含数据子集。

该检验是非标准化的，但是它可提供关于每个变量的lack-of-fit的信息。

参考[6]和“帮助”得到更多的信息。

MINITAB可进行2K+1的假设检验，其中K是预测因子数量，然后使用Bonferroni不等式组合它们以得到一个0.1的全面显著性水平。

然后显示出每次检验的lack-of-fit.证据。

Foreachpredictor,acurvaturetestandaninteractiontestareperformedby

comparingthefitaboveandbelowthepredictormeanusingindicatorvariables（对于每个预测因子，可以用曲率检验和交互检验检验通过使用指示变量业比较拟合度是高于并低于预测因子平均值）

也可以用另一个试验通过将关系模与数据“中心”部分拟合，然后比较中心数据误差平方和所有数据误差平方和。

新观测值的预测

如果您知道新预测因子值（X），并且您想知道通过使用回归方程计算出的响应值，那么您可以选项子对话框中新观测值的预测区间。

输入常数或包含新X值的列，每个预测因子数据应是一列（oneforeachpredictor）。

每列的长度必须是相等。

如果输入了常数和一列，MINITAB会认为您想要得到常数和每列数据组合的所有预测值。

您可以将默认的置信水平95%改成其它值，您也可以储存显示的值：

拟合度、拟合度标准误差、置信界限及预测界限。

如果您使用带权重的预测，可以参考帮助中的获得正确的结果。

识别outliers

除了图形之外，为识别outliers或对回归有显著影响的异常观测值，您可以储存三种另外的方法。

这三种方法是：

Leverages、Cook’sdistance,及DFITS

Leverages是“hat”矩阵的对角，H=X（XX）-1X,其中X是设计矩阵，其中hi仅与预测因子有关，它与响应Y有关。

许多人都认为hi值应足够的大，最好是大于2p/n或3p/n，这中P值是预测因子数（包括一个常数）。

MINITAB将这些值在高leverage异常观测值表中显示。

这些影响超过3p/n或0.99的值，无论哪一个是最小的都标上X，leverage大于5p/n都标上XX。

Cook’sdistancecombinesleveragesandStudentizedresidualsintoone

overallmeasureofhowunusualthepredictorvaluesandresponsearefor

eachobservation.Largevaluessignifyunusualobservations.Geometrically,

Cook’sdistanceisameasureofthedistancebetweencoefficientscalculated

withandwithouttheithobservation.Cook[7]andWeisberg[29]suggest

checkingobservationswithCook’sdistance>

F（.50,p,np）,whereFisa

valuefromanF-distribution.

DFITS,likeCook’sdistance,combinestheleverageandtheStudentized

residualintooneoverallmeasureofhowunusualanobservationis.DFITS

（alsocalledDFFITS）isthedifferencebetweenthefittedvaluescalculated

withandwithouttheithobservation,andscaledbystdev（i）.Belseley,Kuh,

andWelsch[3]suggestthatobservationswithDFITS>

2shouldbe

consideredasunusual.SeeHelpformoredetailsonthesemeasures.

Exampleofperformingasimplelinearregression

简单线性回归实例

您是一个制造者并想要容易地获得一个产品的质量标准，但是该程序十分昂贵。

但是这儿有一个能完成同样工作一般方法，该方法不太昂贵并且但并较准确。

您可以检验两组数据之间的关系看看是否可由容易获得数据来预测想要的数据。

您也可以利用观测值SCORE1获得8.2的预测区间。

1.打开工作表EXH_REGR.MTW

2.选择统计>

3.在响应栏中，输入Score2，在预测因子栏中，输入Score1.

4.单击“选项”按钮。

5.在新观测值预测区间栏中，键入8.2，然后单击每个对话框的“确定”按钮。

Theregressionequationis

Score2=1.12+0.218Score1

PredictorCoefSECoefTP

Constant1.11770.109310.230.000

Score10.217670.0174012.510.000

S=0.1274R-Sq=95.7%R-Sq（adj）=95.1%

AnalysisofVariance

SourceDFSSMSFP

Regression12.54192.5419156.560.000

ResidualError70.11360.0162

Total82.6556

UnusualObservations

ObsScore1Score2FitSEFitResidualStResid

97.502.50002.75020.0519-0.2502-2.15R

Rdenotesanobservationwithalargestandardizedresidual

PredictedValuesforNewObservations

NewObsFitSEFit95.0%CI95.0%PI

12.90260.0597（2.7614,3.0439）（2.5697,3.2356）

ValuesofPredictorsforNewObservations

NewObsScore1

18.20

结果说明

回归程序选择模型是

其中Y是响应，X是预测因子，0和1是回归系数，是误差项，它是服从平均为零，标准偏为正态分布，MINITAB通过b0估计0，b1估计1，S估计。

选择的方程拟合方程即为：

其中

叫做被预测或被拟合值。

本例中b0是1.12b1是0.218。

系数表：

在输出窗口中第一个表给出的是估计的系数，和，以及它们的标准误差。

另外值可以检验系数的零假设是否等于零，相应的p值也被给出。

本例中，p值用来检验常数和斜率是否等于零，它显示为0.000，因为MINITAB将这些值圆整至小数点后三位数，该值实际上小于0.0005，该值表明有足够的证据说明在第一类错误概率（levels）水平下，系数不等于零，

S=0.1274，这是的估计值，回归线标准偏差的估计值。

注意：

R-Sq=95.7%.这就是R2，也叫做决定系数，注意R2=Correlation（Y,

）2

R2值是是由预测因子（本例中Score1）而导致Y变量（本例中Score2）的可变比例。

TheR2valueistheproportionofvariabilityintheYvariable（inthisexample,Score2）

accountedforbythepredictors（inthisexample,Score1）.

R-Sq（adj）=95.1%，这是根据自由度而调整的R2，如果一个变量被增加到一个关系方程，R2将要变大尽管被增加变量很可能不是实数。

为了弥补这个缺陷，MINITAB同样也显示出了R-Sq（adj）,该值是总体R2的无偏估计，它是根据以下公式计算出来的：

将其转换为百分比，其中P是回归方程中的系数数量（本例，P=2），在相同的符号，通常R2为：

方差分析：

本表包含着平方和（缩写为SS），SS回归有时也写作SS（回归|b0）以及被叫做SS模型。

误差平方各有时也被写作SS残差，SSE或RSS。

误差均方和被写作MSE。

总平方和（SSTotal）是平均值的修正平方和，使用方差分析来评定总拟合值，F检验是对零假设H0:

所有回归系数（除0）=0进行检验。

异常观测值：

如果预测因子异常，用X来标识该异常观测值；

如果响应值异常，那么用R标识。

（大标准化残差），参考2-5页选择残差类型以及2-9页识别outliers.系统默认只显示异常值。

您可以选择结果子对话框中的选项来显示拟合值的总表。

拟合或被拟合值有时又叫做被预测Y值或

。

SEFit是拟合值的标准误差（估计的）。

StResid是标准化残差。

被预测值：

显示区间是根据给定的预测因子值所获得总体平均值在置信区间为95%的情况下计算出来的（Score1=8.2）。

在预测区间为95%情况下的显示区间是单个观测值Score1=8.2时的预测区间。

置信区间适用于回归中使用的数据。

如果您有想知道新观测值，使用预测区间，参考2

展开阅读全文