SPSS在数学建模中的应用.ppt

资源描述

SPSS在数学建模中的应用.ppt

《SPSS在数学建模中的应用.ppt》由会员分享，可在线阅读，更多相关《SPSS在数学建模中的应用.ppt（89页珍藏版）》请在冰点文库上搜索。

SPSS在数学建模中的应用.ppt

2010年8月,SPSS在数学建模中的应用,第一讲SPSS的一般应用,一、SPSSforWindows的界面介绍数据编辑窗口包括窗口名显示栏、主菜单、工具栏、数据编辑区、变量定义区和状态栏。

结果编辑窗口显示和管理SPSS统计分析结果、报表及图形的窗口，可以将窗口中的内容以结果文件.spo的形式保存。

数据编辑窗口,结果编辑窗口,二、建立数据文件定义变量数据录入数据编辑数据文件的保存调用其它数据文件,定义变量,单击数据编辑窗口左下方的“VariableView”标签或双击题头（Var），进入变量定义窗口。

可定义：

变量名（Name）变量类型（Type）变量长度（Width）小数点位数（Decimal）变量标签（Label）变量值标签（Values）缺失值的定义方式（Missing）变量的显示宽度（Columns）变量显示的对齐方式（Align）变量的测量尺度（Measure）,定义变量,定义变量名（Name）时，应注意：

（1）变量名可为汉字或英文，英文的第一个字符必须为字母，后面可跟任意字母、数字、句点或、#、_、$等；

（2）变量名不能以句点结尾；（3）定义时应避免最后一个字符为下划线“_”（因为某些过程运行时自动创建的变量名的最后一个字符有可能为下划线）；（4）变量的长度一般不能超过8个字符；（5）每个变量名必须保证是唯一的，不区分大小写。

常用的变量类型（Type）包括：

数值型、字符串型、日期格式变量等。

数据录入,定义变量后，单击“DataView”，即可在数据编辑窗口中输入数据。

例1：

马尾松腮扁叶蜂调查数据.doc,数据文件的保存,选择“File”菜单的“Save”命令，可直接保存为SPSS默认的数据文件格式（*.sav）。

选择“File”菜单的“SaveAs”命令，弹出“SaveDataAs”对话框，可选择保存为Excel（*.xls）等文件格式。

数据编辑,

（1）数据的排序：

DataSortCases

（2）数据的转置：

DataTranspose（3）数据的聚合：

DataAggregateData（4）数据文件的拆分：

DataSplitFile（5）数据文件的合并：

DataMergeFilesAddCases/AddVariables（6）数据的转换：

TransformCompute例2:

数据编辑案例.doc,SPSS调用其他数据文件,按照FileOpenData的顺序选择菜单项，打开“OpenFile”对话框。

可以打开的文件格式除了SPSS（*.sav）外，还包括：

Excel（*.xls）、数据文件（*.dat）和文本文件（*.txt）。

三、SPSS制图主要通过“Graph”菜单中的选项来创建图形。

SPSS在数学建模中的应用.ppt,第二讲方差分析,方差分析是检验多个总体均值之间是否存在显著差异的一种统计方法。

例如，研究不同班级学生的学习成绩是否存在差异。

学习成绩,教学方法,接受能力,心理素质,努力程度,所用教材,例题,根据因素的个数，可以将方差分析分为：

单因素方差分析多因素方差分析单因素方差分析的控制变量只有一个，而控制变量可以有多个观察水平。

例如，在研究教学方法对学习成绩的影响，可以选择多种不同的教学方法进行实验。

如果这些方法之间存在显著的差异性，就可以选择最有效的手段来提高教学水平。

一、单因素方差分析,例如：

把18名学生分为三个等组，各组内学生的能力相当，在三种不同的教学方法下进行相同内容的学习。

其中：

第一组为受表扬组，每次练习后，不管成绩如何，始终受到表扬；第二组为受训斥组，始终受到训斥；第三组为对照组，不受任何信息作用。

将三组学生相互隔离，若干天后对他们进行考试，得到每组的学习成绩：

各组的教学效果是否存在差异？

哪种教学效果最好？

单因子方差分析的数据结构,单因素方差分析的步骤,提出假设构造检验的统计量显著性检验得到结论,1、提出假设,在单因素方差分析中，要检验因素A的k个水平（总体）的均值是否相等，因此提出假设的一般形式为：

原假设：

对立假设：

2、构造检验的统计量,由于样本均值可以作为总体均值的估计，所以可以借助样本均值粗略估计一下总体均值的情况。

符号说明：

总样本容量第i水平的样本均值总样本均值,2、构造检验的统计量,当时，有，。

对例子中的数据，由于各组样本容量相等，于是计算得到总样本均值,2、构造检验的统计量,Questions三组的样本均值各不相等，能否说明三组的总体均值有明显差异？

为什么观察值之间存在差异？

这些差异是由哪些原因造成的？

如何来衡量各组之间的差异大小呢？

2、构造检验的统计量,所有观察值几乎各不相等，它们的分散程度可以用总平方和来度量。

观察值之间的差异越大，SST越大。

在单因素实验中，造成观察值差异的原因有两个：

一个是由随机误差引起的，不可避免；另一个就是由因素的不同水平造成的。

2、构造检验的统计量,我们定义组间平方和来度量各组之间的差异。

定义组内平方和来度量组内随机误差引起的偏差。

可以证明：

2、构造检验的统计量,按照构造统计量的基本原则：

统计量具有一定的实际意义统计量要服从某已知分布可以构造单因素方差分析的统计量：

服从自由度为的F分布。

3、显著性检验,对给定的显著性水平，当时，应拒绝原假设，即认为各水平之间有明显差异；否则应接受原假设，即认为各水平之间无明显差异。

例题的求解,当时，查F分布表得到，由于，因此应拒绝原假设。

4、SPSS的实现过程,

（1）选择菜单AnalyzeComparemeansOne-WayANOVA，弹出One-WayANOVA对话框。

（2）从左侧列表框中选择观测变量（指标），通过中间的移动按钮移入到右侧的DependentList框内。

（3）从左侧列表框中选择因素变量，通过中间的移动按钮移入到右侧的Factor框内。

（4）依次单击“Contrasts”按钮和“PostHoc”按钮，弹出One-WayANOVA:

Contrasts对话框和One-WayANOVA:

PostHoc对话框，由于这两个对话框太专业，也较少用，此处略。

4、SPSS的实现过程,（5）单击“Options”按钮，弹出One-WayANOVA:

Options对话框。

Statistics项：

选择Descriptive复选项，输出基本描述统计量，其他选项略。

MissingValues项：

定义缺失值的处理方式。

其内容设置与One-SamplesTTest完全相同，此处不再重复。

单击“Continue”按钮，返回到One-WayANOVA对话框。

（6）单击“OK”按钮，即可完成单因素方差分析的操作。

4、SPSS的实现过程,例3：

单因素方差分析.doc,二、双因素方差分析,实际中，有时需要考虑两个因素对实验结果的影响。

例如饮料销售，除了关心饮料颜色之外，我们还想了解销售地区是否影响销售量。

若把饮料的颜色看作影响销售量的因素A，饮料的销售地区则是影响因素B。

对因素A和因素B同时进行分析，就属于双因素方差分析的内容。

双因素方差分析是对影响因素进行检验，究竟是一个因素在起作用，还是两个因素都起作用，或是两个因素的影响都不显著。

二、双因素方差分析,双因素方差分析有两种类型：

一个是无交互作用的双因素方差分析，它假定因素A和因素B的效应之间是相互独立的，不存在相互关系；另一个是有交互作用的双因素方差分析，它假定因素A和因素B的结合会产生出一种新的效应。

1、理论分析,1、理论分析,以下根据平方和分解的思想来给出检验用的统计量的计算公式。

先引入下述记号:

i=1,2,rj=1,2,s,1、理论分析,其中总样本容量n=rsm。

总偏差平方和ST、因素A的效应平方和SA、因素B的效应平方和SB、交互效应平方和SAB以及误差平方和SE的计算公式如下：

1、理论分析,双因素方差分析表,1、理论分析,2、SPSS实现过程,在“Analyze”菜单的“GeneralLinearModel”子菜单中选择“Univariate”。

将观察变量添加到“DependentVariable”框中，将两个控制变量添加到“FixedFactor”框中。

若考虑因子间的交互作用，可单击“Model”按钮，选择“Fullfactorial”；若不考虑交互作用，则选择“Custom”，再在“BuildTerms”下方选择“MainEffects”。

与单因素方差分析类似，单击“Options”，可以选择是否进行方差相等的检验等。

例4：

双因素方差分析.doc,第三讲相关及回归分析,相关分析与回归分析是处理变量之间关系的一种常用统计方法。

用这种方法可以定量地建立一个变量关于另一个变量或另几个变量的数学表达式（即数学模型），然后利用这种表达式，可以对该变量进行预测或控制。

一、相关分析,相关分析（CorrelationAnalysis）是根据实际观察的数据资料，在具有相关关系的变量之间，对现象之间的依存关系的表现形式和密切程度的研究。

可以用两种方法来表现变量间的相关关系。

一种方法是通过比较直观的散点图来表现，另一种方法是通过相关系数来反映。

通过图形和数值两种方式，能够有效地揭示变量之间的关系的强弱程度。

1、散点图,散点图就是将数据以点的形式画在直角坐标系上，通过点组成的图形来观察两变量之间的相关关系。

具体做法是：

用横坐标代表自变量X，纵坐标代表因变量Y，通过观察或实验我们可以得到若干组数据（xi,yi），将其在平面直角坐标系中用点来表示。

2、相关系数,相关系数是根据样本数据计算的对两个变量之间线性关系强弱的度量值，用r来表示。

若相关系数是根据总体全部数据计算的，则称为总体相关系数，记为。

样本相关系数的计算公式为：

2、相关系数,相关系数的意义：

0r1表示两个变量间存在正线性相关关系。

-1r0表示两个变量间存在负线性相关关系。

r=0表示两个变量间不存在线性相关关系。

|r|=1表示两个变量间存在完全线性相关关系。

|r|越接近于0，表示两个变量间的线性相关程度越低。

|r|越接近于1，表示两个变量间的线性相关程度越高。

2、相关系数,2、相关系数,3、SPSS实现过程,

（1）选择菜单Analyze-Correlate-Bivariate，弹出BivariateCorrelations对话框。

（2）把参加计算相关系数的变量从左侧列表框中选到右侧的Variables列表框中。

（3）CorrelationCoefficients项：

选择相关系数类型。

包含3个复选项。

Pearson复选项：

简单相关系数，是系统默认的方式。

用于连续变量或等间距测度的数值型变量。

Spearman复选项：

等级相关系数，用来度量顺序变量。

Kendallstau-b复选项：

等级相关系数,用来度量顺序变量。

3、SPSS实现过程,（4）TestofSignificance项：

选择输出相关系数检验的双边或单边概率p值。

包含2个单选项。

Two-tailed单选项：

双边检验，是系统默认的方式。

用于事先不知道相关方向的情况。

One-tailed单选项：

单边检验。

用于事先知道相关方向的情况。

（5）FlagsignificantCorrelations复选项：

选择输出“*”标志，以标明变量间的相关性是否显著。

在相关系数上用“*”标出检验结果，“*”表示显著性概率p0.05，即一般显著；“*”表示显著性概率p0.01，即特别显著。

3、SPSS实现过程,（6）单击“Options”按钮，弹出BivariateCorrelationsOptions对话框。

Statistics项：

选择要输出的统计量。

包含2个复选项。

Meansandstandarddeviations复选项：

输出变量的均值和标准差。

Cross-productdeviationsandcovariances复选项：

输出各对变量的叉积离差阵和协方差阵。

MissingValues项：

指定对缺失值的处理方式。

包含2个单选项。

3、SPSS实现过程,Excludecasespairwise单选项：

剔除本计算变量含有缺失值的数据。

Excludecaseslistwise单选项：

剔除所有计算变量含有缺失值的数据。

单击“Continue”按钮，返回BivariateCorrelations对话框。

（7）单击“OK”按钮，得到相关分析输出结果。

例5：

相关分析.doc,二、回归分析,变量关系,确定性关系：

相关关系,可用确定的函数表达式表达,相关方向,正相关,负相关,相关程度,完全相关,完全不相关,不完全相关,相关形式,线性相关,非线性相关,变量的个数：

单相关/,复相关/,偏相关,二、回归分析,一元线性回归分析多元线性回归分析非线性回归分析,“回归”名称的由来,回归名称的由来要归功于英国统计学F高尔顿（FGalton：

18221911）。

高尔顿和他的学生、现代统计学的奠基者之一K皮尔逊（KPearson：

18561936）在研究父母身高与其子女身高的遗传问题时，在观察了1078对夫妇后，以每对夫妇的平均身高作为x，取他们的一个成年儿子的身高为y，将结果绘成散点图后发现成一条直线。

计算出回归方程为,这种趋势说明父母平均身高x每增加一个单位，其成年儿子的平均身高增加0.516个单位。

该结果表明：

高个子父亲确实有生高个子儿子的趋势。

子代人的身高有回归到同龄人平均身高的趋势。

此例形象的说明了生物学物种的稳定性。

一元线性回归,

（一）一元线性回归模型,可以用相关分析或非线性回归分析,1一元线性回归模型的建立,画出两个变量X和Y的散点图,由X的变化引起的Y的线性变化部分Y=a+bX,Y=a+bX+,由于其他随机因素引起的Y的变化部分，N（0,2）,观察散点是否呈直线趋势,是,否,建立一元线性回归模型：

Y=a+bX+,如何建立方程？

最小二乘法,根据距离观测值的各点平方和最小原则确定参数的方法称为最小二乘法,最小二乘法就是使实际观测值的,2、参数的最小二乘估计,与,之间的差的平方和取最小值，即要选择的参数,应满足使残差平方和,取最小值。

令,整理得方程组：

正规方程组,解此正规方程组得,3、离差平方和的分解,总离差平方和,回归平方和,剩余平方和,xi,y,x,yi,（xi,yi）,离差平方和的分解,

（二）一元线性回归方程的统计检验,1、回归方程的拟合优度检验检验,R2越接近于1，回归方程对实际观测值的拟合优度越高；R2越接近于0，回归方程对实际观测值的拟合优度越低。

（二）一元线性回归方程的统计检验,2、回归方程的显著性检验F检验,H0：

线性关系不显著H1：

线性关系显著,当H0为真时，检验统计量,F（1，n-2）,给定显著性水平，查表确定临界点,确定拒绝域：

，列出方差分析表,方差分析表,

（二）一元线性回归方程的统计检验,3、回归系数的显著性检验t检验,回归系数的显著性检验是检验自变量X对因变量Y的影响是否显著。

如果回归系数b=0，总体回归直线是一条水平线，表明自变量X的变化对因变量Y没有影响。

因此，回归系数的显著性检验就是检验回归系数b与0之间是否有显著差异。

t检验步骤,（三）利用回归方程进行预测,预测就是指通过自变量X的取值估计或预测因变量Y的取值。

（三）利用回归方程进行预测,式中，,多元线性回归,在许多实际问题中，还会遇到一个因变量和多个自变量的线性相关问题，这需要用多元线性回归分析的方法来解决。

例如:

企业的原材料消耗额y与产量x1、单位产量消耗x2、原材料价格x3之间的关系。

涉及p个自变量的多元线性回归模型可表示为,N（0,2）,

（一）多元线性回归模型,

（二）多元线性回归方程,（三）参数的最小二乘估计,多元线性回归分析同样采用最小二乘法来估计待定参数。

就是要求得的，满足使残差平方和取最小值。

判定系数R2仍然是指回归平方和占总离差平方和的比例。

（四）多元线回归的统计检验,1、回归方程的拟合优度检验检验,修正的判定系数是指用平均剩余平方和,来代替SSE,，用平均总离差平方和,来代替SST，,进而得到修正的判定系数的计算公式为：

在多元线性回归分析中，修正的判定系数比判定系数R2更能够准确地反映回归方程对实际观测值的拟合程度。

（四）多元线回归的统计检验,在多元线性回归分析中，修正的判定系数比判定系数R2更能够准确地反映回归方程对实际观测值的拟合程度。

（四）多元线回归的统计检验,（四）多元线回归的统计检验,2、回归方程的显著性检验F检验,给定显著性水平，查表确定临界点。

当,时，拒绝原假设，认为回归方程显著。

（四）多元线回归的统计检验,3、回归系数的显著性检验t检验,回归系数的检验就是用来确定每一个单个的自变量Xj对因变量Y的影响是否显著。

在多元线性回归中，回归方程的显著性检验不再等价于回归系数的显著性检验。

检验的步骤如下：

（1）提出假设：

H0：

bj=0H1：

bj0

（2）构造检验统计量当H0为真时，检验统计量为：

（3）给定显著性水平，查表确定临界点,（4）确定拒绝域：

（5）做出统计决策：

时，拒绝H0，认为Xj对因变量Y的影响显著，反之，就认为自变量Xj对因变量Y的影响不显著。

（五）SPSS实现过程,选择AnalyzeRegressionLinear例6：

多元线性回归分析.doc,非线性回归分析,因变量y与x之间不是线性关系可通过变量代换转换成线性关系用最小二乘法求出参数的估计值并非所有的非线性模型都可以化为线性模型,几种常见的非线性模型,（）线性化方法令：

（）基本形式：

双曲线函数,则：

（一）非线性模型及其线性化方法,（）线性化方法两端取对数得：

lny=lna+blnx令：

（）基本形式,幂函数,则：

（一）非线性模型及其线性化方法,此外，还有几种典型的模型可化为线性化模型：

（一）非线性模型及其线性化方法,多项式函数：

对数函数：

S型曲线函数：

指数函数：

非线性回归（实例）,生产率与废品率的散点图,用线性模型：

y=abx+，有y=2.671+0.0018x用指数模型：

y=abx，有y=4.05（1.0002）x比较直线的残差平方和5.3371指数模型的残差平方和6.11。

直线模型略好于指数模型,

（二）SPSS的实现过程,选择AnalyzeRegressionCurveEstimation1.Dependent框：

存放因变量y2.Independent框：

存放自变量xTime:

以时间序列作为自变量3.CaseLabels框：

变量值作为散点图中的点标记4.Includeconstantinequation项：

方程中包含常数项5.Plotmodels项：

曲线模型选择栏，有11种曲线,

（二）SPSS的实现过程,

（1）Linear-线性方程Y=a+bx

（2）Logarithmic-对数曲线方程Y=a+blnx（3）Inverse-倒数曲线方程Y=a+b/x（4）Quadratic-二次项曲线方程Y=a+bx+cx2（5）Cubic-三次曲线方程Y=a+bx+cx2+dx3,

（二）SPSS的实现过程,（6）Power-幂曲线方程Y=axb（7）Compound-复合曲线方程y=abx（8）S-型曲线方程y=e（a+bx）（9）Logistic-曲线方程y=1/（1/u+（abx）其中,u为上限值，须为正数且大于最大的因变量的值Upperbound:

输入数值，作为上限值,

（二）SPSS的实现过程,（10）Growth-拟合等比级数曲线方程Y=ea+bx（11）Exponential-指数曲线方程Y=aebx6.DisplayANOVATable项：

结果中显示方差分析表7.Save按钮：

（1）Predictedvalue：

保存预测值

（2）Residuals:

保存残差值（3）Predictedintervals：

保存预测区间（4）%Confidenceinterval：

选择置信度,

（二）SPSS的实现过程,8.PredictCases项自变量为时间变量时使用

（1）Predictfromestimationperiodthroughlastcase根据事先设定的估计周期（使用Data-SelectCases-Baseontimeorcaserange项定义）

（2）Predictthrough:

在Observation中输入预测周期的末端值（3）TheEstimationPeriodisAllcases项：

显示当前的估计周期,

（二）SPSS的实现过程,例7：

非线性回归分析.doc,

展开阅读全文