1、第十二章 简单回归分析,统计推断的两个主要内容:,t 检验 方差分析 卡方检验 秩和检验,相关分析 回归分析,参数估计和假设检验,指标变量之间关系,线性相关分析 linear correlation analysis,回归(regression)和相关(correlation)分析:研究两个或多个变量间相互关系的统计方法。,简单线性回归分析 simple linear regression analysis,:研究两个变量间的数量依存关系的统计方法。,1.1 线性回归的概念及其统计描述1.2 线性回归模型的适用条件1.3 回归参数的估计1.4 总体回归系数的统计推断1.5 线性回归的应用,10
2、.1 什么是回归?,1.线性回归分析 linear regression analysis,:研究一个变量和另外一些变量间线性数量关系的统计分析方法。,简单线性回归 simple linear regression,多重线性回归 muptiple linear regression,:涉及多个变量(自变量、解释变量)时称。,:模型中只包含两个有“依存关系”的变量,一个变量随另一个变量的变化而变化,且呈直线变化趋势,叫。,分类,矮个子的父代:64英寸而它子代:67英寸,父亲和他儿子的身高:,1.父代的总均数=68英寸 子代的总均数=69英寸,2.高个子的父代:72英寸 而它子代:71英寸,调查了
3、1087对父子:,线性回归(linear regression)又称简单回归(simple regression):讨论两个变量间的数量依存关系的统计方法,即研究一个变量如何随另一个变量变化的常用方法。,因变量dependent variable 反应变量 response variable:非独立的、受其它变量影响的变量,常用“Y”表示。,自变量 independent variable或预测因子 predictor 或 解释变量explanatory variable:能独立自由变化的变量,常用“X”表示。,两个变量:,例11-1:对14名40-60岁健康妇女的基础代谢(Y)与体重(X)的
4、相关系数r=0.964,现问基础代谢(Y)是如何依存体重(X)变化而变化的?,表11-1 14名健康中年妇女的基础代谢与体重的测量值,图11-1 14名健康中年妇女的基础代谢与体重的散点图,由散点图看基础代谢与体重可能是直线关系,YX=+X,上述直线方程称为线性回归模型 linear regression model,散点图显示年龄组的基础代谢的样本均数与体重几乎在一条直线上,略有些偏离直线的点可以理解为样本均数的抽样误差所致,因此可以假定固定基础代谢的总体均数 YX与体重X 的关系可能是直线关系,即有:,通常情况下,研究者只能获得一定数量的样本数据,用样本数据建立的有关Y依从X变化的线性表达
5、式称为回归方程(regression equation),记为:,称 为Y 的预测值;其意义为固定 x,Y 的总体均数 YX 的估计值。a与b分别为回归模型参数和的估计值。,利用回归方程,只要给定一个40-60岁的健康妇女的体重值,就可估计出该个体的基础代谢值Y的平均值。,以样本数据,可算出和的估计值a 和 b。后在直角坐标系以X为横坐标,Y 为纵坐标作图,图形是一条直线,斜率为b,截距为a。,线性回归关系的特点:,变量间关系不能用函数关系精确表达一个变量的取值不能由另一个变量唯一确定。当变量 X 取某个值时,变量Y取值可能有几个。各观测点分布在直线周围,误差与残差,称为随机误差 称为残差(r
6、esidual)根据上述,直线回归分析要求资料满足固定X,则Y 服从正态分布等价于残差服从正态分布。,直线回归原理示意图:,所以如果固定X,Y 服从正态分布,其散点图呈直线带状分布,线性回归的分类:,I 型回归:因变量(Y)是随机变化的,但自变量(X)可以不随机,当它是能够精确测量和严密控制的量时,叫Y 关于X 的I型回归。,II型回归:因变量(Y)和自变量(X)都是随机变化的,叫Y 关于X 的II型回归。,表12-1 不同IgG浓度下的沉淀环数据,小结:回归分析(Regression analysis)从一组样本数据出发,确定变量之间的数学关系式;对这些关系式的可信程度进行各种统计检验,并从
7、影响某一特定变量的诸多变量中找出具有统计学意义的变量;利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度。,二、线性回归模型的适用条件,line,normal正态性,equal variance等方差性,因变量Y 的总体平均值与自变量X呈线性关系,在一定范围内任意给定值,则对应的随机变量服从正态分布,在一定范围内,不同X值所对应的随机变量Y的方差相同,linear线性,回归分析的主要步骤,绘制散点图,回归参数的估计:求回归系数和常数项,回归系数和常数项的假设检验,列出回归方程,并进行假设检验,回归方程的解释,(一)绘制散点图:,从散点图可
8、见:基础代谢()和体重()有线性关系,可以考虑做线性回归分析。,图11-1 14名健康中年妇女的基础代谢与体重的散点图,(二)回归参数的估计:,让所有点的 的平方和最小,用最小二乘法拟合直线,选择a和b使其残差(样本点到直线的垂直距离)平方和达到最小。,最小二乘法原则的文字描述:,回归参数的估计方法:,按照最小二乘法原则,可得到:,回归方程:,例11-1:对14名40-60岁健康妇女的基础代谢(Y)与体重(X)的相关系数r=0.964,现问基础代谢(Y)是如何依存体重(X)变化而变化的?,表11-1 14名健康中年妇女的基础代谢与体重的测量值,解:回归方程的两个参数分别为,得回归方程:,作回归
9、直线图,回归系数的意义:,1.由总体回归方程可知 YX=+x,参数 的意义:若自变量X增加1个单位,反应变量Y的 平均值便增加 个单位。2.由于 是 YX=+X 的估计表达式,所以(样本)回归系数b 表示 X 增加一个单位,样本观察值Y 平均增加 b 个单位。,(三)总体回归系数的统计推断:,就总体而言,这种回归关系是否存在?即总体回归方程是否成立?,由于样本回归系数b与总体回归系数存在抽样误差,即:一般情况下,b,因此需要考虑抽样误差对统计推断是否存在重大影响?,总体回归系数的假设检验的基本思想:,=0,说明Y与X之间并不存在线性关系 0,说明Y与X之间存在线性关系,即:对于X 的任何值,总
10、体均数 YX 没有任何改变,故建立Y与的直线回归方程就没有任何意义了,故是否为0,涉及到所建立的回归方程是否有意义的问题。然而从=0的总体抽得样本,计算出的回归系数b很可能不为零,需要对是否等于0进行假设检验t检验,假设检验,回归模型的假设检验(model test):,回归系数的假设检验:,目的:检验求得的回归方程在总体中是否成立;方法:单因素方差分析。,目的:即检验总体回归体系数是否为0(=0);方法:t 检验。,1.回归模型的假设检验方差分析,SS总=SS回归+SS残差,v总=v回归+v残差,变异的分解:,回归方程假设检验的基本思想:,如果总体中自变量X对因变量Y没有贡献,则由样本所得的
11、回归均方与残差均方应相近;反之,如果总体中自变量X对因变量Y有贡献,回归平方和反应的就不仅仅是随机误差,即回归均方必然要远大于残差均方;依此,可计算检验统计量F值作出判断。,问:所求得的回归方程在总体中是否成立?,查F界值表(P572),确定单侧临界值Fa(v回归,v残差),求概率值 P,下结论,均方:MS=SS/v,回归均方:MS回归=SS回归/v回归残差均方:MS残差=SS残差/v残差,检验统计量:,1.建立假设,确定检验水准 H0:总体回归方程不成立,即总体中自变量X对因变量Y没有贡献;H1:总体回归方程成立,即总体中自变量X对;因变时Y有贡献。=0.05(单侧),查F 界值表(P468
12、):a=0.05,v回归=1、v残差=n-2=12,得:F(k-1,n-k)=F(1,12)=4.75,3.确定P值,作出推断结论:由于F=158.364.75,则P0.05,故拒绝H0,接受H1,可认为体重与基础代谢之间有线性回归关系。,2.计算检验统计量F值:,2.回归系数的假设检验 t 检验,=0,说明Y与X之间并不存在线性关系 0,说明Y与X之间存在线性关系,即:对于X 的任何值,总体均数 YX 没有任何改变,故建立Y与的直线回归方程就没有任何意义了,故是否为0,涉及到所建立的回归方程是否有意义的问题。然而从=0的总体抽得样本,计算出的回归系数b很可能不为零,需要对是否等于0进行假设检
13、验t检验,t 检验:,检验过程:,注意:,1.在简单线性回归模型中,对回归模型的方差分析等价于对回归系数的t 检验,即有:,2.对于服从双变量正态分布的同样一组资料,同时作相关分析和回归分析,则相关系数的 t检验与回归系数数的t 检验等价,即有:,(五)总体回归系数的区间估计:,已知b为回归系数的样本估计值,Sb为样本回归系数的标准误,则总体回归系数的双侧1-置信区间为:,上例题中b=61.4229,Sb=4.8810,v=12,查t 界值表得:t0.05/2,12=2.179;则其总体回归系数的双侧95置信区间为:,b t/2,v Sb,61.4229 2.179 4.881=(50.787
14、,72.059),【电脑实现】SPSS,线性回归分析:1.数据录入,2.线性回归分析的步骤:,3.结果及结果输出:,(六)回归方程的解释:体重对基础代谢的影响有多大?,决定系数:回归平方和与总平方和之比。0R21反映了自变量X对回归效果的贡献,即Y的总变异中回归关系所能解释的百分比(variance account formula,VAF);反映了回归模型的拟合效果,可作为反应拟合优度(goodness of fit)的指标。,上例题:SS总=4645447.0121,SS回归=4318227.7159 R2=SS回归/SS总=0.964=96.4%解释:说明基础代谢总变异的96.4%与体重有
15、关。,(七)回归方程的统计应用:,定量描述两变量之间的依存关系。利用回归方程进行统计预测。利用回归方程进行统计控制。,1.统计预测:将X值作预报因子,固定总体中X为某定值Xi时,估计个体Y值的容许区间,即Y值的波动范围。,例:第一观测点数据(X1=50.7)为例,预测第一数据点Y值的95%预测区间,答:,已知回归方程,故基础代谢的95%容许区间为:,2.均数置信区间:当X值为某定值,并给定置信度1-,考察Y的总体均数的分布时,可估计Y的总体均数 YX的1-置信区间。,答:,已知回归方程,故基础代谢的95%容许区间为:,例:第一观测点数据(X1=50.7)为例,预测Y的总体均数值的95%预测区间
16、。,2.统计控制:例:在硝酸钠的溶解试验中,测得在不同温度X下,溶解于100份水中的硝酸钠份数Y的数据见表。若要求溶解于100份水中的硝酸钠份数在80份以上,温度应如何控制?,由原始数据得方程对应于个体Y值的95%预测区间单侧下限值为:X=16.56,体重为16.56度以下,溶解于100份水中的硝酸钠份数在80份以上,简单线性回归分析的注意事项:,1.要注意实际意义;2.绘制散点图观察两变量的关系以及找出异常点;3.注意自变量和因变量的变化范围。,小 结,简单线性回归是指只包含一个自变量,且呈线性变化趋势的回归模型,用于描述因变量的总体均数与自变量之间的线性关系,即两变量间的依存变化关系。简单线性回归的基本步骤:绘制散点图,在最小二乘法原则下建立线性回归方程,即估计回归系数与截距;对回归方程或回归系数进行假设检验;列出回归方程,绘制回归直线;统计解释及应用。,线性回归模型的适用条件为:线性、独立、正态和等方差,简称LINE。决定系数反映了回归平方和在总平方和中所占的比例,常用来反映回归的实际效果。线性回归常用于统计预测和统计控制。当两变量变化趋势为非线性时,可考虑拟合非线性回归议程,常
copyright@ 2008-2023 冰点文库 网站版权所有
经营许可证编号:鄂ICP备19020893号-2