简单线性相关和回归分析课件.ppt

资源描述

简单线性相关和回归分析课件.ppt

《简单线性相关和回归分析课件.ppt》由会员分享，可在线阅读，更多相关《简单线性相关和回归分析课件.ppt（101页珍藏版）》请在冰点文库上搜索。

简单线性相关和回归分析课件.ppt

1,简单线性相关,北京大学公共卫生学院妇女与儿童青少年卫生学系周虹,2,例：

一个产科医师发现孕妇尿中雌三醇含量与产儿的体重有关。

因此收集了31例待产妇24小时的尿，测量其中的雌三醇含量，同时记录产儿的体重，结果见下表。

问尿中雌三醇含量与产儿体重之间相关系数是多少？

是正相关还是负相关？

3,表.待产妇尿雌三醇含量与产儿体重,4,产妇尿雌三醇含量与产儿出生体重的散点图,5,6,利用SPSS统计软件实现线性相关：

AnalyzeCorrelationBivariateBivariatecorrelation在弹出的对话框中同时选中待分析的两个变量，在CorrelationCoefficients项目下选中“Pearson”即可。

7,8,9,SPSS输出结果：

10,线性相关的应用,在确实存在相关关系的前提下，如果r的绝对值越大，说明两个变量之间的关联程度越强；如果r绝对值越小，则说明两个变量之间的关系越弱。

一般说来，当样本量较大（n100），并对r进行假设检验，有统计学意义时，r的绝对值大于0.7，则表示两个变量高度相关；r的绝对值大于0.4，小于等于0.7时，则表示两个变量之间中度相关；r的绝对值小于等于0.4时，则两个变量低度相关。

11,应用线性相关时要注意：

1.相关系数接近于零时并不意味着两变量一定不相关，也可能存在非线性相关。

2.观察值中存在异常值时要慎重处理。

3.统计学上存在相关并不一定表示两个指标在专业上有内在联系。

12,偏相关分析,概念:

偏相关系数是用来衡量任何两个变量之间的关系，而使与这两个变量有联系的其它变量都保持不变。

即控制了其它一个或多个变量的影响下，计算两个变量的相关性。

13,例题：

某地29名13岁男童身高X1（cm）、体重X2（kg）和肺活量Y（ml）的数据（见数据data1）,请用该资料计算体重与肺活量的偏相关系数。

14,SPSS操作步骤：

Analyze-Correlation-Partial把分析变量选入Variable框把控制变量选入Controllingfor框ContinueOK,15,体重与肺活量的简单相关系数,16,身高作为控制变量，肺活量与体重的偏相关系数,17,线性回归,18,第一节简单直线回归,19,一、简单直线回归方程,简单直线回归（linearregression）是用来描述一个变量依赖于另一个变量的线性关系。

这里两变量的地位是不同的，其中X为自变量，可随机变动亦可人为取值；而Y被视为依赖于X而变化的因变量。

20,a称为截距（intercept），表示X取值为0时Y的平均水平。

b称为回归系数（regressioncoefficient）或直线的斜率（slope），表示X每变化一个单位时，Y平均改变b个单位。

b0时，随X的增大而增大；b0时，随X的增大而减小；b=0时，直线与X轴平行，Y与X无直线关系,21,二、回归方程的计算,在数理统计中，用最小二乘法的原理可求出a、b的计算公式。

求解a和b实际上就是怎样”找到一条直线使所有数据点与它的平均距离“最近”。

22,表.待产妇尿雌三醇含量与产儿体重,资料来源：

RosnserB:

FundamentalsofBiostatisticsP.364,DuxburyPress,1982,23,=1750-,=41.20,24,25,三、回归系数的假设检验,与直线相关一样，直线回归方程也是从样本资料计算而得的，同样也存在抽样误差问题。

所以，需要对样本的回归系数b进行假设检验，以判断b是否从回归系数为零的总体中抽得。

总体的回归系数一般用表示。

26,回归系数的检验方法有两种：

（1）方差分析2）t检验两种方法是等价的。

27,28,因变量Y的变异的分解,Y的分解：

移项：

考虑全部样本：

上式用符号表示：

SS总称为Y的总离均差平方和SS回称为回归平方和SS残称为残差平方和或剩余平方和,29,不考虑回归时，Y的总变异SS总全部视为随机误差；而回归以后，回归的贡献使得随机误差减小为SS剩。

如果两变量间总体回归关系确实存在，回归的贡献就应当大于随机误差；大到何种程度时可以认为具有统计意义，可计算如下的F统计量：

30,自由度分别是：

回1，残n-2MS回与MS残分别称为回归均方和残差均方。

求得F值后查F界值表得到P值，最后按所取水准作出总体回归关系是否成立的推断结论。

31,

（2）t检验：

H0：

=0H1：

0=0.05统计量t的计算公式为：

自由度=n-2,32,例1：

H0：

=0H1：

0=0.05,自由度=31-2=29，查t界值表，t0.05（29）=2.045,P0.05,按=0.05检验水准，拒绝H0，接受H1，认为待产妇24小时尿中雌三醇含量与产儿体重之间存在直线回归关系。

33,对于一元线性回归来说，方差分析与t检验是完全等价的，且有关系式：

34,利用SPSS实现直线回归：

SPSS操作步骤：

Analyze-Regression-Lineardependent:

因变量independent:

自变量method:

可选择enterforwardbackwardstepwise点击statistics:

出现若干统计选项可供选择ContinueOK,35,36,37,38,39,四、直线回归的应用,1.描述两变量之间的依存关系通过回归系数的假设检验,若认为两变量之间存在直线回归关系,则可用直线回归来描述。

2.利用回归方程进行预测把自变量代入回归方程，对应变量进行估计，并可求出应变量的波动范围。

40,五、应用直线相关与回归的注意事项,41,

（一）注意事项,1.考虑实际意义进行相关回归分析要有实际意义，不可把毫无关系的两个事物或现象用来做相关回归分析。

42,2.相关关系相关关系不一定是因果关系，也可能是伴随关系，并不能证明事物间有内在联系。

43,3.利用散点图对于性质不明确的两组数据，可先做散点图，在图上看它们有无关系、关系的密切程度、是正相关还是负相关，然后再进行相关回归分析。

44,4.变量范围相关分析和回归方程仅适用于样本的原始数据范围之内，出了这个范围，我们不能得出两变量的相关关系和回归关系。

45,

（二）相关与回归的区别,1.意义相关反映两变量的相互关系，即在两个变量中，任何一个的变化都会引起另一个的变化，是一种双向变化的关系。

回归是反映两个变量的依存关系，一个变量的改变会引起另一个变量的变化，是一种单向的关系。

46,2.相关系数r与回归系数br与b的绝对值反映的意义不同。

r的绝对值越大，散点图中的点越趋向于一条直线，表明两变量的关系越密切，相关程度越高。

b的绝对值越大，回归直线越陡，说明当X变化一个单位时，的平均变化就越大。

反之也是一样。

47,（三）相关与回归的联系,1.关系能进行回归分析的变量之间存在相关关系。

所以，对于两组新数据（两个变量）可先做散点图，求出它们的相关系数，对于确有相关关系的变量再进行回归分析，求出回归方程。

48,2.相关系数r与回归系数br与b的符号一致。

r为正时，b也为正，表示两变量是正相关，是同向变化。

r为负时，b也为负，表示两变量是负相关，是反向变化。

49,第二节多重（多元）线性回归,在医学研究中，影响某个结局指标的因素常常有很多个，特别对于慢性非传染性疾病更是如此，例如心血管疾病、肿瘤等。

多重线性回归分析可以用来发现影响某个结局变量的多个因素，并有可能建立有效的预测模型。

50,一、多重线性回归模型,多重线性回归模型可视为简单直线模型的直接推广。

简单的说，只有一个自变量的线性模型为简单直线回归模型，具有两个以上自变量的线性模型即为多重线性回归模型。

这里提及的回归模型中，都只有一个因变量。

51,总体回归模型：

0为常数项，1,m称为总体偏回归系数。

52,样本回归模型：

偏回归系数:

b0为常数项，b1，b2，bm为样本偏回归系数。

偏回归系数表示在其它所有自变量固定不变的情况下，某一个自变量变化一个单位时引起因变量y变化的平均大小。

残差e：

y的变化中不能为自变量所解释的部分。

53,线性回归的适用条件：

1.L：

线性自变量x与应变量y之间存在线性关系；2.I：

独立性Y值相互独立，在模型中则要求残差相互独立，不存在自相关；3.N：

正态性随机误差（即残差）e服从均值为零，方差为的正态分布；4.E：

等方差对于所有的自变量x，残差e的方差齐。

54,数据类型要求:

因变量必须是数值型变量（连续变量）。

自变量既可以是数值型变量，也可以是分类型变量。

但如果是多分类变量，则不能直接进入回归方程，而要先进行哑变量设置（略）。

55,例2.某研究者测量了29名儿童血液中血红蛋白（g）、钙（g）、镁（g）、铁（g）、锰（g）、铜（g）的含量。

试以血红蛋白为因变量，其它的为自变量，建立回归模型。

56,57,做回归分析的第一步通常是做散点图，以发现因变量与自变量之间是否大致存在直线关系。

如有明显的曲线关系，则不能直接做线性回归模型。

另外，散点图还有助于发现异常点。

58,59,60,采用最小二乘法（LS）估计回归系数b即要求残差平方和：

达到最小值。

求解过程需要进行矩阵运算，并要借助计算机完成。

二、回归系数的估计,61,62,SPSS回归分析输出结果,63,1.对整个方程的检验：

H0:

12m0,2.对单个回归系数或常数项的检验：

H0:

i0,三、方程的显著性检验：

64,对整个方程的检验：

H0:

回归系数全为零1=2=m=0H1:

回归系数不全为零0.05FMSreg/MSE26.306自由度dfreg5，dfe23，P0.001拒绝H0，接受H1，认为此回归模型有意义。

65,对偏回归系数进行假设检验：

H0:

i=0H1:

i00.05t1-1.962df1=23p=0.062t20.023df2=23p=0.982t38.079df3=23pt50.672df5=23p=0.508只有铁的偏回归系数有意义。

66,四、筛选有影响的自变量,选择标准：

对各自变量的偏回归平方和进行检验，F值大于预先设定的F，则将此变量选入或保留在方程内。

偏回归平方和：

将某个变量引入方程后所引起的回归平方和增加的部分；或者，将某个变量剔除方程后所引起的回归平方和减少的部分。

例如：

将本例中钙剔除后，回归平方和从113.26变为109.94，则钙的偏回归平方和为113.26-109.943.32,67,自变量的选择方法,1.强行进入法（Enter）：

为默认选择项，定义的全部自变量均引入方程。

2.后退法（Backward）：

先建立一个包含全部自变量的回归方程，然后每次剔除一个偏回归平方和最小且无统计学意义的自变量，直到不能剔除为止。

68,3.前进法（Forward）：

回归方程由一个自变量开始，每次引入一个偏回归平方和最大，且具有统计学意义的自变量，由少到多，直到无统计学意义的自变量被引入为止。

4.逐步法（Stepwise）：

它是前进法和后退法的结合。

5.消去法（Remove）：

建立回归方程时，根据设定的条件剔除部分自变量。

69,选用后退法,70,钙保留下来的原因：

后退法的默认剔除标准是0.1,71,最终回归模型：

以血红蛋白含量作为因变量y，钙、镁、铁、锰、铜的含量作为自变量进行多重线性回归分析，变量筛选方法为后退法（backward），剔除标准为p0.1（）。

最后结果只有钙和铁保留在方程中。

其中x1代表钙，x3代表铁（方程和偏回归系数的检验略）,72,两个自变量与因变量的拟合面示意图,73,注意：

自变量的选择不是一个单独的数学问题，可以放心地交给计算机自动完成，而必须结合专业知识，综合考察。

1.对因变量确实有影响的，应当选入。

2.不同筛选方法结果不一致时要谨慎，重点考虑共线性的问题。

3.所做出的模型不能视为“最佳”模型，而应视为“局部最优”模型，因为所纳入分析的自变量中常常不能包括全部的影响因素，甚至是很重要的因素。

74,五、标准化偏回归系数由于各自变量量纲（测量单位）不同，各偏回归系数之间不能直接比较。

标准化偏回归系数消除了量纲的影响，可以用来直接比较各自变量对因变量作用的大小。

标准化偏回归系数的计算方法：

其中，sy代表因变量的标准差，si代表不同自变量的标准差。

75,从本例来看，钙和铁的偏回归系数的绝对值差不多，但铁的标准化偏回归系数确要大得多，表示铁对血红蛋白的作用比钙要大。

76,六、回归模型的优良性评价（拟和效果）,1.决定系数R2：

0R21决定系数反映Y的全部变异中能够被回归方程中的全部自变量所解释的比例。

R21,越接近于1，说明模型拟和得越好。

77,2.复相关系数R：

0R1复相关系数描述了因变量y与方程中m个自变量的总体相关系数。

R越接近于1，说明因变量与自变量的关系越密切，模型拟和得越好。

78,3.校正决定系数R2adj：

R和R2有一个缺陷，随着自变量个数的增加，R2总是增加，造成变量数目越多，则拟和效果越优良的错觉。

为解决这一问题，可采用校正决定系数。

79,3.校正决定系数R2adj：

MS代表均方，用离均差平方和SS除以自由度得到（详见方差分析）：

MS残SS残/（n-m-1）MS总SS总/（n-1）校正决定系数消除了自变量的个数以及样本量的大小对决定系数的影响。

80,81,本例显示，自变量个数最多的模型1的复相关系数和决定系数最大，而最后一个模型（最优模型）的校正决定系数最大。

82,七、残差分析,残差分析常用于检验回归模型是否符合适用条件（如独立性、正态性、方差齐性），发现异常点（强影响点）。

一般所说的残差（residual）是指拟和残差，指因变量的实测值与回归方程预测值之差：

83,由于残差有单位，不适合相互比较，可用标准化残差（Standardizedresidual）和学生氏残差（Studentizedresidual）。

这两个残差都经过了标准化变换，去除了单位。

84,1.独立性检查,独立性是指不同观察对象之间的y值相互独立，没有联系。

在模型中，则是要求残差间相互独立，不存在自相关。

分析方法：

Durbin-Watson（D）残差序列相关性检验。

0D4D2时，残差与自变量相互独立符合独立性的推荐取值范围：

1D3,85,86,87,2.正态性检查,残差的正态性是回归模型的假设条件，在样本量比较大时可以适当放宽。

检查方法：

标准化或学生氏残差的直方图和残差的累积概率图（P-P图）。

88,89,90,91,3.残差的等方差性,回归模型中的等方差性，比正态性要重要。

绘制残差图检查等方差性：

以y的预测值为横坐标，学生氏/标准化残差为纵坐标做散点图，如果残差在零水平上下均匀分布，没有某种趋势存在，可认为残差方差齐。

92,1234y,方差齐,方差不齐,自变量与因变量可能不是直线关系,93,94,4.发现强影响点,远离多数数据的点可能成为强影响点。

强影响点包括y方向远离的异常点和x方向远离的高杠杆点。

发现方法：

y与x的散点图残差诊断（略）,95,八、共线性诊断,共线性（collinearity）是指回归模型中的自变量之间存在着比较明显的线性相关关系。

共线性对回归模型有很大的危害性：

1.回归模型不可靠，不同的变量选择方法得出的结果不一致。

2.偏回归系数的估计值远离经验值，甚至符号相反。

3.专业上明确的有影响的因素不能纳入方程。

96,共线性诊断的方法：

第一类方法：

基于复相关系数：

1.容忍度：

以其中一个xi为因变量，其它x为自变量做回归，获得复相关系数Ri，容忍度TOL1-R2i容忍度小则说明共线性强。

TOL0.2或0.1则说明存在严重的共线性。

97,2.方差膨胀因子VIF：

VIF是容忍度的倒数VIF1/TOLVIF5或10说明存在严重的共线性。

98,第二类：

基于特征根的方法计算自变量的相关系数阵的特征根，如果有接近于零的特征根，则说明有共线性。

3.条件指数：

条件指数（最大特征根/最小特征根）1/2条件指数的值越大说明自变量间共线性的可能性越大。

030认为有严重共线性。

99,100,共线性问题的解决,1.可尝试增大样本量；2.根据专业知识，认为去除专业上不重要，但带来较强共线性的变量；3.进行主成分/因子分析，将多个共线性强的自变量综合成少量新的因子（新变量）；4.进行岭回归分析，或通径分析。

101,谢谢！

展开阅读全文