生物统计学-第七章-直线相关与回归分析.pptx
《生物统计学-第七章-直线相关与回归分析.pptx》由会员分享,可在线阅读,更多相关《生物统计学-第七章-直线相关与回归分析.pptx(138页珍藏版)》请在冰点文库上搜索。
直线相关与直线相关与回归分析回归分析第七章平均数平均数标准差标准差方差分析方差分析多重比较多重比较集中点集中点离散程度离散程度差异显著性差异显著性一个变量(产量)施肥量播种密度品种p在实际研究中,事物之间的相互在实际研究中,事物之间的相互关系涉及关系涉及两个或两个两个或两个以上的变量,以上的变量,只要其中的一个变量变动了,另只要其中的一个变量变动了,另一个变量也会跟着发生变动,这一个变量也会跟着发生变动,这种关系称为种关系称为协变关系协变关系,具有协变,具有协变关系的变量称为关系的变量称为协变量协变量。
确定的函数关系确定的函数关系确定的函数关系确定的函数关系PV=RT气体压强S=r2圆的面积协协变变量量S=ab长方形面积身高与胸围、体重施肥量与产量溶液的浓度与OD值人类的年龄与血压温度与幼虫孵化不完全确定的函数关系(相关关系)协协变变量量相相关关变变量量一个变量一个变量的变化受的变化受另一个另一个变量或几个变量变量或几个变量的制约的制约因果关系因果关系平行关系平行关系两个以上变量两个以上变量之间共同之间共同受到另外因素的影响受到另外因素的影响动物的生长速度受遗传、营养等影响子女的身高受父母身高的影响人的身高和体重之间的关系兄弟身高之间的关系为了确定相关变量之间的关系,首为了确定相关变量之间的关系,首先应该收集一些数据,这些数据应先应该收集一些数据,这些数据应该是成对的,然后在直角坐标系上该是成对的,然后在直角坐标系上描述这些点,这一组点集称为散点描述这些点,这一组点集称为散点图。
图。
散点图散点图散点图散点图(scatterdiagram)(scatterdiagram)(scatterdiagram)(scatterdiagram)u为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。
把1078对数字表示在坐标上,如图。
用水平轴X上的数代表父亲身高,垂直轴Y上的数代表儿子的身高,1078个点所形成的图形是一个散点图。
它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。
散点图散点图散点图散点图(scatterdiagram)(scatterdiagram)两个变量间关系的性质(正向协同变化或负向协同变化)和程度(关系是否密切)两个变量间关系的类型(直线型或曲线型)是否有异常观测值的干扰123456432112345643211234564321正向直线关系负向直线关系曲线关系散点图直观地、定性地表示了两个变量之间的关系。
为了探讨它们之间的规律性,还必须根据观测值将其内在关系定量地表达出来。
回归回归(regerssion)(regerssion)相关相关(correlation)(correlation)定量研究p在生物学中,研究两个变量间的关在生物学中,研究两个变量间的关系,主要是为了探求两变量的内在系,主要是为了探求两变量的内在联系,或从一个变量联系,或从一个变量XX(可以是随机(可以是随机变量,也可以是一般的变量),去变量,也可以是一般的变量),去推测另一个随机变量推测另一个随机变量YY。
xy施肥量施肥量(可以严格地人为控制可以严格地人为控制)产量产量p如果对如果对xx(非随机变量或随机变量)的每一个(非随机变量或随机变量)的每一个可能的值,都有随机变量可能的值,都有随机变量yy的一个分布相对应,的一个分布相对应,则称随机变量则称随机变量yy对变量对变量xx存在回归存在回归(regression)(regression)关系。
关系。
自变量(independentvariable)因变量(dependentvariable)一个变量的变化受另一个变量或几个变量的制约一个变量的变化受另一个变量或几个变量的制约因果关系因果关系p研究研究“一因一果一因一果”,即一个自变量与一个,即一个自变量与一个依变量的回归分析称为依变量的回归分析称为一元一元回归分析回归分析p研究研究“多因一果多因一果”,即多个自变量与一个,即多个自变量与一个依变量的回归分析称为依变量的回归分析称为多元回归分析多元回归分析。
直线回归分析直线回归分析曲线回归分析曲线回归分析多元线性回归分析多元线性回归分析多元非线性回归分析多元非线性回归分析在大量测量各种身高人群的体重时会发现,虽然在同样身高在大量测量各种身高人群的体重时会发现,虽然在同样身高下,体重并不完全一样。
但在每一身高下,都有一个确定的下,体重并不完全一样。
但在每一身高下,都有一个确定的体重分布与之相对应体重分布与之相对应;在大量测量各种体重人群的身高时会发现,虽然在同样体重在大量测量各种体重人群的身高时会发现,虽然在同样体重下,身高并不完全一样。
但在每一体重下,都有一个确定的下,身高并不完全一样。
但在每一体重下,都有一个确定的身高分布与之相对应身高分布与之相对应;p身高与体重之间存在相关关系。
X身高身高Y体重体重X体重体重Y身高身高相关关系相关关系p两变量两变量xx、yy均为随机变量,任一变量的每一可均为随机变量,任一变量的每一可能值都有另一变量的一个确定分布与之对应,能值都有另一变量的一个确定分布与之对应,则称这两个变量存在则称这两个变量存在相关相关(correlationcorrelation)关)关系。
系。
p对两个变量间的直线关系进行相关分析称为对两个变量间的直线关系进行相关分析称为简简单相关分析单相关分析(也叫(也叫直线相关分析直线相关分析););p对多个变量进行相关分析时,研究一个变量与对多个变量进行相关分析时,研究一个变量与多个变量间的线性相关称为多个变量间的线性相关称为复相关分析复相关分析;研究;研究其余变量保持不变的情况下两个变量间的线性其余变量保持不变的情况下两个变量间的线性相关称为相关称为偏相关分析偏相关分析。
第二节:
直线回归LinearRegression一、直线回归方程的建立一、直线回归方程的建立二、直线回归的数学模型和基本假定二、直线回归的数学模型和基本假定三、直线回归的假设检验三、直线回归的假设检验四、直线回归的区间估计四、直线回归的区间估计简单回归简单回归(SimpleRegression)一、直线回归方程的建立p直线回归就是用来描述一个变量如何依赖于另一个变量温度温度天数天数Y=a+bx直线回归方程(linearregressionequation)截距截距(intercept)回归截距回归截距斜率斜率(slope)回归系数回归系数(regerssioncoefficient)自变量自变量与与x值相对应的依变量值相对应的依变量y的点估计值的点估计值0xya0,b0a0a0,b0a=0b=0变量变量1变量变量2收集数据收集数据散点图温度天数XY平均温度()历期天数(d)11.830.114.717.315.616.716.813.617.111.918.810.719.58.320.46.7p黏虫孵化历期平均温度与历期天数关系图0010102020303040401010121214141616181820202222温度温度天数(天)天数(天)()p回归直线在平面坐标系中的位置取决于回归直线在平面坐标系中的位置取决于a,ba,b的取值。
的取值。
y最小最小最小二乘法(methodofleastsquare)根据微积分学中的求极值的方法,令Q对a、b的一阶偏导数等于0,即:
为最小值基本性质回归方程的中心化形式XY平均温度()历期天数(d)11.830.114.717.315.616.716.813.617.111.918.810.719.58.320.46.7SUMPRODUCTSUMPRODUCT:
返回若干数组中彼此对应元素的乘积的:
返回若干数组中彼此对应元素的乘积的和和0010102020303040401010121214141616181820202222温度温度天数(天)天数(天)()11.8-20.4用用xx估计估计yy,存在随机误差,必须根据回归的数,存在随机误差,必须根据回归的数学模型对随机误差进行估计,并对回归方程进学模型对随机误差进行估计,并对回归方程进行检验。
行检验。
y误差二、数学模型和基本假定yiyy的总体平均数的总体平均数因因xx引起引起yy的变异的变异yy的随机误差的随机误差总体回归截踞总体回归截踞总体回归系数总体回归系数随机误差随机误差直线回归的直线回归的数学模型数学模型(modeloflinearregression)modeloflinearregression)基本假定xx是没有误差的固定变量,或其误差可以忽是没有误差的固定变量,或其误差可以忽略,而略,而yy是随机变量,且有随机误差。
是随机变量,且有随机误差。
xx的的任一值对应着一个任一值对应着一个yy总体,且作正态分总体,且作正态分布,其平均数布,其平均数+x+x,方差受偶然因,方差受偶然因素的影响,不因素的影响,不因xx的变化而改变。
的变化而改变。
随机误差随机误差是相互独立的,呈正态分布。
是相互独立的,呈正态分布。
yp若若xx和和yy变量间并不存在直线关系,变量间并不存在直线关系,但由但由nn对对观测值(观测值(xxii,yyii)也可以根据上面介绍的方)也可以根据上面介绍的方法求得一个回归方程法求得一个回归方程p显然,这样的回归方程所反应的两个变量间显然,这样的回归方程所反应的两个变量间的直线关系是不真实的。
的直线关系是不真实的。
如何判断直线回如何判断直线回归方程所反应的两个变量间的直线关系的真归方程所反应的两个变量间的直线关系的真实性呢?
这取决于变量实性呢?
这取决于变量xx与与yy间是否存在直线间是否存在直线关系。
关系。
三、直线回归的假设检验有意义有意义指导实践指导实践?
是否真正存在线性关系是否真正存在线性关系回归关系是否显著回归关系是否显著一、直线回归的变异来源y=a+bxy(x,y)y-yy-yy-y实际值与估计值之差,剩余或残差。
y-y估计值与均值之差,它与回归系数的大小有关。
一、直线回归的变异来源y=a+bxy(x,y)y-yy-yy-y实际值与估计值之差,剩余或残差。
y-y估计值与均值之差,它与回归系数的大小有关。
依变量依变量yy的平方和,总平方和,的平方和,总平方和,SSSSyy,SS,SS总总回归平方和回归平方和UU离回归平方和离回归平方和QQpyy的离均差,反映了的离均差,反映了yy的总变异程度,的总变异程度,称为称为yy的总平方和。
的总平方和。
说明未考虑说明未考虑xx与与yy的回归关系时的回归关系时yy的变的变异。
异。
p反映了由于反映了由于yy与与xx间存在直线关系所引起的间存在直线关系所引起的yy的变异程度,因的变异程度,因xx的变异引起的变异引起yy变异的平方和,变异的平方和,称为回归平方和。
称为回归平方和。
p它反映在它反映在yy的总变异中由于的总变异中由于xx与与yy的直线关系,的直线关系,而使而使yy变异减小的部分,在总平方和中可以变异减小的部分,在总平方和中可以用用xx解释的部分。
解释的部分。
UU值大,说明回归效果好。
值大,说明回归效果好。
回归平方和回归平方和(regressionsumofsquares)(regressionsumofsquares)UUp误差因素引起的平方和,反映了除去误差因素引起的平方和,反映了除去xx与与yy的直的直线回归关系以外的其余因素使线回归关系以外的其余因素使yy引起变化的大引起变化的大小。
小。
p反映反映xx对对yy的线性影响之外的一切因素对的线性影响之外的一切因素对yy的的变异的作用,也就是在总平方和中无法用变异的作用,也就是在总平方和中无法用xx解释的部分。
解释的部分。
离回归平方和离回归平方和误差平方和,剩余平方和误差平方和,剩余平方和(residualsumofsquares)(residualsumofsquares)QQ在散点图上,各实测点离回归直线越近,在散点图上,各实测点离回归直线越近,QQ值越小,说明直线回归的估计误差越小。
值越小,说明直线回归的估计误差越小。
依变量依变量yy的平方和,总平方和,的平方和,总平方和,SSSSyy,SS,SS总总回归平方和回归平方和UU离回归平方和离回归平方和QQ直线回归分析中,回归自由度等于自变量直线回归分析中,回归自由度等于自变量的个数,只涉及到的个数,只涉及到11个自变量个自变量df回归1df总n-1df离回归n-2Q/n-2Q/n-2离回归标准差离回归标准差回归估计标准误回归估计标准误剩余标准差剩余标准差离回归方差离回归方差假设HH00:
两变量间两变量间无无线性关系线性关系HHAA:
两变量间两变量间有有线性关系线性关系在无效假设存在下,回归方差与离回归在无效假设存在下,回归方差与离回归方差的比值服从方差的比值服从FF分布。
分布。
df1=1df2=n-2
(二)F检验HH00:
黏虫孵化历期平均温度黏虫孵化历期平均温度xx与历期天数与历期天数yy之间之间不存在不存在线性关系线性关系HHAA:
两变量间两变量间有有线性关系线性关系变异来源dfSSs2FF0.05F0.01回归1353.6628353.662889.89*5.9913.74离回归623.60603.9343总变异7377.2688p检验线性回归系数的显著性,采用检验线性回归系数的显著性,采用tt检检验法进行。
验法进行。
假设HH00:
=0=0HHAA:
00p检验样本回归系数检验样本回归系数bb是否来自是否来自=0=0的双的双变量总体,以推断线性回归的显著性。
变量总体,以推断线性回归的显著性。
(三)t检验样本统计量样本统计量的分布的分布1.1.是是是是根根根根据据据据最最最最小小小小二二二二乘乘乘乘法法法法求求求求出出出出的的的的样样样样本本本本统统统统计计计计量量量量,它它它它有有有有自自自自己己己己的分布的分布的分布的分布2.2.的的的的分布具有如下性质分布具有如下性质分布具有如下性质分布具有如下性质分布形式:
正态分布分布形式:
正态分布分布形式:
正态分布分布形式:
正态分布数学期望:
数学期望:
数学期望:
数学期望:
标准差:
标准差:
标准差:
标准差:
由由由由于于于于未未未未知知知知,需需需需用用用用其其其其估估估估计计计计量量量量ssssyyyy来来来来代代代代替替替替得得得得到到到到的的的的估估估估计计计计的的的的标准差标准差标准差标准差df=n-2回归系数的标准误回归系数的标准误p否定否定HH00:
=0:
=0,接受,接受HHAA:
0:
0,认为黏虫,认为黏虫孵化历期平均温度与历期天数间有真实孵化历期平均温度与历期天数间有真实直线回归关系。
直线回归关系。
同一概率值同一概率值FF(一尾)值(一尾)值(dfdf11=1,df=1,df22=n-=n-22)tt值(两尾)(值(两尾)(df=n-df=n-22)a和b的置信区间
(一)y/x的置信区间和单个的置信区间和单个yy的预测区间的预测区间
(二)y/x和单个和单个yy观测值置信区间图示观测值置信区间图示(三)四、直线回归的区间估计四、直线回归的区间估计
(一)a和b的置信区间df=n-2
(一)a和b的置信区间总体回归截距总体回归截距的置信区间的置信区间
(一)a和b的置信区间总体回归系数总体回归系数的置信区间的置信区间95%95%的样本回归截的样本回归截距落在该区间内距落在该区间内95%95%的样本回归系的样本回归系数落在该区间内数落在该区间内
(二)y/x的置信区间和单个的置信区间和单个yy的预测区间的预测区间不包含随机误差不包含随机误差p由回归方程预测由回归方程预测xx为某一定值时为某一定值时yy的观测值所在区间,则的观测值所在区间,则yy观测值观测值不仅受到不仅受到yy和和bb的影响,也受到随机误差的影响。
的影响,也受到随机误差的影响。
yy总体的平均数总体的平均数单个单个yy值所在的区间值所在的区间xx点估计点估计
(二)y/x的置信区间和单个的置信区间和单个yy的预测区间的预测区间df=n-2yy总体的平均数总体的平均数单个单个yy值所在的区间值所在的区间xxyy总体的平均数总体的平均数黏虫孵化历期平均温度为黏虫孵化历期平均温度为1515时,历期时,历期天数为多少天(取天数为多少天(取9595置信概率)?
置信概率)?
df=n-2yy总体的平均数总体的平均数xx单个单个yy值所在的区间值所在的区间单个单个yy值所在的区间值所在的区间某年的历期平均温度为某年的历期平均温度为1515时,该年的历时,该年的历期天数为多少天(取期天数为多少天(取9595置信概率)?
置信概率)?
(二)y/x的的置信区间和单个置信区间和单个yy的预测区间的预测区间(三)y/x和单个和单个yy观测值置信区间图示观测值置信区间图示正比正比反比反比p愈靠近愈靠近xx,对,对yy总体平均值或单个总体平均值或单个yy的估的估计值就愈精确,而增大样本含量,扩大计值就愈精确,而增大样本含量,扩大xx的取值范围亦可提高精确度。
的取值范围亦可提高精确度。
p作回归分析时要有实际意义。
作回归分析时要有实际意义。
直线回归注意问题直线回归注意问题不能把毫无关联的两种现象勉强作回不能把毫无关联的两种现象勉强作回归分析,即便有回归关系也不一定是归分析,即便有回归关系也不一定是因果关系,还必须对两种现象的内在因果关系,还必须对两种现象的内在联系有所认识,即能从专业理论上作联系有所认识,即能从专业理论上作出合理解释或有所依据。
出合理解释或有所依据。
p进行直线回归分析之前,绘制散点进行直线回归分析之前,绘制散点图。
图。
当观察点的分布有直线趋势时,才适宜作当观察点的分布有直线趋势时,才适宜作直线回归分析。
直线回归分析。
散点图还能提示资料有无异常值,即对应散点图还能提示资料有无异常值,即对应于残差绝对值特别大的观测数据。
异常点于残差绝对值特别大的观测数据。
异常点的存在往往对回归方程中的的存在往往对回归方程中的a和和b的估计产的估计产生较大的影响。
因此,需要复查此异常点生较大的影响。
因此,需要复查此异常点的值。
的值。
直线回归注意问题直线回归注意问题p直线回归的适应范围一般以自变量的直线回归的适应范围一般以自变量的取值为限。
取值为限。
在自变量范围内求出的估计值,一在自变量范围内求出的估计值,一般称为内插般称为内插(interpolation);超过自变超过自变量取值范围所计算出的估计值,称量取值范围所计算出的估计值,称为外延为外延(extrapolation)。
若无充分理由证明超过自变量取值范若无充分理由证明超过自变量取值范围还是直线,应该避免外延。
围还是直线,应该避免外延。
直线回归注意问题直线回归注意问题p描述两变量间的描述两变量间的依存依存关系。
关系。
直线回归的应用直线回归的应用p利用回归关系进行利用回归关系进行预测预测(forecast)(forecast)。
将自变量作为预报回子,代入方程对将自变量作为预报回子,代入方程对预报量进行估计,其波动范围可按个预报量进行估计,其波动范围可按个体体yy值容许区间方法计算。
值容许区间方法计算。
回归方程进行回归方程进行统计控制统计控制(statisticalcontrol).(statisticalcontrol).NO2浓度浓度Y(NO2浓度,mg/m3)=-0.064866+0.000133x(车流量,辆小时)直线回归的应用直线回归的应用第三节:
直线相关LinearCorrelation一、相关系数和决定系数一、相关系数和决定系数二、相关系数的假设检验二、相关系数的假设检验三、相关系数的区间估计三、相关系数的区间估计一、相关系数和决定系数一、相关系数和决定系数xy线性关系了解x和y相关以及相关的性质相关系数相关类型相关类型正相关负相关零相关IIIIIIIVIIIIIIIVIIIIIIIVIIIIIIIV正相关正相关IIIIIIIV正相关正相关IIIIIIIV负相关负相关IIIIIIIV直线相关的两个变量的相关程度和性质直线相关的两个变量的相关程度和性质乘积和乘积和互变量
(1)1)单位问题单位问题
(2)x2)x与与yy本身的变异不影响本身的变异不影响xx与与yy之间的相关性之间的相关性?
rr两个变量的变异程度两个变量的度量单位两个变量的个数rr可以用来比较不同双变量的相关程度和性质。
可以用来比较不同双变量的相关程度和性质。
样本样本总体总体两个变量在相关系数计算两个变量在相关系数计算中的地位是中的地位是平等平等的,没有的,没有自变量和依变量之分自变量和依变量之分相关相关回归回归区别联系决定系数coefficientofdeterminationp变量变量xx引起引起yy变异的回归平方和占变异的回归平方和占yy总变异平方总变异平方和的比率和的比率p当当SSySSy固定时,回归平方和固定时,回归平方和UU的大小取决于的大小取决于rr22。
p回归平方和回归平方和UU是由于引入了相关变量而使总平是由于引入了相关变量而使总平方和方和SSySSy减少的部分。
减少的部分。
说明引入相关的效果好用y可以准确预测y值x与y完全相关。
完全正相关完全负相关散点图上所有点必在一条直线上。
p回归一点作用也没有,即用x的线性函数完全不能预测y值的变化。
px与y之间不存在直线相关关系,这时散点图分布紊乱,没有直线的趋势,但可能存在非线性关系。
IIIIIIIVpxx的线性函数对预测的线性函数对预测yy值的变化有一值的变化有一定作用,但不能准确预测,说明定作用,但不能准确预测,说明yy还还受其他因素(包括随机误差)受其他因素(包括随机误差)的影的影响。
响。
相关系数相关系数(r)和决定系数和决定系数(r2)的区别的区别
(1)
(1)除去除去r=1r=1和和00的情况外,的情况外,rr22rr,这样可以防止对这样可以防止对相关系数所表示的相关程度作夸张的解释。
相关系数所表示的相关程度作夸张的解释。
(22)rr可正可负,可正可负,rr22取正,取正,rr22一般只用于表示相关程度而不表一般只用于表示相关程度而不表示相关性质。
示相关性质。
温度天数黏虫孵化历期平均温度与历期天数成负相关。
黏虫孵化历期平均温度与历期天数成负相关。
xx和和yy的变异有的变异有93.7493.74可用二者之间的线性可用二者之间的线性关系来解释。
关系来解释。
=0xy(x1,y1)(x2,y2)(x3,y3)(xn,yn)P?
二、相关系数的假设检验二、相关系数的假设检验pr是线性关系强弱的指标HH00:
=0=0HHAA:
00p检验样本回归系数检验样本回归系数bb是否来自是否来自=0=0的双的双变量总体,以推断线性回归的显著性。
变量总体,以推断线性回归的显著性。
p对于相关系数对于相关系数rr作显著性检验的无效假设作显著性检验的无效假设为为=0=0,即测定,即测定rr来自来自=0=0总体的概率,总体的概率,也就是判断也就是判断rr所代表的总体是否存在直线所代表的总体是否存在直线相关。
相关。
总体相关系数=0相关系数相关系数rr的的标准误标准误()假设
(2)水平(3)检验(4)推断HH00:
=0:
=0;HHAA:
0:
0选取显著水平选取显著水平在在显著水平上,否定显著水平上,否定HH00,接受,接受HHAA;推;推断断rr显著。
显著。
在在显著水平上,接受显著水平上,接受HH00,否定,否定HHAA;推;推断断rr不显著。
不显著。
prr经显著性检验的结果呈不显著时,经显著性检验的结果呈不显著时,便推断两变数间不存在相关关系,便推断两变数间不存在相关关系,这时不能用这时不能用rr代表