医学统计学 简单回归分析.ppt

上传人:聆听****声音 文档编号:15597839 上传时间:2023-07-05 格式:PPT 页数:62 大小:2.56MB
下载 相关 举报
医学统计学 简单回归分析.ppt_第1页
第1页 / 共62页
医学统计学 简单回归分析.ppt_第2页
第2页 / 共62页
医学统计学 简单回归分析.ppt_第3页
第3页 / 共62页
医学统计学 简单回归分析.ppt_第4页
第4页 / 共62页
医学统计学 简单回归分析.ppt_第5页
第5页 / 共62页
医学统计学 简单回归分析.ppt_第6页
第6页 / 共62页
医学统计学 简单回归分析.ppt_第7页
第7页 / 共62页
医学统计学 简单回归分析.ppt_第8页
第8页 / 共62页
医学统计学 简单回归分析.ppt_第9页
第9页 / 共62页
医学统计学 简单回归分析.ppt_第10页
第10页 / 共62页
医学统计学 简单回归分析.ppt_第11页
第11页 / 共62页
医学统计学 简单回归分析.ppt_第12页
第12页 / 共62页
医学统计学 简单回归分析.ppt_第13页
第13页 / 共62页
医学统计学 简单回归分析.ppt_第14页
第14页 / 共62页
医学统计学 简单回归分析.ppt_第15页
第15页 / 共62页
医学统计学 简单回归分析.ppt_第16页
第16页 / 共62页
医学统计学 简单回归分析.ppt_第17页
第17页 / 共62页
医学统计学 简单回归分析.ppt_第18页
第18页 / 共62页
医学统计学 简单回归分析.ppt_第19页
第19页 / 共62页
医学统计学 简单回归分析.ppt_第20页
第20页 / 共62页
亲,该文档总共62页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

医学统计学 简单回归分析.ppt

《医学统计学 简单回归分析.ppt》由会员分享,可在线阅读,更多相关《医学统计学 简单回归分析.ppt(62页珍藏版)》请在冰点文库上搜索。

医学统计学 简单回归分析.ppt

第十二章简单回归分析,统计推断的两个主要内容:

t检验方差分析卡方检验秩和检验,相关分析回归分析,参数估计和假设检验,指标变量之间关系,线性相关分析linearcorrelationanalysis,回归(regression)和相关(correlation)分析:

研究两个或多个变量间相互关系的统计方法。

简单线性回归分析simplelinearregressionanalysis,:

研究两个变量间的数量依存关系的统计方法。

1.1线性回归的概念及其统计描述1.2线性回归模型的适用条件1.3回归参数的估计1.4总体回归系数的统计推断1.5线性回归的应用,10.1什么是回归?

1.线性回归分析linearregressionanalysis,:

研究一个变量和另外一些变量间线性数量关系的统计分析方法。

简单线性回归simplelinearregression,多重线性回归muptiplelinearregression,:

涉及多个变量(自变量、解释变量)时称。

模型中只包含两个有“依存关系”的变量,一个变量随另一个变量的变化而变化,且呈直线变化趋势,叫。

分类,矮个子的父代:

64英寸而它子代:

67英寸,父亲和他儿子的身高:

1.父代的总均数=68英寸子代的总均数=69英寸,2.高个子的父代:

72英寸而它子代:

71英寸,调查了1087对父子:

线性回归(linearregression)又称简单回归(simpleregression):

讨论两个变量间的数量依存关系的统计方法,即研究一个变量如何随另一个变量变化的常用方法。

因变量dependentvariable反应变量responsevariable:

非独立的、受其它变量影响的变量,常用“Y”表示。

自变量independentvariable或预测因子predictor或解释变量explanatoryvariable:

能独立自由变化的变量,常用“X”表示。

两个变量:

例11-1:

对14名40-60岁健康妇女的基础代谢(Y)与体重(X)的相关系数r=0.964,现问基础代谢(Y)是如何依存体重(X)变化而变化的?

表11-114名健康中年妇女的基础代谢与体重的测量值,图11-114名健康中年妇女的基础代谢与体重的散点图,由散点图看基础代谢与体重可能是直线关系,YX=+X,上述直线方程称为线性回归模型linearregressionmodel,散点图显示年龄组的基础代谢的样本均数与体重几乎在一条直线上,略有些偏离直线的点可以理解为样本均数的抽样误差所致,因此可以假定固定基础代谢的总体均数YX与体重X的关系可能是直线关系,即有:

通常情况下,研究者只能获得一定数量的样本数据,用样本数据建立的有关Y依从X变化的线性表达式称为回归方程(regressionequation),记为:

称为Y的预测值;其意义为固定x,Y的总体均数YX的估计值。

a与b分别为回归模型参数和的估计值。

利用回归方程,只要给定一个40-60岁的健康妇女的体重值,就可估计出该个体的基础代谢值Y的平均值。

以样本数据,可算出和的估计值a和b。

后在直角坐标系以X为横坐标,Y为纵坐标作图,图形是一条直线,斜率为b,截距为a。

线性回归关系的特点:

变量间关系不能用函数关系精确表达一个变量的取值不能由另一个变量唯一确定。

当变量X取某个值时,变量Y取值可能有几个。

各观测点分布在直线周围,误差与残差,称为随机误差称为残差(residual)根据上述,直线回归分析要求资料满足固定X,则Y服从正态分布等价于残差服从正态分布。

直线回归原理示意图:

所以如果固定X,Y服从正态分布,其散点图呈直线带状分布,线性回归的分类:

I型回归:

因变量(Y)是随机变化的,但自变量(X)可以不随机,当它是能够精确测量和严密控制的量时,叫Y关于X的I型回归。

II型回归:

因变量(Y)和自变量(X)都是随机变化的,叫Y关于X的II型回归。

表12-1不同IgG浓度下的沉淀环数据,小结:

回归分析(Regressionanalysis)从一组样本数据出发,确定变量之间的数学关系式;对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出具有统计学意义的变量;利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度。

二、线性回归模型的适用条件,line,normal正态性,equalvariance等方差性,因变量Y的总体平均值与自变量X呈线性关系,在一定范围内任意给定值,则对应的随机变量服从正态分布,在一定范围内,不同X值所对应的随机变量Y的方差相同,linear线性,回归分析的主要步骤,绘制散点图,回归参数的估计:

求回归系数和常数项,回归系数和常数项的假设检验,列出回归方程,并进行假设检验,回归方程的解释,

(一)绘制散点图:

从散点图可见:

基础代谢()和体重()有线性关系,可以考虑做线性回归分析。

图11-114名健康中年妇女的基础代谢与体重的散点图,

(二)回归参数的估计:

让所有点的的平方和最小,用最小二乘法拟合直线,选择a和b使其残差(样本点到直线的垂直距离)平方和达到最小。

最小二乘法原则的文字描述:

回归参数的估计方法:

按照最小二乘法原则,可得到:

回归方程:

例11-1:

对14名40-60岁健康妇女的基础代谢(Y)与体重(X)的相关系数r=0.964,现问基础代谢(Y)是如何依存体重(X)变化而变化的?

表11-114名健康中年妇女的基础代谢与体重的测量值,解:

回归方程的两个参数分别为,得回归方程:

作回归直线图,回归系数的意义:

1.由总体回归方程可知YX=+x,参数的意义:

若自变量X增加1个单位,反应变量Y的平均值便增加个单位。

2.由于是YX=+X的估计表达式,所以(样本)回归系数b表示X增加一个单位,样本观察值Y平均增加b个单位。

(三)总体回归系数的统计推断:

就总体而言,这种回归关系是否存在?

即总体回归方程是否成立?

由于样本回归系数b与总体回归系数存在抽样误差,即:

一般情况下,b,因此需要考虑抽样误差对统计推断是否存在重大影响?

总体回归系数的假设检验的基本思想:

=0,说明Y与X之间并不存在线性关系0,说明Y与X之间存在线性关系,即:

对于X的任何值,总体均数YX没有任何改变,故建立Y与的直线回归方程就没有任何意义了,故是否为0,涉及到所建立的回归方程是否有意义的问题。

然而从=0的总体抽得样本,计算出的回归系数b很可能不为零,需要对是否等于0进行假设检验t检验,假设检验,回归模型的假设检验(modeltest):

回归系数的假设检验:

目的:

检验求得的回归方程在总体中是否成立;方法:

单因素方差分析。

目的:

即检验总体回归体系数是否为0(=0);方法:

t检验。

1.回归模型的假设检验方差分析,SS总=SS回归+SS残差,v总=v回归+v残差,变异的分解:

回归方程假设检验的基本思想:

如果总体中自变量X对因变量Y没有贡献,则由样本所得的回归均方与残差均方应相近;反之,如果总体中自变量X对因变量Y有贡献,回归平方和反应的就不仅仅是随机误差,即回归均方必然要远大于残差均方;依此,可计算检验统计量F值作出判断。

问:

所求得的回归方程在总体中是否成立?

查F界值表(P572),确定单侧临界值Fa(v回归,v残差),求概率值P,下结论,均方:

MS=SS/v,回归均方:

MS回归=SS回归/v回归残差均方:

MS残差=SS残差/v残差,检验统计量:

1.建立假设,确定检验水准H0:

总体回归方程不成立,即总体中自变量X对因变量Y没有贡献;H1:

总体回归方程成立,即总体中自变量X对;因变时Y有贡献。

=0.05(单侧),查F界值表(P468):

a=0.05,v回归=1、v残差=n-2=12,得:

F(k-1,n-k)=F(1,12)=4.75,3.确定P值,作出推断结论:

由于F=158.364.75,则P0.05,故拒绝H0,接受H1,可认为体重与基础代谢之间有线性回归关系。

2.计算检验统计量F值:

2.回归系数的假设检验t检验,=0,说明Y与X之间并不存在线性关系0,说明Y与X之间存在线性关系,即:

对于X的任何值,总体均数YX没有任何改变,故建立Y与的直线回归方程就没有任何意义了,故是否为0,涉及到所建立的回归方程是否有意义的问题。

然而从=0的总体抽得样本,计算出的回归系数b很可能不为零,需要对是否等于0进行假设检验t检验,t检验:

检验过程:

注意:

1.在简单线性回归模型中,对回归模型的方差分析等价于对回归系数的t检验,即有:

2.对于服从双变量正态分布的同样一组资料,同时作相关分析和回归分析,则相关系数的t检验与回归系数数的t检验等价,即有:

(五)总体回归系数的区间估计:

已知b为回归系数的样本估计值,Sb为样本回归系数的标准误,则总体回归系数的双侧1-置信区间为:

上例题中b=61.4229,Sb=4.8810,v=12,查t界值表得:

t0.05/2,12=2.179;则其总体回归系数的双侧95置信区间为:

bt/2,vSb,61.42292.1794.881=(50.787,72.059),【电脑实现】SPSS,线性回归分析:

1.数据录入,2.线性回归分析的步骤:

3.结果及结果输出:

(六)回归方程的解释:

体重对基础代谢的影响有多大?

决定系数:

回归平方和与总平方和之比。

0R21反映了自变量X对回归效果的贡献,即Y的总变异中回归关系所能解释的百分比(varianceaccountformula,VAF);反映了回归模型的拟合效果,可作为反应拟合优度(goodnessoffit)的指标。

上例题:

SS总=4645447.0121,SS回归=4318227.7159R2=SS回归/SS总=0.964=96.4%解释:

说明基础代谢总变异的96.4%与体重有关。

(七)回归方程的统计应用:

定量描述两变量之间的依存关系。

利用回归方程进行统计预测。

利用回归方程进行统计控制。

1.统计预测:

将X值作预报因子,固定总体中X为某定值Xi时,估计个体Y值的容许区间,即Y值的波动范围。

例:

第一观测点数据(X1=50.7)为例,预测第一数据点Y值的95%预测区间,答:

已知回归方程,故基础代谢的95%容许区间为:

2.均数置信区间:

当X值为某定值,并给定置信度1-,考察Y的总体均数的分布时,可估计Y的总体均数YX的1-置信区间。

答:

已知回归方程,故基础代谢的95%容许区间为:

例:

第一观测点数据(X1=50.7)为例,预测Y的总体均数值的95%预测区间。

2.统计控制:

例:

在硝酸钠的溶解试验中,测得在不同温度X下,溶解于100份水中的硝酸钠份数Y的数据见表。

若要求溶解于100份水中的硝酸钠份数在80份以上,温度应如何控制?

由原始数据得方程对应于个体Y值的95%预测区间单侧下限值为:

X=16.56,体重为16.56度以下,溶解于100份水中的硝酸钠份数在80份以上,简单线性回归分析的注意事项:

1.要注意实际意义;2.绘制散点图观察两变量的关系以及找出异常点;3.注意自变量和因变量的变化范围。

小结,简单线性回归是指只包含一个自变量,且呈线性变化趋势的回归模型,用于描述因变量的总体均数与自变量之间的线性关系,即两变量间的依存变化关系。

简单线性回归的基本步骤:

绘制散点图,在最小二乘法原则下建立线性回归方程,即估计回归系数与截距;对回归方程或回归系数进行假设检验;列出回归方程,绘制回归直线;统计解释及应用。

线性回归模型的适用条件为:

线性、独立、正态和等方差,简称LINE。

决定系数反映了回归平方和在总平方和中所占的比例,常用来反映回归的实际效果。

线性回归常用于统计预测和统计控制。

当两变量变化趋势为非线性时,可考虑拟合非线性回归议程,常用的曲线类型包括指数曲线,多项式曲线、双典线和logistic曲线等。

注意线性相关与线性回归的区别与联系。

相关分析是用来描述两变量的相关关系,当两变量满足双变量正态分布时,可以计算Pearson积差相关系数,如果有任何一个变量不满足正态分布或为等级资料,需计算Spearman秩相关系数。

回归分析是用来刻画两变量的依存关系,它要求资料满足LINE(线性、独立、正态和等方差),二者之间既有联系又有区别。

THANKYOU!

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > IT计算机 > 电脑基础知识

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2