二分类与多分类Logistic回归模型.docx-资源下载

二分类与多分类Logistic回归模型.docx

1、二分类与多分类Logistic回归模型二分类 Logistic 回归模型在对资料进行统计分析时常遇到反应变量为分类变量的资料，那么，能否用类似于线性回归的模型来对这种资料进行分析呢？答案是肯定的。本章将向大家介绍对二分类因变量进行回归建模的 Logistic 回归模型。第一节模型简介一、模型入门在很多场合下都能碰到反应变量为二分类的资料，如考察公司中总裁级的领导层中是否有女性职员、某一天是否下雨、某病患者结局是否痊愈、调查对象是否为某商品的潜在消费者等。对于分类资料的分析，相信大家并不陌生，当要考察的影响因素较少，且也为分类变量时，分析者常用列联表 (contingenc

2、y Table) 的形式对这种资料进行整理，并使用 2 检验来进行分析，汉存在分类的混杂因素时，还可应用 Mantel-Haenszel 2 检验进行统计学检验，这种方法可以很好地控制混杂因素的影响。但是这种经典分析方法也存在局限性，首先，它虽然可以控制若干个因素的作用，但无法描述其作用大小及方向，更不能考察各因素间是否存在交互任用；其次，该方法对样本含量的要求较大，当控制的分层因素较多时，单元格被划分的越来越细，列联表的格子中频数可能很小甚至为 0，将导致检验结果的不可靠。最后， 2 检验无法对连续性自变量的影响进行分析，而这将大大限制其应用范围，无疑是其致使的缺陷。

3、那么，能否建立类似于线性回归的模型，对这种数据加以分析？以最简单的二分类因变量为例来加以探讨，为了讨论方便，常定义出现阳性结果时反应变量取值为 1，反之则取值为 0 。例如当领导层有女性职员、下雨、痊愈时反应变量 y 1，而没有女性职员、未下雨、未痊愈时反应变量 y 0 。记出现阳性结果的频率为反应变量 P(y 1)。首先，回顾一下标准的线性回归模型：Y 1x1 mxm如果对分类变量直接拟合，则实质上拟合的是发生概率，参照前面线性回归方程，很自然地会想到是否可以建立下面形式的回归模型：P 1x1 m xm显然，该模型可以描述当各自变量变化时，因变量的发生概率会怎样变化，可以满足分析的基

4、本要求。实际上，统计学家们最早也在朝这一方向努力，并考虑到最小二乘法拟合时遇到的各种问题，对计算方法进行了改进，最终提出了加权最小二乘法来对该模型进行拟合，至今这种分析思路还偶有应用。既然可以使用加权最小二乘法对模型加以估计，为什么现在又放弃了这种做法呢？原因在于有以下两个问题是这种分析思路所无法解决的：(1)取值区间：上述模型右侧的取值范围，或者说应用上述模型进行预报的范围为整个实数集 ( , ) ，而模型的左边的取值范围为 0 P 1，二者并不相符。模型本身不能保证在自变量的各种组合下，因变量的估计值仍限制在 01 内，因此可能分析者会得到这种荒唐的结论：男性、 30 岁

5、、病情较轻的患者被治愈的概率是 300%！研究者当然可以将此结果等价于 100%可以治愈，但是从数理统计的角度讲，这种模型显然是极不严谨的。(2)曲线关联：根据大量的观察，反应变量 P 与自变量的关系通常不是直线关系，而是 S 型曲线关系。这里以收入水平和购车概率的关系来加以说明，当收入非常低时，收入的增加对购买概率影响很小；但是在收入达到某一阈值时，购买概率会随着收入的增加而迅速增加；在购买概率达到一定水平，绝大部分在该收入水平的人都会购车时，收入增加的影响又会逐渐减弱。如果用图形来表示，则如图 1 所示。显然，线性关联是线性回归中至关重要的一个前提假设，而在上述

6、模型中这一假设是明显无法满足的。以上问题促使统计学家们不得不寻求新的解决思路，如同在曲线回归中，往往采用变量变换，使得曲线直线化，然后再进行直线回归方程的拟合。那么，能否考虑对所预测的因变量加以变换，以使得以上矛盾得以解决？基于这一思想，又有一大批统计学家在寻找合适的变换函数。终于，在 1970 年， Cox 引入了以前用于人口学领域的 Logit 变换 (Logit Transformation) ，成功地解决了上述问题。那么，什么是 Logit 变换呢？通常的把出现某种结果的概率与不出现的概率之比称为比值 (odds ，国内也译为优势、比数 )，即 Odds ，取其对数 ln

7、( Odds) ln11 这就是 logit 变换。下面来看一下该变换是如何解决上述两个问题的，首先是因变量取值区间的变化，概率是以 0.5 为对称点，分布在 01 的范围内的，而相应的 logit(P) 的大小为：0logit( ) ln(0/1) 0.5logit( ) ln(0.5/ 0.5) 01logit( ) ln(1/ 0) 显然，通过变换， Logit( )的取值范围就被扩展为以 0 为对称点的整个实数域，这使得在任何自变量取值下，对值的预测均有实际意义。其次，大量实践证明， Logit( ) 往往和自变量呈线性关系，换言之，概率和自变量间关系的 S形曲线

8、往往就符合 logit 函数关系，从而可以通过该变换将曲线直线化。因此，只需要以 Logit( ) 为因变量，建立包含 p 个自变量的 logistic 回归模型如下：logit( P) 0 1x1 p xp以上即为 logistic 回归模型。由上式可推得：上面三个方程式相互等价。通过大量的分析实践，发现 logistic 回归模型可以很好地满足对分类数据的建模需求，因此目前它已经成为了分类因变量的标准建模方法。通过上面的讨论，可以很容易地理解二分类 logistic 回归模型对资料的要求是：（1）反应变量为二分类的分类变量或是某事件的发生率。（ 2）自变量与 Logit（）之间为

9、线性关系。（ 3）残差合计为 0，且服从二项分布。（ 4）各观测值间相互独立。由于因变量为二分类，所以 logistic 回归模型的误差应当服从二项分布，而不是正态分布。因此，该模型实际上不应当使用以前的最小二乘法进行参数估计，上次均使用最大似然法来解决方程的估计和检验问题。二、一些基本概念由于使用了 logit 变换， Logistic 模型中的参数含义略显复杂，但有很好的实用价值，为此现对一些基本概念加以解释。1. 优势比如前所述，人们常把出现某种结果的概率与不出现的概率之比称为比值（ odds），即Podds 。两个比值之比称为优势比（ odds Ratio ，简称 OR）。首

10、先考察 OR的特性：1PPP若 P1 P2 ，则 odds1 1 2 odds21 1 P1 1 P2 2若 P1 P2 ，则 odds1 P1 P2 odds21 1 P1 1 P2 2若 P1 P2 ，则 odds1 P1 P2 odds21 1 P1 1 P2 2显然， OR是否大于 1 可以用作两种情形下发生概率大小的比较。2. Logistic 回归系数的意义从数学上讲，和多元回归中系数的解释并无不同，代表 x 改变一个单位时 logit（ P）的平均改变量，但由于 odds 的自然对数即为 logit 变换，因此 Logistic 回归模型中的系数和 OR有着直接的变换关系，使

11、得 Logistic 回归系数有更加贴近实际的解释，从而也使得该模型得到了广泛的应用。下面用一个实例加以说明：以 4 格表资料为例具体说明各回归系数的意义：表1 4 格表资料治疗方法(treat)治疗结果( outcome )合计治愈率治愈( 1)未治愈( 0)新疗法( 1)60 (a)21 (c)8174.07%传统疗法( 0)42 (b)27 (d)6960.87%合计1024813068.00%该资料如果拟合 Logistic 回归模型，则结果如下(操作步骤详见后述) ：Logit ( P | outcome 1) 0 1 treat 0.442 0.608 treat( 1)常数项

12、：表示自变量取全为 0(称基线状态)时，比数 (Y=1 与 Y=0 的概率之比 ) 的自然对数值，本例中为 0 0.442 ln(42 / 69)/(27/ 69) ln(42 / 27) ln(b/ d)，即传统疗法组的治愈率与未治愈率之比的自然对数值。在不同的研究设计中，常数项的具体含义可能不同，如基线状态下个体患病率、基线个体发病率、基线状态中病例所占比例等，但这些数值的大小研究者一般并不关心。( 2)各自变最的回归系数： i (i 1, p) 表示自变量 xi 每改变一个单位，优势比的自然对数值改变量，而 exp( i) 即 OR值，表示自变量 xi每变化一个单位，阳性结果出

13、现概率与不出现概率的比值是变化前的相应比值的倍数，即优势比(注意：不是出现阳性结果的概率为变化前的倍数，即优势比并不等同于相对危险度) 。本例中自变量治疗方法的回归系数 1 0.608 ，为两组病人的治愈率与未治愈率之比的对数值之差，即ln(60 / 81) / (21/ 81) ln(42 / 69) / (27 / 69) ln( ad / bc) 。因此，对于四格表资料而言，所建立的 Logistic 回归模型也可以写成：logit( P | outcome 1) ln(b/d) ln(ad /bc) treat ln(b/d) ln( OR) treat由以上关系可知，

14、exp( 0) 表示传统疗法组的治愈率与未治愈之比值。 exp( 1) 则表示治疗方法增加一个单位，即将疗法从传统疗法改为新疗法时，新疗法组病人治愈率与未治愈率之比值相对于传统疗法组病人的治愈率与未治愈率比值的倍数。而两组病人的治愈率之比(60 / 81) / (42 / 69) 1.217 ，并不完全相同。但是，当研究结果出现阳性的概率较小时 (一般认为小于 0.1 ，反之当概率大于 0.9 时亦可)，OR值大小和发生概率之比非常接近，此时可以近似地说一组研究对象的阳性结果发生率是另一组研究对象发生率的 OR值倍，即用 OR值的大小来挖地表示相对危险度的大小。三、简单分析实

15、例SPSS 中通过 regression 模块中的 Binary Logistic 过程实现结果变量为二分类的Logistic 回归，下面通过一个实例分析，具体讲解相应的操作和结果解释。例 1 某医师希望研究病人的年龄(岁) 、性别( 0 为女性， 1 为男性)、心电图检验是否异常( ST段压低， 0为正常、 1为轻度异常、 2 为重度异常)与患冠心病是否有关。调用 SPSS中的 Binary Logistic 过程：图 2 Logistic 回归主对话框本例中涉及的对话框界面如图 9.2 所示，注意对话框中部有一个以前未出现过的 a*b 按钮、用于纳入交互作用，只要先将相应变量选中，然

16、后单击此按钮，相应的交互项就会被纳入模型。本例因较为简单，未用到此功能。性别虽为分类变量，但仅有两个取值水平，所以可以直接引入模型，结果仍然可以被正常解释。结果如下：首先输出分析中使用的记录数汇总，此处略。表 2 Dependent Variable EncodingOriginal ValueInternal Value未患病0患病1表2为因变量的取值水平编码， SPSS拟合模型时默认取值水平高的为阳性结果，对于本例来讲，拟合的模型是 logit（P|y= 患病）。随后进行模型拟合，首先给出的是模型不含任何自变量，而只有常数项（即无效模型）时的输出结果，标题为：“ Block

17、0: Beginning Block ”。此时的模型为：表 3 Classification Table a,bObservedPredicted是否患冠心病Percentage未患病患病CorrectStep 0 是否患冠心病未患病037.0患病041100.0Overall Percentage52.6a. Constant is included in the model.b. The cut value is .500表9.3 输出的是模型中仅含有常数项（见表 4）时计算的预测分类结果， SPSS根据 p值是否大于 0.5 将观察对象判断为是否出现阳性结果，即是否患冠心病。由于模型中

18、仅含有常数项，因此所有人的预测概率均为样本率估计值 P0.5257 ，将所有的观察对象均判断为冠心病。判断正确率为 52.6%，实际上就是全部研究对象的患病率 41、78 0.5256 （细小差别为四舍五入产生）。也就是说，由于当前样本中大部分人为患病，因此当模型中不包含任何自变量时，样本中所有观察对象皆被预测为患病，总的预测准确率为 52.6%。表 4 Variables in the EquationBS.E.WalddfSig.Exp(B)Step 0 Constant.103.227.2051.6511.108表 4输出结果中 B为模型中未引入自变量时常数项的估计值， S.E为

19、其标准误， Wald为Wald 2 ，是对总体回归系数是否为 0进行统计学检验。表格中 df 为其自由度， Sig. 为相应的 P值。此时的 exp（B）为e的 0 次方。其实际意义为总体研究对象患病率与未患病率的比值。即 1.108 0.5256/0.4744 。表 5 Variables not in the EquationScoredfSig.Step 0 Variables sex6.0211.014ecg7.1111.008age7.7341.005Overall Statistics18.5623.000表5输出了当前未引入模型的变量的比分检验（ Score Test ）结果，

20、其意义为向当前模型中引入某变量（如 sex时），该变量回归系数是否等于 0的比分检验假设。对于取值水平为二分类的自变量来说，得分检验的 2 值等于由该自变量与反应变量构成的四格表的Pearson 2 。基于无效模型，现在开始在分析中引入自变量。标题为“ Block 1:Method=Enter表 6 Omnibus Tests of Model CoefficientsChi-squaredfSig.Step 1 Step21.1143.000Block21.1143.000Model21.1143.000由于此处尚未涉及变量筛选的问题，模型中会同时引入三个自变量，自由度 3, 此处的 2

21、值为似然比 2 值，等于上一步（模型中只含有常数项时）的 -2log （似然比值）与当前模型的 -2log （似然比值）的差值，参见表 6 。本例2 86.8113 （ 107.9257） 21.1144 。表7 Model SummaryStep-2 Log likelihoodCox & Snell RSquareNagelkerke RSquare186.811 a.237.316a. Estimation terminated at iteration number 5 because parameter estimates changed by less than .001.表7输

22、出了当前模型的 -2log （似然比值）和两个伪决定系数（“伪”，以示与线性回归模型中的决定系数相区别） Cox & Snell R2 和Nagelkerke R2 。后两者从不同角度反映了当前模型中自恋量解释了反应变量的变异占反应变量总变异的比例。但对于 Logistic 回归而言，通常看到的模型伪决定系数的大小不像线性回归模型中的决定系数那么大。表8Classification Table aPredicted是否患冠心病PercentageObserved未患病患病CorrectStep 1是否患冠心病未患病251267.6患病103175.6Overall Percentage

23、71.8a. The cut value is .500这是应用引入三个自变量后重新拟合的回归模型进行预测的分类表格， P0.5 判断为出现阳性结果。可见已经出现了被预测为未患病的研究对象，此处 78 例研究对象中共有 56 （25+31）例判断正确，总正确率为 56/78 71.8%，如表 8所示。表9输出了模型中各自变量的偏回归系数及其标准误、 Wald 2 、自由度、 P值，及OR值（即表格最右侧的 Exp（B））。由此可以得出结论，男性（ sex=1）较女性更容易患冠心病、心电图异常程度越高，越容易被诊断为冠心病，年龄越大的越容易患冠心病。由于年龄不可能为 0 ，这也超出

24、了样本所观察的自变量 age取值范围，因此这里的常数项无实际意义。表 9 Variables in the EquationBS.E.WalddfSig.Exp(B)Step 1 a sex1.356.5466.1621.0133.882ecg.873.3845.1621.0232.395age.093.0357.0001.0081.097Constant-5.6421.8069.7571.002.004a. Variable(s) entered on step 1: sex, ecg, age.到此为止，可建立如下 Logistic 回归方程：P(y ) exp( 5.642 1.356

25、sex 0.873 ecg 0.093 age)1 exp( 5.642 1.356 sex 0.873 ecg 0.093 age)或 Logit (P) 5.642 1.356 sex 0.873 ecg 0.093 age第二节分类自变量的定义与比较方法一、使用哑变量的必要性在回归模型中，回归系数 b表示其他自变量不变， x 每改变一个单位时，所预测的 y的平均变化量，当 x 为连续性变量时这样解释没有问题，二分类变量由于只存在两个类别间的比较，也可以对系数得到很好的解释，但是当 x 为多分类变量时拟合一个回归系数就不太合适了，此时需要使用哑变量（ Dummy Variable

26、）方式对模型加以定义，为说明该问题，先引入下面的一个实例。例 2 Hosmer 和Lemeshow于1989年研究了低出生体重婴儿的影响因素。结果变量为是否娩出低出生体重儿（变量名为 LOW， 1为低出生体重，即婴儿出生体重 2500g，0为非低出生体重），考虑的影响（自变量）有：产妇妊娠前体重（ 1 wt ，磅）、产妇年龄（ age，岁）、产妇在妊娠期间是否吸烟（ smoke， 0未吸、 1吸烟）、本次妊娠前早产次数（ ptl ，次）、是否患有高血压（ht，0未患，1患病）、子宫对按摩、催产素等刺激引起收缩的应激性（ui ， 0无、 1有）、妊娠前三个月社区医生随访次数（ ft

27、v ，次）、种族（ race ， 1白人， 2黑人， 3其他民族）。本例包含的自变量种类齐全，有连续性变量、二分类、无序多分类变量。 SPSS默认将所有的自变量均视作连续性变量，如本例，不同种族的变量赋值为 1、2、3 ，但这仅是一个代码而已，并不意味着白人、黑人、其他民族间存在大小次序的关系，即并非代表产妇娩出低出生体重儿概率的 logit（P）会按此顺序线性增加或减少。即使是有序多分类变量，如家庭收入分高、中、低三档，各类别间的差距也是无法准确衡量的，按编码数值来分析实际上就是强行规定为等距，这显然可能引入更大的误差。在以上情况时，就必须将原始的多分类变量转化为

28、数个哑变量，每个哑变量只代表某两个级别或若干个级别间的差异，这样得到的回归结果才能有明确而合理的实际意义。图 3 Categorical 子对话框SPSS提供了 Categorical 按钮用于指定无序多分类自变量，如图 3所示，对于取值有 n个水平的自变量 X，默认会产生 n-1个哑变量 X(1)， X( n-1 )，此时以第 n个水平为参照水平， SPSS会在分类变量编码矩阵中输出具体的赋值情况，矩阵中元素均为“ 0”的那一行表示以该自变量相对应的取值水平作为参照水平。例如种族 race 有三个水平，则 SPSS会产生两个哑变量：表 10 Categorical Variab

29、les CodingsFrequencyParameter coding(1)(2)种族白人961.000.000黑人26.0001.000其他种族67.000.000在表 10中可以看出，相应的两个哑变量含义如下：race(1)=1 ，白人； 0 ，非白人race(2)=1 ，黑人； 0 ，非黑人由于两个哑变量是同时使用的，而只有 “其他种族” 这一类在两个哑变量中取值都为 0, 因此当同时使用时，实际上两个哑变量都是以 “其他种族”作为参照水平。分别对上述哑变量的系数进行估计，就可以分别得知白人、黑人和参照水平(其他种族)的差异，而这两个哑变量的参数估计值之差就反映了白人和黑人

30、间的差异。例如在本例中如果只分析种族的作用，则最终的结果参见表 11.和其他种族相比，白人低出生体重的风险较低，而黑人则风险较高，但两者均无统计学意义。如果将白人和黑人相比，则相应的系数为 -0.636-0.209 -0.845, 其OR值为 exp(-0.845)=0.43 ，白人的风险要比黑人小得多。显然，这两个类别之间有无这差异还需要进行检验，而这在表 11中是无法直接体现的。表 11 Variables in the EquationBS.E.WalddfSig.Exp(B)Step 1 a race4.9222.085race(1)-.636.3483.3451.067.529race(2).209.471.1971.6571.232Constant-.519.2534.2181.040.595a. Variable(s) ent

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？