广义线性模型Word下载.docx

上传人:b****2 文档编号:6091416 上传时间:2023-05-06 格式:DOCX 页数:32 大小:152.62KB
下载 相关 举报
广义线性模型Word下载.docx_第1页
第1页 / 共32页
广义线性模型Word下载.docx_第2页
第2页 / 共32页
广义线性模型Word下载.docx_第3页
第3页 / 共32页
广义线性模型Word下载.docx_第4页
第4页 / 共32页
广义线性模型Word下载.docx_第5页
第5页 / 共32页
广义线性模型Word下载.docx_第6页
第6页 / 共32页
广义线性模型Word下载.docx_第7页
第7页 / 共32页
广义线性模型Word下载.docx_第8页
第8页 / 共32页
广义线性模型Word下载.docx_第9页
第9页 / 共32页
广义线性模型Word下载.docx_第10页
第10页 / 共32页
广义线性模型Word下载.docx_第11页
第11页 / 共32页
广义线性模型Word下载.docx_第12页
第12页 / 共32页
广义线性模型Word下载.docx_第13页
第13页 / 共32页
广义线性模型Word下载.docx_第14页
第14页 / 共32页
广义线性模型Word下载.docx_第15页
第15页 / 共32页
广义线性模型Word下载.docx_第16页
第16页 / 共32页
广义线性模型Word下载.docx_第17页
第17页 / 共32页
广义线性模型Word下载.docx_第18页
第18页 / 共32页
广义线性模型Word下载.docx_第19页
第19页 / 共32页
广义线性模型Word下载.docx_第20页
第20页 / 共32页
亲,该文档总共32页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

广义线性模型Word下载.docx

《广义线性模型Word下载.docx》由会员分享,可在线阅读,更多相关《广义线性模型Word下载.docx(32页珍藏版)》请在冰点文库上搜索。

广义线性模型Word下载.docx

fθ(y)=exp[{yθ?

b(θ)}/a(φ)+c(y,φ)],

GLM中的反应变量可以来自指数族的任何分布。

如果一个分布的概率密度函数或概率质量函数可以写成,则该分布属于指数族分布

其中b,a和c是任意函数,φ是任意的“尺度”参数,并且θ被称为分布的“典范参数”(在GLM上下文中,θ将完全依赖于模型参数β,但是目前没有必要做这个明确)。

例如,很容易看出,正态分布是指数族的一员,因为

.

表2.1给出了在R中为GLM实施的指数族成员的类似分解。

用a,b和φ可以得到指数族分布的均值和方差的一般表达式。

给定一个特定的y,θ的对数似然性仅仅只是将log[fθ(y)]视为θ的一个函数。

那是

将l作为一个随机变量来处理,通过用随机变量Y替换特定的观测值y,可以评估?

l/?

θ的期望值:

使用E(?

θ)=0这个一般结果,(在θ取真值时,参见2.4节中的(2.14))和重新排列意味着E(Y)=b0(θ)。

(2.1)即任何指数族随机变量的均值由的一阶导数给出。

θ,其中b的形式取决于特定的分布。

该等式是将GLM的模型参数β与指数族的典范参数联系起来的关键。

在GLM中,参数β决定了反应变量的均值,并且通过(2.1),它们决定了每个反应观测值的典范参数。

再次对似然性微分处理

并将其插入到一般结果中,E(?

2l/?

θ2)=-E[(?

θ)2](衍生物在真实θ值下计算,参见结果(2.16),第2.4节),

重新安排第二个有用的一般结果:

var(Y)=b00(θ)a(φ).

a原则上可以是φ的任何函数,并且当与GLM一起工作时,如果φ是已知的,处理任何形式的a都是没有困难的。

然而,当φ未知,事情就会变得很尴尬,除非我们可以写出(φ)=φ/ω,其中ω是一个已知常数。

事实上,这种限制形式涵盖了所有有实际意义的案例(见表2.1)。

a(φ)=φ/ω允许基于正态分布的模型中的不等方差的可能性,但是在大多数情况下,ω仅为1.因此,我们现在有

var(Y)=b00(θ)φ/ω.(2.2)

在随后的章节中,我们通常会将var(Y)视为μ≡E(Y)的函数,这会很方便,并且由于μ和θ通过(2.1)链接,我们总能定义一个函数V(μ)=b00(θ)/ω,使得var(Y)=V(μ)φ。

表2.1列出了几个这样的功能。

2.1.2拟合广义线性模型

回想一下,GLM模拟独立反应变量的n阶向量Y,其中μ≡E(Y),通过

g(μi)=Xiβ

Yi~fθi(yi),

其中fθi(yi)表示指数族分布,典范参数θi由μi(通过方程2.1)决定,因此最终由β决定。

给定Y的一个观测值向量y,β的最大似然估计是可能的。

由于Yi是相互独立的,β的似然函数是

n

L(β)=Yfθi(yi),

i=1

因此β的对数似然函数是

右边对β的依赖是通过θi对β的依赖。

请注意,函数a,b和c可能随着i而变化-例如,允许不同的二项分母ni,对于每个二项式反应的观测值,或对于正常反应的不同方差(但在常数内已知)。

另一方面,对于所有的i,假设φ是相同的。

正如前一节所讨论的那样,对于实际工作来说,只考虑可以写出ai(φ)=φ/ωi的情况就足够了,其中ωi是已知常数(通常为1),在这种情况下

通过偏导令结果表达式为零并求出β。

通过这个链式法则

所以微分(2.1),我们可以得到

然后推出

将(2.1)和(2.2)代入最后一个方程,意味着求解β的方程是

(2.3)

(2.4)

然而,如果权重V(μi)事先已知且与β独立,那么这些方程就正好是为了通过非线性加权最小二乘寻找β而必须解出的方程。

在这种情况下,最小二乘的目标是

其中μi非线性地依赖于β,但权重V(μi)被视为固定的。

要找到最小平方估计值,包括求解?

S/?

βj=0?

j,但当V(μi)项被视为固定时,这个方程组很容易被看作是(2.3)。

这种对应立即提出了一种求解(2.3)的迭代方法。

令β[k]表示在第k次迭代处的估计参数向量,并且令η[k]和μ[k]为具有元素ηi[k]=Xiβ[k]和μ[ik]=g-1(ηi[k])的向量,其中g-1(·

)是链路的反函数。

从参数估计开始,β[0],迭代以下步骤,直到β[k]的序列收敛:

1.计算当前β[k]隐含的V(μ[ik])项。

2.为了得到β[k+1](V(μ[ik])被视为固定的而不是作为β的函数)

3.设置k到k+1

实际上,这种方法比需要的要慢。

第2步本身涉及迭代,但在

已经收敛之前实际上将非线性最小二乘方法迭代到收敛没有多大意义。

因此,第2步通常被替换为:

2.使用β[k]作为初始来获得β[k+1]。

应用这种方法会产生一个相当紧凑和简洁的方案。

为了看到这个,让我们以矩阵形式写出非线性最小二乘问题。

定义对角矩阵V[k],其中V[k]ii=V(μ[ik])(2.4)

附近的一阶泰勒展开替代,所以

因此,没有进一步的近似

Jij=?

μi/?

βj|β?

[k].Now

由“伪数据”的定义

对角线权重矩阵

因此,下面的步骤可迭代到收敛

1.使用当前的μ[k]和η[k]计算伪数据z[k]和迭代权重W[k]。

2.将对于β的平方和最小化,以便获得β[k+1],因此η[k+1]=Xβ[k+1]和μ[k+1]。

将k增加1。

收敛的β解决了(2.3),因此是β?

的最大似然估计。

该算法在大多数实际情况下趋于一致,但也有例外(例如,二项数据的不良或过于灵活的模型)。

请注意,要开始迭代,我们只需要μ[0]和η[0]的值,不需要β[0]。

因此,迭代通常通过设置μ[0]i=yi和ηi[0]=g(μ[0]i)开始,并根据需要轻微调整μ[0]i,以避免无限的ηi[0](例如,如果yi=0且有对数链路)。

该方法被称为IterativelyRe-weightedLeastSquares(IRLS),原因很明显,在此背景下,归因于Nelder和Wedderburn(1972)。

2.1.3IRLS的目标是对数似然的二次近似

IRLS迭代中的工作线性模型不仅仅是寻找参数的最大似然估计的手段。

在一个加性常数内

(在收敛时)也是模型在β附近的对数似然的二次近似。

显然,第一个衍生工具是关于对数似然和S之间的βj匹配:

实际上它们都是零。

S的二阶导数矩阵为-XWX/φ,并且这被证明与对数似然的期望的二阶导数矩阵匹配,并且因此在大样本极限中由大数定律来匹配二阶导数矩阵本身。

为了证明这一点,首先将u定义为关于模型参数的对数似然的导数向量,因此ui=?

βi,然后将(2.3)中的导数以矩阵向量形式重写为

u=XTG?

1V?

1(y?

μ)/φ.

?

注意,如果V(μi)被视为β的函数,算法不会最小化(2.4),因为在这种情况下,令导数为零不会产生(2.3)。

换句话说,最大似然与具有平均方差关系的最小二乘基本上不同。

E(uuT)=XTG?

1E[(Y?

μ)(Y?

μ)T]V?

1G?

1X/φ2

=XTG?

1VV?

1X/φ

=XTWX/φ

导数的这种对应关系足以证明S是β附近的对数似然的二次近似,并且由于MLE的一致性,它们在真实参数值附近。

2.1.4AICforGLMs

通过对可能性进行直接比较的模型选择存在如下问题:

如果将冗余的参数添加到正确的模型中,可能性几乎总是增加(并且从不减小),因为额外的参数让模型更接近数据,即使这只意味着对数据的组成部分进行“噪声建模”。

正如在线性模型的情况下,如果我们能够根据它们拟合数据均值μ而不是数据y的能力来选择模型,这个问题会得到缓解。

在GLM背景下,合理的方法是根据模型最大化l(β;

μ)而不是l(β;

y)的能力来选择模型,但是为了做到这一点,我们必须能够估计出l(β;

μ)。

实际上这个估计很明确

并且因为y=μ时,这也必须成立

然后,这个论据的(1.15)(只修改权重)产生了估计量

tr(A)

'

l(β?

;

y)?

tr(A)+n/2

A=X(XTWX)?

1XTWandhencetr(A)=p,(可识别的)模型参数的数量。

因此,在模型之间进行选择时,我们会选择哪个模型具有最高的l(β)-p值,这相当于选择了Akaike信息准则的最低值(Akaike,1973),AIC=2[-l(β)+p]。

前面的论点假设φ已知。

如果不是,那么就需要一个φ的估计来计算AIC,结果AIC中的惩罚项p将变为p+1。

这种归纳

的大样本分布

GLM的分布结果并不精确,反而是基于大样本近似,利用包括一致性在内的最大似然估计的一般性质(见2.4节)。

根据最大似然估计量的一般性质,我们认为,在大样本限制下,

β?

~N(β,I?

1),

其中I=E(uuT)是模型参数的信息矩阵,u是关于模型参数的对数似然函数的导数向量,因此

~N(β,(XTWX)?

1φ).

对于具有已知尺度参数φ的分布,可以直接使用此结果来查找参数的置信区间,但是如果尺度参数未知(例如对于正态分布),则必须估计它,并且区间必须基于一个合适的t分布。

尺度

考虑检验

H0:

g(μ)=X0β0

相反

H1:

g(μ)=X1β1,

其中μ是反应向量Y的期望,Y的元素是来自指数族分布的相同成员的独立随机变量,其中X0?

X1。

如果我们有反应向量的观测值y,则可以执行广义似然比检验。

令l(β0)和l(β1)为两个模型的最大似然率。

如果H0为真,则在大样本限制中,

2[l(β?

1)?

l(β?

0)]~χ2p1?

p0,(2.5)

sothattwicethe?

whichshouldstrictlybeamaximumlikelihoodestimate原假设是假的,则模型1倾向于具有比模型0高得多的可能性,从而两倍于严格应该是最大似然估计的?

,或者在大样本限制下倾向于MLE的估计值。

对数似然对于相关的χ2分布的一致性差异太大。

如果可以计算相关模型的对数似然性,那么近似结果(2.5)仅仅是有用的。

在由IRLS估算的GLM情况下,只有当尺度参数φ已知时才是这种情况。

因此,结果可以与泊松和二项模型一起直接使用,但不能与正态§

,伽马或反高斯分布(其中尺度参数未知)一起使用。

稍后将简短地讨论在后面这些情况下做什么。

偏差

在实践中使用GLM时,在普通的线性建模中,用与残差平方和类似的方式来解释数量是有用的。

D

=

2[l(β?

max)?

)]φ

2ωiyi(θ?

i?

θ?

i)?

b(θ?

i)+b(θ?

i),

(2.6)

(2.7)

Xi=1hi

这个数量是模型的偏差,被定义为

thetermsinsidethesummation其中l(βmax)表示饱和模型的最大可能性:

每个数据点具有一个参数的模型。

在给定数据的情况下,l(βmax)是可能性具有的最大值,并且可以通过简单地设置μ=y并计算出可能性来计算。

和θ分别表示关于饱和模型和兴趣模型的典范参数的最大似然估计。

注意如何将偏差定义为与φ独立。

表2.1列出了单个数据对偏差的贡献,对于若干分布-这些是偏差定义中求和中的项(术语)。

scaleddeviance,

与偏差相关的是调整偏差,

D?

=D/φ,

这取决于尺度参数。

对于二项分布和泊松分布,其中φ=1,偏差和比例偏差是相同的,但通常情况并非如此。

通过广义似然比检验结果(2.5),我们可以预计,如果模型是正确的,那么近似

D?

~χ2n?

p,(2.8)

tojustify(2.8)asalargesampleapproximationundermanycircumstances

在大样本限制中。

实际上,这样的论点是捏造的,因为证明(2.5)的限制论证依赖于模型中参数的数量保持不变,而样本容量趋于无穷大,但饱和模型具有与数据一样多的参数。

渐近结果可用于表2.1中的一些分布,以在许多情况下将(2.8)证明为大样本近似值(参见

当然,对于正态分布和一致性链接,我们使用第1章的结果。

这对于正态分布情形下是精确的。

但是,请注意,它完全打破了二进制数据的二项式。

鉴于偏差的定义,很容易看出,本节开始的似然比检验可以通过重新表达两次对数似然比统计量作为。

然后在H0下

(2.9)

(在大样本极限内),其中Di*是具有pi个可识别参数的模型i的偏差。

但是,这只有在尺度参数已知时才有用,以便可以计算D*。

与未知φ的模型比较

在H0下我们有近似的结果

and

并且,f

如果被看作是渐近独立的,这就意味着

在大样本限制下(当然,在普通线性模型特例中结果确实如此)。

F的有用性质是它可以在不知道φ的情况下进行计算,这可以从比率收益的顶部和底部取消,在H0下,近似结果

.(2.10)

这个结果的优点是,当φ未知时,它可用于基于模型比较的假设检验。

缺点是对于Di的可疑的分布假设以及它所基于的独立性近似。

当然,一个明显的替代方法是使用估计值φ来获得每个模型的估计值Di*=Diφ,然后使用(2.9)进行假设检验。

然而,如果我们使用估计(2.11)来达到这个目的,则很容易看出它只是(n-p1)×

F,所以我们的测试将完全等同于使用F比率结果(2.10),但是使用Fp1-p0,∞作为参考分布。

显然直接使用(2.10)是一种更保守的方法,因此通常是首选:

它至少在估计尺度参数时考虑到了不确定性。

正如我们已经看到的那样,参数β的MLE可以在不知道尺度参数φ的情况下获得,但是在这些参数未知的情况下,通常必须进行估计。

近似结果(2.8)提供了一个明显的估计量。

一个χ2n-p随机变量的期望是n-p,所以等同于观测值

达到我们的近似预期值

φ?

D=D/?

(n?

p).(2.11)

第二个估计量基于Pearson统计量,定义为

显然,X2/φ是一组零均值,单位方差,随机变量的平方和,具有n-p个自由度,这表明如果模型适当,则近似X2/φ?

x2n-p:

这个近似值是有根据的。

将观测到的Pearson统计量设置为我们得到的预期值

φ?

=X?

2/(n?

p).

请注意,它很明确的表明这一点

其中W和z是IRLS权重和伪数据,在收敛时进行评估。

2.1.8典范链接函数

典范链接gc用于分布,是链接函数,使得gc(μi)=θi,其中θi是分布的典范参数。

例如,对于泊松分布,典范链接是对数函数(其他示例见表2.1)。

典范链接的使用意味着θi=Xiβ(其中Xi是X的第i行)。

典范链接倾向于具有一些很好的性质,例如确保μ保持在反应变量的范围内,但它们也具有更多微妙精细的优点,其中之一在此处被推导出。

回想一下,似然最大化涉及对每个βj的对数似然性微分,并令结果为零,以获得方程组

但是,如果正在使用典范链接,则?

θi/?

βj=Xij,如果像通常情况,wi=1?

i,这个方程组可简化为

XTy?

XTμ?

=0,

i.e.toXTy=XTμ?

.即,简化为

现在考虑X包含1列的情况:

任意其他加权求和,其中权重由模型矩阵P给出,这意味着该系统中的一个方程简单地为iyi=iμi。

Recallthatif{Zii2~χ2n.

回想一下,如果{Zi:

i=1...n}是一组独立同分布,N(0,1)r.v.然后是PZi2-χ2n。

列(或这些的线性组合)在原始数据和拟合值之间保存。

其中一个实际结果是,对于任何具有截距项和典型联系的GLM,残差总和为零:

这种“观察到的无偏性”是一个令人放心的特性。

结果的另一个实际用途是在使用对数线性模型的分类数据分析中,其中它通过规定模型提供了一种方法,可以保存任何模型中保存的内置于研究设计中的总数。

2.1.9残差

模型检查可能是应用统计建模中最重要的部分。

在普通线性模型情况下,这是基于对模型残差的检验,模型残差包含数据中的所有信息,而不是由模型的系统部分来解释。

残差检验也是GLM案例模型检验的主要手段,但在这种情况下,残差标准化是必要的,并且更加困难。

对于GLM而言,不仅仅只检查原始残差的主要原因是难以检查原始残差检验假设的均值方差关系的有效性。

例如,如果采用泊松模型,则残差的方差应与拟合值(μi)的大小成正比增加。

然而,如果将原始残差与拟合值作图,则需要一种杰出的能力来判断残差的可变性是否与均值成比例增加,而不是均值的平方根或平方。

出于这个原因,通常将GLM残差标准化,以这种方式,如果模型假设正确,则标准化残差应该具有大致相等的方差,并且尽可能与来自普通线性模型的残差相似(尽管见第6.5节中图6.9的替代绘图方法)。

皮尔森残差

根据拟合模型,将残差标准化的最明显的方法是将它们除以与其标准差成比例的量。

这导致了皮尔森残差

如果模型正确,它应该具有近似为零的均值和方差φ。

当与拟合值或任何协变量(无论是否包含在模型中)进行绘图时,这些残差不应显示均值或方差的任何趋势。

“皮尔森残差”这个名字与相关的皮尔森残差的平方和给出了

请注意,皮尔森残差是来自收敛IRLS方法的工作线性模型的残差除以收敛IRLS权重的平方根。

异常残差

在实践中,皮尔森残差的分布在零附近可以是非常不对称的,因此它们的行为不像可能希望的那样接近普通线性模型残差。

异常残差在这方面通常是优选的。

异常残差是通过注意到偏差对GLM起到与残差平方和对普通线性模型起相同作用来得到:

确实,对于普通线性模型来说,偏差是残差平方和。

在普通线性模型情况下,偏差由平方残差和组成。

这就是具有适当标示的偏差组成部分的平方根的残差。

因此,把di写成第i个数据所贡献的偏差的一部分(即(2.7)中求和的第i项),我们有

并且通过与普通线性模型类比,我们可以定义

根据需要,这些“异常残差”的平方和给出了偏差本身。

现在如果计算了所有参数已知的模型的偏差,则(2.8)将变成D*?

x2n,这可能表明对于单个数据di?

x12,可推出

当然,(2.8)不能合理地应用于单个数据,但对于良好的拟合模型来说,这表明我们可能预期异常残差具有类似于N(0,1)随机变量的行为,特别是在对(2.8)预计是一个合理的近似值的情况下。

拟极大似然

迄今为止,GLM的处理假定反应变量的分布是指数族的已知成员。

如果有充分的理由假设该反应变量遵循特定的分布,则它对该分布上的基本模型很有吸引力,但是在许多情况下,反应分布的性质并不十分清楚,并且可能它只能详细说明反应变量的方差与其均值之间的关系。

也就是说,函数V(μ)可以被指定,但是好不了多少。

然后出现的问题是,是否有可能开发用于拟合和推理GLM的理论,从仅指定平均方差关系的位置开始。

事实证明,基于拟极大似然的概念,开发出令人满意的方法是可能的。

考虑一个具有均值μi和已知方差函数V(μi)的随机变量的观测值yi。

然后对于给定yi的μi的对数拟极大似然定义为

(2.12)

正如我们将会看到的,这个函数的关键特征是它具有li的许多有用特性,即对应于单个观测的对数似然,但只需要V的知识而不是Yi的全部分布。

假设数据是独立随机变量的观测值,我们可以定义所有反应数据的平均向量μ的对数拟极大似然或定义μ的任意参数向量为

q的关键特征是,为了推导GLM,它表现得与对数似然函数非常相似,但只需要方差函数就可定义它。

例如,考虑获得GLM参数β的最大拟似然参数估计。

对q关于βj产量微分

所以参数估计是方程的解

但这正是方程组(2.3),必须解决这个问题才能找到GLM的。

因此,最大拟似然参数估计可以通过通常的GLMIRLS方法找到,在任何情况下只需要知道V(μ)。

此外,对数拟似然性与参数估计值对数似然性具有足够的性质,并且对于参数的最大拟似然估计量值也适用。

类似地,当对数似然度l被对数拟似然函数q代替时,

请注意,饱和模型的对数拟似然始终为零,因此GLM的拟偏差很简单

Dq=?

2q(μ?

)φ.

很显然,关于残差和尺度参数估计的讨论也从似然性中延续到拟似然的情况,但不超过用q代替l。

拟似然性方法的实际应用要求对(2.12)中的积分进行评估,但对于大多数实际有用的V的形式,这是可能的:

McCullagh

和Nelder(1989)给出了例子,或者在R中你可以输入例如

以获得所执行的任何特定均值方差关系的qi形式。

对于表2.1中对应于指数族分布的均值方差关系,拟偏差的形式精确对应于该族的偏差形式。

拟似然性的一个主要实际用途是提供一种来模拟比泊松或二项分布(具有其固定尺度参数)更可变的计数数据的方法:

拟似然性方法假定φ未知。

这种“过度分散”的数据在实践中很常见。

另一个实际用途是提供一种对具有平均方差关系的数据建模的方法,其中没有明显的指数族分布:

例如,预期方差与均值成比例的连续数据。

2.2GLM的几何图形

GLM和GLM拟合的几何图形比普通线性模型的几何图形更难,因为用于判断模型拟合的可能性通常不意味着拟合可以通过模型和数据之间的欧几里得距离来判断。

图2.1用一个含有2个参数的GLM的3个数据拟合Gamma分布和对数链接的例子说明了GLMs的几何情况。

1.4节的平坦

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 总结汇报 > 学习总结

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2