类别数据分析 第三讲Word文件下载.docx
《类别数据分析 第三讲Word文件下载.docx》由会员分享,可在线阅读,更多相关《类别数据分析 第三讲Word文件下载.docx(36页珍藏版)》请在冰点文库上搜索。
●最大可能性(似然)估计(MaximumLikelihoodEstimation或MLE)
此一估计所得的参数值与所观察到的数值最为一致:
也就是说,运用最大似然法所估计出的参数发生的概率,将比其它的数字发生的概率更大。
步骤一:
决定一个说明未知参数概率的函数(似然函数likelihoodfunction)。
步骤二:
找出此一未知参数的观察值,使得此一似然函数达到最大值。
例子:
运用二项公式(binomialformula)来计算十个被观察对象当中出现四位女性的概率。
女性在总体当中出现的实际概率是½
.
因此可得:
现在假设我们不知道总体当中的女性所占比例(π),但是我们的十个观察值当中确实有四位女性,我们由这个样本当中得到总体最可能的π值为何?
最大可能性估计MLE,就是推估一个总体的参数值,来使得观察值最可能发生。
上述的似然函数就是:
数学上,我们希望找出的是参数值p来达到这个似然函数L的最大值,此时p即是π的估计值。
在大样本的条件下,最大可能性的估计值会具有下列三个良好的统计性质:
i)最有效率(变异的极小化minimumvariance)
ii)当样本数增加时,其统计偏误会不断缩小。
iii)其分配型态渐近于随机抽样分布。
当总体属于随机分布时,对总体平均值的最大可能性估计即是样本的平均值,在满足此一条件下,最小二乘法OLS估计正等于是最大可能性估计MLE(PowersandXieAppendixB)。
II.二分法(Binary)Logit模型
1.发生比Odds与发生比率OddsRatio(Agrestip.268-270):
在处理二分法的变量时,发生比Odds就等于某事件发生的概率除以未发生的概率。
此处的p是指事件发生的概率,(1-p)就是事件不发生或失败的概率。
因此,我们也可以用发生比Odds倒算出概率:
发生比Odds与概率Probability之间的关系
概率Probability
发生比Odds
.10
.11
.25
.33
.50
1.00
.75
3.00
.90
9.00
发生比率(Oddsratio)是用来估计不同群体之间事件发生概率的相对比例。
同一个事件的概率,用发生比之间的关系来表达就是:
让我们参考实际的例子:
1996年全国统计数据中有6090个有效样本,依据性别与党员资格来划分,可以得到下列的次数分配表:
.tabpartysex
current|
party|sexofrespondent
member?
|MaleFemale|Total
-----------+----------------------+----------
Yes|547162|709
No|2,5412,840|5,381
Total|3,0883,002|6,090
男性成为党员的发生比是多少?
女性成为党员的发生比是多少?
男性对女性成为党员的发生比率又是多少?
.tabnsize14party
sizeof|
placeof|
residence|currentpartymember?
at14|YesNo|Total
Village|3883,697|4,085
Township|51352|403
Countys|73292|365
County-l|42219|261
District|70433|503
Province|52254|306
Beijing,|32131|163
Total|7085,378|6,086
对那些十四岁时仍居住在农村的人来说,成为党员的发生率是多少?
对那些十四岁时居住在乡镇的人来说,成为党员的发生率是多少?
对那些十四岁时居住在直辖市的人来说,成为党员的发生率是多少?
当然,我们也可以由此表格计算出任何两个群体之间的发生比率。
发生比率OddsRatioθ有一些良好的统计性质:
●与表格对角数字相乘之后的比率相等。
●无论是从行或是列来计算结果都相等。
●可以转换为负值之外的任何数值。
●当θ=1就表示第一行与第二行的发生率相等。
●当θ>
1就表示第一行的发生率大于第二行的发生率。
●当θ<
1就表示第一行的发生率小于第二行的发生率。
发生比率可广泛运用于logit模型与loglinear模型。
2.二分Logit回归法(BinaryLogisticRegression)
我们社会科学界经常面对一些二元范畴的应变量,这是因为很多社会现象都是以二分的方式来测量与描述,比如投票行为、出勤与缺席、已婚或未婚等,而非以连续变量的方式来测量与描述的。
我们曾经提到虚拟变量(variabledummy)的概念,当一个应变量被分为k个类型的结果时,可以被转换成(k-1)个虚拟变量。
从最简单的情况开始,我们假设一个变量只能分为两个范畴(事件发生[y=1]或是未发生[y=0]).
举个实际的例子,我们想解释在中国为何有些人能够加入共产党,我们有个叫“rparty”的虚拟变量以及其它的解释变量,包括年龄、性别与父亲的党员资格。
.tabrparty
rparty|Freq.PercentCum.
------------+-----------------------------------
0|5,38188.3688.36
1|70911.64100.00
Total|6,090100.00
要建立一个二元应变量的模型,我们可以将该方程式用机率模型表达为:
E(Y|X)=β0+β1X1+β2X2
我们该如何设定与估计上述的模型呢?
首先,我们可以使用线性机率模型(linearprobabilitymodel)也就是OLS来估计,但是线性机率模型有下列问题:
a)函数型态上的错误:
b)其结果容易受到X或Y值的边际分布数值所影响.
c)超出范围的预测值-机率小于0或大于1(Y<
0orY>
1)。
d)异方差性(Heteroskedasticity)可能导致无效率的估计值、偏误的标准误与错误的统计检验结果。
P
P(1-P)=VAR(Y)
.1
.09
.3
.21
.5
.7
.9
确实,异方差性(Heteroskedasticity)与超范围的预测值可以运用最小二乘法OLS以外的线性模型来解决。
然而,错误的函数型态与对边际分布数值的敏感性是线性模型的致命伤。
所以我们必须引进非线性(NONLINEAR)模型!
要对付二元的机率分布型态,我们可以运用的其中一种非线性模型就是logistic(logit)模型:
Logistic方程式的基本性质:
a.在β>
0的条件下:
当X+∞,π(x)1
当X-∞,π(x)0
在β<
0的条件下:
当X+∞,π(x)0
当X-∞,π(x)1
因此0<
π(x)<
1
b.曲线的斜率:
部分微分的结果
在线性模型中斜率会成为常数:
在logistic模型中斜率视X与β的条件而定:
因此,π(X)[1-π(X)]在π=0.5的时候会达到极大值,也就是说,当p=0.5的时候,机率密度函数的斜率最高。
logistic函数也可以转换成发生率:
1-π(X)=1/[1+eα+βx]
发生率Odds
π(X)/[1-π(X)]=eα+βx=eαeβx
因此,X每增加一个单位,就会让发生率增加eβ倍(MULTIPLIEStheoddsbyeβ)。
c.发生率对数“LogOdds”
log{π(X)/[1-π(X)]}=α+βX
所以,将概率转换到发生率对数(logodds)之后,方程式的两侧都成了X的线性模型:
“LinearLogitEquation”。
III估计与解释
1.估计:
最大可能性方法MaximumLikelihoodMethod
L=Pr(Y1,Y2,…Yn)=
也就是,
理论上,MLE所计算出的βi可以使上述的函数极大化;
应用上,STATA可以直接为我们计算出来。
2.我们常见两类的logit模型实际上是一样的,只是数据本身因为方类方法而有所不同:
a.个体纪录(UnitRecord)或“个人”logit模型
b.群体数据或表格模型(tabularmodel)
在n(i=1…n)个观察个体(“individuals”)当中,我们观察到应变量Yi属于(0,1)这种二项结果,以及自变量Xi,这两类数据都来自原始的数据纪录:
.listrpartynsize14agefpartysex
+-----------------------------------------+
|rpartynsize14agefpartysex|
|-----------------------------------------|
1.|1Village47NoFema|
2.|1Village54NoMale|
3.|1Beijing,45YesMale|
4.|0Village47NoMale|
5.|1Village44NoMale|
6.|0Village40NoMale|
7.|1Village49NoMale|
8.|1Village51YesFema|
9.|0Village60NoFema|
10.|0Village30YesMale|
11.|0Village46NoMale|
12.|0Village38NoFema|
13.|0Village40NoMale|
14.|0Village40YesFema|
15.|0Village33NoMale|
16.|0Village46YesFema|
17.|0Village33YesMale|
18.|0Village40NoFema|
19.|0Village24NoMale|
20.|0Village30YesFema|
21.|0Village30NoMale|
22.|0Village28NoFema|
23.|0Village25NoFema|
24.|0Village50NoMale|
25.|0Village52NoMale|
26.|0Village30NoFema|
27.|0Village32NoFema|
28.|1Village67NoMale|
我们可以用STATA计算出logit模型的估计结果:
.xi:
logitrpartyi.nsize14
i.nsize14_Insize14_1-7(naturallycoded;
_Insize14_1omitted)
Iteration0:
loglikelihood=-2188.2434
Iteration1:
loglikelihood=-2157.828
Iteration2:
loglikelihood=-2156.3204
Iteration3:
loglikelihood=-2156.3177
LogitestimatesNumberofobs=6086
LRchi2(6)=63.85
Prob>
chi2=0.0000
Loglikelihood=-2156.3177PseudoR2=0.0146
------------------------------------------------------------------------------
rparty|Coef.Std.Err.zP>
|z|[95%Conf.Interval]
-------------+----------------------------------------------------------------
_Insize14_2|.3224661.15904892.030.043.0107359.6341962
_Insize14_3|.8679773.14131846.140.000.59099821.144956
_Insize14_4|.6028695.17670183.410.001.2565403.9491987
_Insize14_5|.4320291.13943813.100.002.1587354.7053228
_Insize14_6|.6681811.16129344.140.000.3520518.9843104
_Insize14_7|.8448102.20428184.140.000.44442531.245195
_cons|-2.254272.0533649-42.240.000-2.358865-2.149678
.logit,or
rparty|OddsRatioStd.Err.zP>
_Insize14_2|1.380528.21957152.030.0431.0107941.885506
_Insize14_3|2.382088.33663296.140.0001.805793.142304
_Insize14_4|1.827355.32289693.410.0011.2924512.583639
_Insize14_5|1.54038.21478773.100.0021.1720282.0245
_Insize14_6|1.950686.31463284.140.0001.4219822.675966
_Insize14_7|2.327536.47547314.140.0001.5595943.473612
另一种直接得到发生比率的作法是logisticregression的指令:
logisticrpartyi.nsize14
LogisticregressionNumberofobs=6086
------------------------------------------------------------------------------
在很多时候我们的研究拿不到个人层次的原始数据,但是可以取得某些加总的表格数据,例如我们下面有一张表格:
residence|rparty
at14(i)|01|Total
Village|3,697388|4,085
Township|35251|403
Countys|29273|365
County-l|21942|261
District|43370|503
Province|25452|306
Beijing,|13132|163
Total|5,378708|6,086
首先,我们必须把表格的数据输入STATA,第二步才能估计logit模型。
.inputplaceparmemfreq
placeparmemfreq
1.103697
2.20352
3.30292
4.40219
5.50433
6.60254
7.70131
8.11388
9.2151
10.3173
11.4142
12.5170
13.6152
14.7132
15.end
.labeldata"
sosc534tabulardatafromChinaLifeHistorySurvey"
.labelvarplace"
residencepl