类别数据分析第三讲Word文件下载.docx

资源描述

类别数据分析第三讲Word文件下载.docx

《类别数据分析第三讲Word文件下载.docx》由会员分享，可在线阅读，更多相关《类别数据分析第三讲Word文件下载.docx（36页珍藏版）》请在冰点文库上搜索。

类别数据分析第三讲Word文件下载.docx

●最大可能性（似然）估计（MaximumLikelihoodEstimation或MLE）

此一估计所得的参数值与所观察到的数值最为一致：

也就是说，运用最大似然法所估计出的参数发生的概率，将比其它的数字发生的概率更大。

步骤一：

决定一个说明未知参数概率的函数（似然函数likelihoodfunction）。

步骤二：

找出此一未知参数的观察值，使得此一似然函数达到最大值。

例子：

运用二项公式（binomialformula）来计算十个被观察对象当中出现四位女性的概率。

女性在总体当中出现的实际概率是½

因此可得：

现在假设我们不知道总体当中的女性所占比例（π），但是我们的十个观察值当中确实有四位女性，我们由这个样本当中得到总体最可能的π值为何?

最大可能性估计MLE，就是推估一个总体的参数值，来使得观察值最可能发生。

上述的似然函数就是：

数学上，我们希望找出的是参数值p来达到这个似然函数L的最大值，此时p即是π的估计值。

在大样本的条件下，最大可能性的估计值会具有下列三个良好的统计性质：

i）最有效率（变异的极小化minimumvariance）

ii）当样本数增加时，其统计偏误会不断缩小。

iii）其分配型态渐近于随机抽样分布。

当总体属于随机分布时，对总体平均值的最大可能性估计即是样本的平均值，在满足此一条件下，最小二乘法OLS估计正等于是最大可能性估计MLE（PowersandXieAppendixB）。

II.二分法（Binary）Logit模型

1.发生比Odds与发生比率OddsRatio（Agrestip.268-270）：

在处理二分法的变量时，发生比Odds就等于某事件发生的概率除以未发生的概率。

此处的p是指事件发生的概率，（1-p）就是事件不发生或失败的概率。

因此，我们也可以用发生比Odds倒算出概率：

发生比Odds与概率Probability之间的关系

概率Probability

发生比Odds

.10

.11

.25

.33

.50

1.00

.75

3.00

.90

9.00

发生比率（Oddsratio）是用来估计不同群体之间事件发生概率的相对比例。

同一个事件的概率，用发生比之间的关系来表达就是：

让我们参考实际的例子：

1996年全国统计数据中有6090个有效样本，依据性别与党员资格来划分，可以得到下列的次数分配表：

.tabpartysex

current|

party|sexofrespondent

member?

|MaleFemale|Total

-----------+----------------------+----------

Yes|547162|709

No|2,5412,840|5,381

Total|3,0883,002|6,090

男性成为党员的发生比是多少?

女性成为党员的发生比是多少?

男性对女性成为党员的发生比率又是多少?

.tabnsize14party

sizeof|

placeof|

residence|currentpartymember?

at14|YesNo|Total

Village|3883,697|4,085

Township|51352|403

Countys|73292|365

County-l|42219|261

District|70433|503

Province|52254|306

Beijing,|32131|163

Total|7085,378|6,086

对那些十四岁时仍居住在农村的人来说，成为党员的发生率是多少？

对那些十四岁时居住在乡镇的人来说，成为党员的发生率是多少？

对那些十四岁时居住在直辖市的人来说，成为党员的发生率是多少？

当然，我们也可以由此表格计算出任何两个群体之间的发生比率。

发生比率OddsRatioθ有一些良好的统计性质：

●与表格对角数字相乘之后的比率相等。

●无论是从行或是列来计算结果都相等。

●可以转换为负值之外的任何数值。

●当θ=1就表示第一行与第二行的发生率相等。

●当θ>

1就表示第一行的发生率大于第二行的发生率。

●当θ<

1就表示第一行的发生率小于第二行的发生率。

发生比率可广泛运用于logit模型与loglinear模型。

2.二分Logit回归法（BinaryLogisticRegression）

我们社会科学界经常面对一些二元范畴的应变量，这是因为很多社会现象都是以二分的方式来测量与描述，比如投票行为、出勤与缺席、已婚或未婚等，而非以连续变量的方式来测量与描述的。

我们曾经提到虚拟变量（variabledummy）的概念，当一个应变量被分为k个类型的结果时，可以被转换成（k-1）个虚拟变量。

从最简单的情况开始，我们假设一个变量只能分为两个范畴（事件发生[y=1]或是未发生[y=0]）.

举个实际的例子，我们想解释在中国为何有些人能够加入共产党，我们有个叫“rparty”的虚拟变量以及其它的解释变量，包括年龄、性别与父亲的党员资格。

.tabrparty

rparty|Freq.PercentCum.

------------+-----------------------------------

0|5,38188.3688.36

1|70911.64100.00

Total|6,090100.00

要建立一个二元应变量的模型，我们可以将该方程式用机率模型表达为：

E（Y|X）=β0+β1X1+β2X2

我们该如何设定与估计上述的模型呢?

首先，我们可以使用线性机率模型（linearprobabilitymodel）也就是OLS来估计，但是线性机率模型有下列问题：

a）函数型态上的错误：

b）其结果容易受到X或Y值的边际分布数值所影响.

c）超出范围的预测值－机率小于0或大于1（Y<

0orY>

1）。

d）异方差性（Heteroskedasticity）可能导致无效率的估计值、偏误的标准误与错误的统计检验结果。

P（1-P）=VAR（Y）

.09

.21

确实，异方差性（Heteroskedasticity）与超范围的预测值可以运用最小二乘法OLS以外的线性模型来解决。

然而，错误的函数型态与对边际分布数值的敏感性是线性模型的致命伤。

所以我们必须引进非线性（NONLINEAR）模型！

要对付二元的机率分布型态，我们可以运用的其中一种非线性模型就是logistic（logit）模型：

Logistic方程式的基本性质：

a.在β>

0的条件下：

当X＋∞,π（x）1

当X－∞,π（x）0

在β<

0的条件下：

当X＋∞,π（x）0

当X－∞,π（x）1

因此0<

π（x）<

b.曲线的斜率：

部分微分的结果

在线性模型中斜率会成为常数：

在logistic模型中斜率视X与β的条件而定：

因此，π（X）[1-π（X）]在π=0.5的时候会达到极大值，也就是说，当p=0.5的时候，机率密度函数的斜率最高。

logistic函数也可以转换成发生率：

1-π（X）=1/[1+eα+βx]

发生率Odds

π（X）/[1-π（X）]=eα+βx=eαeβx

因此，X每增加一个单位，就会让发生率增加eβ倍（MULTIPLIEStheoddsbyeβ）。

c.发生率对数“LogOdds”

log{π（X）/[1-π（X）]}=α+βX

所以，将概率转换到发生率对数（logodds）之后，方程式的两侧都成了X的线性模型：

“LinearLogitEquation”。

III估计与解释

1.估计：

最大可能性方法MaximumLikelihoodMethod

L=Pr（Y1,Y2,…Yn）=

也就是,

理论上，MLE所计算出的βi可以使上述的函数极大化；

应用上，STATA可以直接为我们计算出来。

2.我们常见两类的logit模型实际上是一样的，只是数据本身因为方类方法而有所不同：

a.个体纪录（UnitRecord）或“个人”logit模型

b.群体数据或表格模型（tabularmodel）

在n（i=1…n）个观察个体（“individuals”）当中，我们观察到应变量Yi属于（0,1）这种二项结果，以及自变量Xi，这两类数据都来自原始的数据纪录：

.listrpartynsize14agefpartysex

+-----------------------------------------+

|rpartynsize14agefpartysex|

|-----------------------------------------|

1.|1Village47NoFema|

2.|1Village54NoMale|

3.|1Beijing,45YesMale|

4.|0Village47NoMale|

5.|1Village44NoMale|

6.|0Village40NoMale|

7.|1Village49NoMale|

8.|1Village51YesFema|

9.|0Village60NoFema|

10.|0Village30YesMale|

11.|0Village46NoMale|

12.|0Village38NoFema|

13.|0Village40NoMale|

14.|0Village40YesFema|

15.|0Village33NoMale|

16.|0Village46YesFema|

17.|0Village33YesMale|

18.|0Village40NoFema|

19.|0Village24NoMale|

20.|0Village30YesFema|

21.|0Village30NoMale|

22.|0Village28NoFema|

23.|0Village25NoFema|

24.|0Village50NoMale|

25.|0Village52NoMale|

26.|0Village30NoFema|

27.|0Village32NoFema|

28.|1Village67NoMale|

我们可以用STATA计算出logit模型的估计结果：

.xi:

logitrpartyi.nsize14

i.nsize14_Insize14_1-7（naturallycoded;

_Insize14_1omitted）

Iteration0:

loglikelihood=-2188.2434

Iteration1:

loglikelihood=-2157.828

Iteration2:

loglikelihood=-2156.3204

Iteration3:

loglikelihood=-2156.3177

LogitestimatesNumberofobs=6086

LRchi2（6）=63.85

Prob>

chi2=0.0000

Loglikelihood=-2156.3177PseudoR2=0.0146

------------------------------------------------------------------------------

rparty|Coef.Std.Err.zP>

|z|[95%Conf.Interval]

-------------+----------------------------------------------------------------

_Insize14_2|.3224661.15904892.030.043.0107359.6341962

_Insize14_3|.8679773.14131846.140.000.59099821.144956

_Insize14_4|.6028695.17670183.410.001.2565403.9491987

_Insize14_5|.4320291.13943813.100.002.1587354.7053228

_Insize14_6|.6681811.16129344.140.000.3520518.9843104

_Insize14_7|.8448102.20428184.140.000.44442531.245195

_cons|-2.254272.0533649-42.240.000-2.358865-2.149678

.logit,or

rparty|OddsRatioStd.Err.zP>

_Insize14_2|1.380528.21957152.030.0431.0107941.885506

_Insize14_3|2.382088.33663296.140.0001.805793.142304

_Insize14_4|1.827355.32289693.410.0011.2924512.583639

_Insize14_5|1.54038.21478773.100.0021.1720282.0245

_Insize14_6|1.950686.31463284.140.0001.4219822.675966

_Insize14_7|2.327536.47547314.140.0001.5595943.473612

另一种直接得到发生比率的作法是logisticregression的指令：

logisticrpartyi.nsize14

LogisticregressionNumberofobs=6086

------------------------------------------------------------------------------

在很多时候我们的研究拿不到个人层次的原始数据，但是可以取得某些加总的表格数据，例如我们下面有一张表格：

residence|rparty

at14（i）|01|Total

Village|3,697388|4,085

Township|35251|403

Countys|29273|365

County-l|21942|261

District|43370|503

Province|25452|306

Beijing,|13132|163

Total|5,378708|6,086

首先，我们必须把表格的数据输入STATA，第二步才能估计logit模型。

.inputplaceparmemfreq

placeparmemfreq

1.103697

2.20352

3.30292

4.40219

5.50433

6.60254

7.70131

8.11388

9.2151

10.3173

11.4142

12.5170

13.6152

14.7132

15.end

.labeldata"

sosc534tabulardatafromChinaLifeHistorySurvey"

.labelvarplace"

residencepl

展开阅读全文

类别数据分析 第三讲Word文件下载.docx

类别数据分析第三讲Word文件下载.docx