类别数据分析 第三讲Word文件下载.docx

上传人:b****5 文档编号:8466548 上传时间:2023-05-11 格式:DOCX 页数:36 大小:117.04KB
下载 相关 举报
类别数据分析 第三讲Word文件下载.docx_第1页
第1页 / 共36页
类别数据分析 第三讲Word文件下载.docx_第2页
第2页 / 共36页
类别数据分析 第三讲Word文件下载.docx_第3页
第3页 / 共36页
类别数据分析 第三讲Word文件下载.docx_第4页
第4页 / 共36页
类别数据分析 第三讲Word文件下载.docx_第5页
第5页 / 共36页
类别数据分析 第三讲Word文件下载.docx_第6页
第6页 / 共36页
类别数据分析 第三讲Word文件下载.docx_第7页
第7页 / 共36页
类别数据分析 第三讲Word文件下载.docx_第8页
第8页 / 共36页
类别数据分析 第三讲Word文件下载.docx_第9页
第9页 / 共36页
类别数据分析 第三讲Word文件下载.docx_第10页
第10页 / 共36页
类别数据分析 第三讲Word文件下载.docx_第11页
第11页 / 共36页
类别数据分析 第三讲Word文件下载.docx_第12页
第12页 / 共36页
类别数据分析 第三讲Word文件下载.docx_第13页
第13页 / 共36页
类别数据分析 第三讲Word文件下载.docx_第14页
第14页 / 共36页
类别数据分析 第三讲Word文件下载.docx_第15页
第15页 / 共36页
类别数据分析 第三讲Word文件下载.docx_第16页
第16页 / 共36页
类别数据分析 第三讲Word文件下载.docx_第17页
第17页 / 共36页
类别数据分析 第三讲Word文件下载.docx_第18页
第18页 / 共36页
类别数据分析 第三讲Word文件下载.docx_第19页
第19页 / 共36页
类别数据分析 第三讲Word文件下载.docx_第20页
第20页 / 共36页
亲,该文档总共36页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

类别数据分析 第三讲Word文件下载.docx

《类别数据分析 第三讲Word文件下载.docx》由会员分享,可在线阅读,更多相关《类别数据分析 第三讲Word文件下载.docx(36页珍藏版)》请在冰点文库上搜索。

类别数据分析 第三讲Word文件下载.docx

●最大可能性(似然)估计(MaximumLikelihoodEstimation或MLE)

此一估计所得的参数值与所观察到的数值最为一致:

也就是说,运用最大似然法所估计出的参数发生的概率,将比其它的数字发生的概率更大。

步骤一:

决定一个说明未知参数概率的函数(似然函数likelihoodfunction)。

步骤二:

找出此一未知参数的观察值,使得此一似然函数达到最大值。

例子:

运用二项公式(binomialformula)来计算十个被观察对象当中出现四位女性的概率。

女性在总体当中出现的实际概率是½

.

因此可得:

现在假设我们不知道总体当中的女性所占比例(π),但是我们的十个观察值当中确实有四位女性,我们由这个样本当中得到总体最可能的π值为何?

最大可能性估计MLE,就是推估一个总体的参数值,来使得观察值最可能发生。

上述的似然函数就是:

数学上,我们希望找出的是参数值p来达到这个似然函数L的最大值,此时p即是π的估计值。

在大样本的条件下,最大可能性的估计值会具有下列三个良好的统计性质:

i)最有效率(变异的极小化minimumvariance)

ii)当样本数增加时,其统计偏误会不断缩小。

iii)其分配型态渐近于随机抽样分布。

当总体属于随机分布时,对总体平均值的最大可能性估计即是样本的平均值,在满足此一条件下,最小二乘法OLS估计正等于是最大可能性估计MLE(PowersandXieAppendixB)。

II.二分法(Binary)Logit模型

1.发生比Odds与发生比率OddsRatio(Agrestip.268-270):

在处理二分法的变量时,发生比Odds就等于某事件发生的概率除以未发生的概率。

此处的p是指事件发生的概率,(1-p)就是事件不发生或失败的概率。

因此,我们也可以用发生比Odds倒算出概率:

发生比Odds与概率Probability之间的关系

概率Probability

发生比Odds

.10

.11

.25

.33

.50

1.00

.75

3.00

.90

9.00

发生比率(Oddsratio)是用来估计不同群体之间事件发生概率的相对比例。

同一个事件的概率,用发生比之间的关系来表达就是:

让我们参考实际的例子:

1996年全国统计数据中有6090个有效样本,依据性别与党员资格来划分,可以得到下列的次数分配表:

.tabpartysex

current|

party|sexofrespondent

member?

|MaleFemale|Total

-----------+----------------------+----------

Yes|547162|709

No|2,5412,840|5,381

Total|3,0883,002|6,090

男性成为党员的发生比是多少?

女性成为党员的发生比是多少?

男性对女性成为党员的发生比率又是多少?

.tabnsize14party

sizeof|

placeof|

residence|currentpartymember?

at14|YesNo|Total

Village|3883,697|4,085

Township|51352|403

Countys|73292|365

County-l|42219|261

District|70433|503

Province|52254|306

Beijing,|32131|163

Total|7085,378|6,086

对那些十四岁时仍居住在农村的人来说,成为党员的发生率是多少?

对那些十四岁时居住在乡镇的人来说,成为党员的发生率是多少?

对那些十四岁时居住在直辖市的人来说,成为党员的发生率是多少?

当然,我们也可以由此表格计算出任何两个群体之间的发生比率。

发生比率OddsRatioθ有一些良好的统计性质:

●与表格对角数字相乘之后的比率相等。

●无论是从行或是列来计算结果都相等。

●可以转换为负值之外的任何数值。

●当θ=1就表示第一行与第二行的发生率相等。

●当θ>

1就表示第一行的发生率大于第二行的发生率。

●当θ<

1就表示第一行的发生率小于第二行的发生率。

发生比率可广泛运用于logit模型与loglinear模型。

2.二分Logit回归法(BinaryLogisticRegression)

我们社会科学界经常面对一些二元范畴的应变量,这是因为很多社会现象都是以二分的方式来测量与描述,比如投票行为、出勤与缺席、已婚或未婚等,而非以连续变量的方式来测量与描述的。

我们曾经提到虚拟变量(variabledummy)的概念,当一个应变量被分为k个类型的结果时,可以被转换成(k-1)个虚拟变量。

从最简单的情况开始,我们假设一个变量只能分为两个范畴(事件发生[y=1]或是未发生[y=0]).

举个实际的例子,我们想解释在中国为何有些人能够加入共产党,我们有个叫“rparty”的虚拟变量以及其它的解释变量,包括年龄、性别与父亲的党员资格。

.tabrparty

rparty|Freq.PercentCum.

------------+-----------------------------------

0|5,38188.3688.36

1|70911.64100.00

Total|6,090100.00

要建立一个二元应变量的模型,我们可以将该方程式用机率模型表达为:

E(Y|X)=β0+β1X1+β2X2

我们该如何设定与估计上述的模型呢?

首先,我们可以使用线性机率模型(linearprobabilitymodel)也就是OLS来估计,但是线性机率模型有下列问题:

a)函数型态上的错误:

b)其结果容易受到X或Y值的边际分布数值所影响.

c)超出范围的预测值-机率小于0或大于1(Y<

0orY>

1)。

d)异方差性(Heteroskedasticity)可能导致无效率的估计值、偏误的标准误与错误的统计检验结果。

P

P(1-P)=VAR(Y)

.1

.09

.3

.21

.5

.7

.9

确实,异方差性(Heteroskedasticity)与超范围的预测值可以运用最小二乘法OLS以外的线性模型来解决。

然而,错误的函数型态与对边际分布数值的敏感性是线性模型的致命伤。

所以我们必须引进非线性(NONLINEAR)模型!

要对付二元的机率分布型态,我们可以运用的其中一种非线性模型就是logistic(logit)模型:

Logistic方程式的基本性质:

a.在β>

0的条件下:

当X+∞,π(x)1

当X-∞,π(x)0

在β<

0的条件下:

当X+∞,π(x)0

当X-∞,π(x)1

因此0<

π(x)<

1

b.曲线的斜率:

部分微分的结果

在线性模型中斜率会成为常数:

在logistic模型中斜率视X与β的条件而定:

因此,π(X)[1-π(X)]在π=0.5的时候会达到极大值,也就是说,当p=0.5的时候,机率密度函数的斜率最高。

logistic函数也可以转换成发生率:

1-π(X)=1/[1+eα+βx]

发生率Odds

π(X)/[1-π(X)]=eα+βx=eαeβx

因此,X每增加一个单位,就会让发生率增加eβ倍(MULTIPLIEStheoddsbyeβ)。

c.发生率对数“LogOdds”

log{π(X)/[1-π(X)]}=α+βX

所以,将概率转换到发生率对数(logodds)之后,方程式的两侧都成了X的线性模型:

“LinearLogitEquation”。

III估计与解释

1.估计:

最大可能性方法MaximumLikelihoodMethod

L=Pr(Y1,Y2,…Yn)=

也就是,

理论上,MLE所计算出的βi可以使上述的函数极大化;

应用上,STATA可以直接为我们计算出来。

2.我们常见两类的logit模型实际上是一样的,只是数据本身因为方类方法而有所不同:

a.个体纪录(UnitRecord)或“个人”logit模型

b.群体数据或表格模型(tabularmodel)

在n(i=1…n)个观察个体(“individuals”)当中,我们观察到应变量Yi属于(0,1)这种二项结果,以及自变量Xi,这两类数据都来自原始的数据纪录:

 

.listrpartynsize14agefpartysex

+-----------------------------------------+

|rpartynsize14agefpartysex|

|-----------------------------------------|

1.|1Village47NoFema|

2.|1Village54NoMale|

3.|1Beijing,45YesMale|

4.|0Village47NoMale|

5.|1Village44NoMale|

6.|0Village40NoMale|

7.|1Village49NoMale|

8.|1Village51YesFema|

9.|0Village60NoFema|

10.|0Village30YesMale|

11.|0Village46NoMale|

12.|0Village38NoFema|

13.|0Village40NoMale|

14.|0Village40YesFema|

15.|0Village33NoMale|

16.|0Village46YesFema|

17.|0Village33YesMale|

18.|0Village40NoFema|

19.|0Village24NoMale|

20.|0Village30YesFema|

21.|0Village30NoMale|

22.|0Village28NoFema|

23.|0Village25NoFema|

24.|0Village50NoMale|

25.|0Village52NoMale|

26.|0Village30NoFema|

27.|0Village32NoFema|

28.|1Village67NoMale|

我们可以用STATA计算出logit模型的估计结果:

.xi:

logitrpartyi.nsize14

i.nsize14_Insize14_1-7(naturallycoded;

_Insize14_1omitted)

Iteration0:

loglikelihood=-2188.2434

Iteration1:

loglikelihood=-2157.828

Iteration2:

loglikelihood=-2156.3204

Iteration3:

loglikelihood=-2156.3177

LogitestimatesNumberofobs=6086

LRchi2(6)=63.85

Prob>

chi2=0.0000

Loglikelihood=-2156.3177PseudoR2=0.0146

------------------------------------------------------------------------------

rparty|Coef.Std.Err.zP>

|z|[95%Conf.Interval]

-------------+----------------------------------------------------------------

_Insize14_2|.3224661.15904892.030.043.0107359.6341962

_Insize14_3|.8679773.14131846.140.000.59099821.144956

_Insize14_4|.6028695.17670183.410.001.2565403.9491987

_Insize14_5|.4320291.13943813.100.002.1587354.7053228

_Insize14_6|.6681811.16129344.140.000.3520518.9843104

_Insize14_7|.8448102.20428184.140.000.44442531.245195

_cons|-2.254272.0533649-42.240.000-2.358865-2.149678

.logit,or

rparty|OddsRatioStd.Err.zP>

_Insize14_2|1.380528.21957152.030.0431.0107941.885506

_Insize14_3|2.382088.33663296.140.0001.805793.142304

_Insize14_4|1.827355.32289693.410.0011.2924512.583639

_Insize14_5|1.54038.21478773.100.0021.1720282.0245

_Insize14_6|1.950686.31463284.140.0001.4219822.675966

_Insize14_7|2.327536.47547314.140.0001.5595943.473612

另一种直接得到发生比率的作法是logisticregression的指令:

logisticrpartyi.nsize14

LogisticregressionNumberofobs=6086

------------------------------------------------------------------------------

在很多时候我们的研究拿不到个人层次的原始数据,但是可以取得某些加总的表格数据,例如我们下面有一张表格:

residence|rparty

at14(i)|01|Total

Village|3,697388|4,085

Township|35251|403

Countys|29273|365

County-l|21942|261

District|43370|503

Province|25452|306

Beijing,|13132|163

Total|5,378708|6,086

首先,我们必须把表格的数据输入STATA,第二步才能估计logit模型。

.inputplaceparmemfreq

placeparmemfreq

1.103697

2.20352

3.30292

4.40219

5.50433

6.60254

7.70131

8.11388

9.2151

10.3173

11.4142

12.5170

13.6152

14.7132

15.end

.labeldata"

sosc534tabulardatafromChinaLifeHistorySurvey"

.labelvarplace"

residencepl

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 党团工作 > 入党转正申请

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2