四川大学 骆帧博弈论与经济分析完全信息动态.docx

上传人:b****1 文档编号:10236073 上传时间:2023-05-24 格式:DOCX 页数:20 大小:137.02KB
下载 相关 举报
四川大学 骆帧博弈论与经济分析完全信息动态.docx_第1页
第1页 / 共20页
四川大学 骆帧博弈论与经济分析完全信息动态.docx_第2页
第2页 / 共20页
四川大学 骆帧博弈论与经济分析完全信息动态.docx_第3页
第3页 / 共20页
四川大学 骆帧博弈论与经济分析完全信息动态.docx_第4页
第4页 / 共20页
四川大学 骆帧博弈论与经济分析完全信息动态.docx_第5页
第5页 / 共20页
四川大学 骆帧博弈论与经济分析完全信息动态.docx_第6页
第6页 / 共20页
四川大学 骆帧博弈论与经济分析完全信息动态.docx_第7页
第7页 / 共20页
四川大学 骆帧博弈论与经济分析完全信息动态.docx_第8页
第8页 / 共20页
四川大学 骆帧博弈论与经济分析完全信息动态.docx_第9页
第9页 / 共20页
四川大学 骆帧博弈论与经济分析完全信息动态.docx_第10页
第10页 / 共20页
四川大学 骆帧博弈论与经济分析完全信息动态.docx_第11页
第11页 / 共20页
四川大学 骆帧博弈论与经济分析完全信息动态.docx_第12页
第12页 / 共20页
四川大学 骆帧博弈论与经济分析完全信息动态.docx_第13页
第13页 / 共20页
四川大学 骆帧博弈论与经济分析完全信息动态.docx_第14页
第14页 / 共20页
四川大学 骆帧博弈论与经济分析完全信息动态.docx_第15页
第15页 / 共20页
四川大学 骆帧博弈论与经济分析完全信息动态.docx_第16页
第16页 / 共20页
四川大学 骆帧博弈论与经济分析完全信息动态.docx_第17页
第17页 / 共20页
四川大学 骆帧博弈论与经济分析完全信息动态.docx_第18页
第18页 / 共20页
四川大学 骆帧博弈论与经济分析完全信息动态.docx_第19页
第19页 / 共20页
四川大学 骆帧博弈论与经济分析完全信息动态.docx_第20页
第20页 / 共20页
亲,该文档总共20页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

四川大学 骆帧博弈论与经济分析完全信息动态.docx

《四川大学 骆帧博弈论与经济分析完全信息动态.docx》由会员分享,可在线阅读,更多相关《四川大学 骆帧博弈论与经济分析完全信息动态.docx(20页珍藏版)》请在冰点文库上搜索。

四川大学 骆帧博弈论与经济分析完全信息动态.docx

四川大学骆帧博弈论与经济分析完全信息动态

博弈论与经济分析(完全信息动态)

骆桢四川大学经济学院

第二章完全信息动态

第一节动态博弈要件及其表述形式

要件:

1、完全信息静态:

参与人、策略、得益

2、动态:

参与人、阶段、行动、策略(每个阶段的全部计划)、得益

扩展型(extensiveform):

借钱博弈(附加介绍“节点”与“阶段”的区别)

不分

借,打

2,2

-1,0

借,不打

2,2

0,4

不借,打

1,0

1,0

不借,不打

1,0

1,0

囚徒困境?

 

第二节置信问题及逆向归纳法(子博弈与子博弈完美纳什均衡)

按划线法,“借钱博弈”的纳什均衡有:

(借,告;分)(不借,告;不分)(不借,不告;不分)。

但是……威胁不可置信(借,告;分)不具有稳定性。

逆向归纳排除不可置信的“承诺”或者是“威胁”,直观上意味着,参与者作为理性人应该考虑对手在后续阶段的选择。

理性要求:

双方理性必须是公共知识,回忆“反复删去严格劣策略”

如果1在第一阶段不选B,而选了A,他还是不是理性的呢?

仍然有可能,但这个时候,理性不可能是“公共知识”,可能的情况包括:

“1是理性的”是公共知识,但是1认为2是不理性的,于是他选择……期待……;或者“2是理性的”是公共知识,1是理性的,但是1认为2不知道自己是理性的,于是选A,希望2上当。

(和后面顺序归纳法对比,为什么这里不存在顺序归纳法的解)

子博弈与子博弈完美纳什均衡(SPNE):

一个不正式的说明:

子博弈:

由一个动态博弈第一个阶段以外的某个阶段开始的后续博弈构成的,有初始信息集和进行博弈所需要的全部信息,能够自成一个博弈的原博弈的一部分。

SPNE:

如果一个策略组合在整个动态博弈和所有子博弈中都构成NE,那么这个策略组合称为该动态博弈的SPNE。

(注意,构成SPNE的策略中,很多节点的行为不在“均衡路径”上,简单介绍“均衡路径”)

SPNE是对动态博弈中多个NE进行精炼。

例子:

1、两阶段动态完全且完美信息动态博弈

该类模型的一般性描述:

(i)参与人1从可行集A1中选择行动a1(为什么不是s1了?

注意“策略”在动态博弈中含义的变化)

(ii)参与人2观察到a1之后从可行集A2中选择行动a2

(iii)两人的收益分别为u1(a1,a2)和u2(a1,a2)

完全且完美信息动态博弈的特点:

行动是顺序发生的;下一步选择之前,所有以前的行动都是可以被观察到的;每一可能的行动组合下参与者的收益都是共同知识。

求解方法:

逆向归纳

当参与人2行动时,能看见参与人1的选择,于是

假定A1中的每一个a1,参与人2的最优化问题只有唯一解,用其反应函数表示R2(a1)。

因为参与人1能像参与人2一样解出这个问题,因此他能预测到2的反应,于是

假定这个规划也有唯一的解

,我们称

是这一博弈的逆向归纳解。

(后面我们将严格定义子博弈完美纳什均衡,只有不含不可置信威胁的NE才是SPNE)

例1:

斯塔克伯格模型

古诺模型中,一个企业作为领导者先行选择(伯川德模型的先后选择作为习题):

企业1选择产量q1,企业2观察到产量q1,选择产量q2,企业i的利润由以下函数给出:

其中

,且

(先行者优势;如果存在先后顺序,但是企业2观察不到q1,退化为古诺模型,为什么?

按照逆向归纳的思路,先考虑企业2在看到企业1的任意产量之后的最优反应:

由一阶条件(二阶条件略)可得:

厂商1预计到厂商2会做这样的反应,于是,在第一阶段厂商1最优化的问题则变成:

由一阶条件(二阶条件略)可得:

代入可得

代入求得

,这是先行者优势的体现。

 

例2:

有工会企业的工资和就业

例3:

讨价还价模型

1、三回合

2、无限回合(一个非正式的讨论)

结论和三回合对比,1不再具有强制性“优势”

为什么一定要用三阶段?

(或者说奇数阶段,偶数,比如2或者4不行吗?

例4:

委托代理模型

(i)无不确定性

委托人选择提供一份怎样的合同{W(E),W(S)};代理人选择接不接受这份合同,然后选择“努力”E还是“偷懒”S。

因为没有不确定性,所以产出是代理人努力的函数R(E)或者R(S).

完全且完美信息,进行逆向归纳:

若W(E)-E>W(S)-S,则代理人会选择努力,这个条件称为“激励相容约束”

而上一阶段代理人是否会接受呢?

若W(E)-E>0则代理人会接受,这个条件称为“参与相容约束”

当然,需要R(E)-W(E)>R(0)委托然才选择委托。

(ii)有不确定性但可监督

努力与否可以看得到并可证实,则通常工资取决于代理人的努力而不是工作成果。

这样一来,若产出除了代理人的努力之外还存在着不确定性,那么风险就由委托人全部承担。

即风险仅影响委托人的行为,不影响代理人的行为。

假设R(0)=0,并引入“自然”参与者0来表示风险。

假设有10和20两种可能的产出。

因为风险不影响代理人的行为,则

若W(E)-E>W(S)-S,则代理人会选择努力“激励相容约束”

若W(E)-E>0则代理人会接受“参与相容约束”

因为存在风险,委托人要参与则其期望得益必须大于0.

(iii)有不确定性且不可监督

无法依照代理人的努力与否发工资,只能参照工作成果发工资。

但是工作成果不仅仅取决于代理人的努力,还存在一定的风险。

此时,激励相容约束变为:

0.9[W(20)-E]+0.1[W(10)-E]>0.1[W(20)-S]+0.9[W(10)-S]

而参与相容约束则变成:

0.9[W(20)-E]+0.1[W(10)-E]>0

而对于委托人而言,必须满足以下不等式,他才会选择参与:

0.9[20-W(20)]+0.1[10-W(10)]>0

(iv)一个连续型选择的例子:

假设代理人有正的机会成本

而且努力的负效用是努力水平的单调递增的凸函数C=C(e)。

代理人选择的努力水平e是连续的,产出是e的随机函数R=R(e),由于具有不确定性且不能监督,则只能依据R支付报酬,w=w(R)=w(R(e))。

于是,代理人得益为w-C=w[R(e)]-C(e)

委托人得益为R-w=R(e)-w[R(e)]

根据逆向归纳的思路:

参与相容约束为:

w[R(e)]-C(e)

激励相容约束:

委托人最满意的努力水平e*符合代理人的利益最大化,即

w[R(e*)]-C(e*)>=w[R(e)]-C(e)任意e

委托人在以上两个约束下选择工资方案最大化自己的收益。

比如:

R(e)=4e+η,η是均值为0的随机扰动项。

=1

C(e)=e2

w[R(e)]=A+B[R(e)]并且委托人、代理人风险中性

则,委托人的收益为R(e)-w[R(e)]=4e+η-A-B[4e+η]期望得益为4(1-B)e-A

代理人的收益为w[R(e)]-C(e)=A+B[4e+η]-e2期望得益为A+B4e-e2

问题是:

委托人如何确定A和B来最大化自己的收益。

参与相容约束为:

A+B4e-e2>=1

激励相容约束为:

e*=2B

首先,委托人要尽量压低工资,但是最低必须满足参与相容约束,于是不等式取等号

有:

A+B4e-e2=1即A+B4e=1+e2

将其带入委托人收益函数中,为4e-e2-1最大化一介条件可确定委托人满意的努力程度为e*=2,从而B=1,带入可求A=-3

承包制

 

第三节有同时选择的动态博弈(完全但不完美信息)

该类模型的一般描述:

1、参与者1、2同时从各自的可行集A1和A2中选择行动a1、a2.

2、参与者3、4观察到第一阶段的结果,从各自的可行集A3和A4中选择行动a3、a4

3、收益为ui(a1,a2,a3,a4)i=1,2,3,4

求解:

逆向归纳法的思路

为简化分析,我们假设对于第一阶段博弈的每一个可能的结果(a1,a2),第二阶段有唯一的NE,a3*(a1,a2)以及a4*(a1,a2)。

当然,参与人1、2会预测到这一点,以选定最优策略a1*,a2*

于是,以上博弈的子博弈完美纳什均衡为(a1*,a2*,a3*(a1*,a2*),a4*(a1*,a2*))

例子:

例1:

银行挤兑模型

不存在贴现

提款

不提

提款

r,r

D,2r-D

不提

2r-D,D

下一阶段

R>D>r>D/2

提款

不提

提款

R,R

2R-D,D

不提

D,2R-D

R,R

逆向归纳的思路:

提款

不提

提款

r,r

D,2r-D

不提

2r-D,D

R,R

 

例2:

关税和国际市场的不完全竞争

博弈的顺序:

(1)政府同时选择关税税率t1和t2

(2)企业观察到关税税率后同时选择其提供国内消费和出口的产量(h1,e1)和(h2,e2)

(3)企业i的收益为利润,政府i的收益为本国总福利,包括本国消费者剩余、本国企业利润、以及政府从他国企业j所收取的关税。

若i国市场上总供给为Qi,则市场价格为pi(Qi)=a-Qi;i国企业为国内市场生产hi并出口ei,于是Qi=hi+ej;企业的边际成本为常数c,于是总成本为Ci=c(hi+ei);若政府j的关税税率为tj,则i国企业向j国出口ei,则必须支付ei*tj的关税。

(最终的SPNE为什么是低效率的?

例3:

工作竞赛(锦标赛制度)

为同一个老板工作的两个工人,工人i(i=1,2)的产出为yi=ei+εi,其中ei为努力程度,εi为随机扰动项。

博弈顺序如下:

(1)工人同时选择非负的努力水平ei>=0

(2)随机扰动项εi相互独立并服从均值为0,密度函数为f(ε)的概率分布

(3)工人的努力程度不可观测,但是产出是可观测的

老板为了激励员工,在他们中间开展工作竞赛,优胜者获得工资wH失败者获得工资wL。

工人的效用为u(w,e)=w-g(e),其中g(e)表示努力带来的负效用,g’>0,g”>0

老板收益为y1+y2-wH-wL

第四节子博弈和SPNE的理论探讨

定义:

一个博弈的扩展型表述包括:

(1)参与者(2a)每一参与者在何时行动(2b)每次轮到某一参与者行动时,可供其选择的行动(2c)每次轮到某一参与者行动时,他所了解的信息(3)参与者可能选择的每一行动组合对应的参与者的收益。

定义:

参与者的策略是关于行动的一个完整的计划,即每一种可能情况下的可行的选择。

参与人有4个策略:

2

1

L’,L’

L’,R’

R’,L’

R’,R’

L

3,1

3,1

1,2

1,2

R

2,1

0,0

2,1

0,0

定义:

参与者的一个信息集指满足以下条件的节点的集合:

(1)在此信息集中的每一个节点都轮到该参与者行动

(2)当博弈论进行到信息集中的某一个节点,应该行动的参与者并不知道到达了哪个节点。

定义:

扩展型博弈的子博弈:

(1)始于单节信息集的决策节

(2)包含博弈树中该节点一下的所有决策节和终节点

(3)没有对任何信息集形成分割。

定义:

SPNE:

如果参与者的策略在每一个子博弈中都构成纳什均衡,则称纳什均衡是子博弈完美的。

定理:

任何有限的完全信息动态博弈都存在子博弈完美纳什均衡(也许是混合策略的)。

证明思路:

本身及其每个子博弈都可表示成扩展型。

区分均衡和解:

定义:

两阶段完全且完美信息动态博弈中,逆向归纳解为(a1*,R2(a1*)),但其子博弈完美纳什均衡为(a1*,R2(a1))

定义:

前面完全非完美信息两阶段博弈中,子博弈完美解为(a1*,a2*,a3*(a1*,a2*),a4*(a1*,a2*)),但其子博弈完美纳什均衡为(a1*,a2*,a3*(a1,a2),a4*(a1,a2))

求NE,逆推解以及SPNE

扩展:

颤抖手均衡

顺推归纳法

蜈蚣博弈

 

第三章重复博弈

对某一博弈重复进行(不一定要静态的):

比如天天买菜,或者长期合作,所谓“老主顾”。

两阶段重复博弈:

参与者2

1

L2

R2

L1

1,1

5,0

R1

0,5

4,4

逆向归纳法,将第二阶段唯一NE的得益“简单”加到第一阶段去,得第一阶段的博弈为:

参与者2

1

L2

R2

L1

2,2

6,1

R1

1,6

5,5

(L1,L2)是该重复博弈的唯一的NE,合作解(R1,R2)是无法实现的。

定义:

对给定阶段博弈G(解释一下什么是阶段博弈),令G(T)表示G重复T次的有限重复博弈,并且在下一次博弈开始前,所有以前进行的博弈都能被观测到。

G(T)的收益为T次阶段博弈收益的简单相加。

定理:

如果阶段博弈G有唯一的NE,则对任意有限的T,重复博弈G(T)有唯一的子博弈完美纳什均衡:

即G的NE在每阶段重复进行。

这里阶段博弈G为完全信息动态时,结论依然成立。

若G是完全且完美信息动态博弈且只有唯一的逆向归纳解,则G(T)有唯一的子博弈完美纳什均衡,即每阶段其逆向归纳解重复进行。

类似的,若G是上章中的完全不完美信息动态博弈,且有唯一的子博弈完美纳什均衡,则G(T)也有唯一的子博弈完美纳什均衡:

G的子博弈完美纳什均衡重复进行T次。

上述模型变形:

(和前面很像,注意区别在于不是唯一的纳什均衡)G为

L2

M2

R2

L1

1,1

5,0

0,0

M1

0,5

4,4

0,0

R1

0,0

0,0

3,3

触发策略:

对参与人i,若第一阶段策略组合为(M1,M2)则第二阶段选择(R1,R2);否则,在第二阶段选择(L1,L2)

我们逆推回第一阶段,总得益为两次博弈得益的简单相加:

L2

M2

R2

L1

2,2

6,1

1,1

M1

1,6

7,7

1,1

R1

1,1

1,1

4,4

这说明,这样的“触发策略”是NE,同时,第二阶段选(R1,R2)是NE,于是该触发策略是该两阶段重复博弈的“子博弈完美纳什均衡”。

当然,这个博弈不止一个SPNE。

该例主要说明:

对将来行动所作的可信的威胁或承诺可以影响到当前的行为。

于是,“合作”即使不是NE,也可能出现在SPNE中。

但是这里也说明子博弈完美对于“可置信”的要求并不严格。

因为如果第一阶段没有出现合作,那么第二阶段(R1,R2)仍是可选择的纳什均衡,似乎一切都过去了,再选择(L1,L2)有点愚蠢。

参与双方出现重新谈判似乎是很自然的事情,从而两阶段之间出现了“交流”,若“重新谈判”允许,则应该考虑在分析中,若不允许,也可能出现在参与人对局势的分析中。

L2

M2

R2

P2

Q2

L1

1,1

5,0

0,0

0,0

0,0

M1

0,5

4,4

0,0

0,0

0,0

R1

0,0

0,0

3,3

0,0

0,0

P1

0,0

0,0

0,0

4,1/2

0,0

Q1

0,0

0,0

0,0

0,0

1/2,4

不仅惩罚,还奖励了惩罚者。

 

无限重复博弈

在无限重复博弈中有一个更强的结论:

即使阶段博弈只有唯一的NE,无限重复博弈中也可以存在子博弈完美纳什均衡,其中没一个阶段的结果是G的NE。

1

参与者2

L2

R2

L1

1,1

5,0

R1

0,5

4,4

定义给定贴现因子δ(δ=1/(1+r),r为利率),无限收益序列π1,π2,π3……的现值为

借助贴现因子,我们可以把无限重复博弈解释称为一个随机结束的有限重复博弈。

(毕竟无限重复并不现实,可以想一想为什么需要随机结束?

)假设博弈每一阶段结束的概率为p,继续博弈的概率为1-p,假设每阶段的收益为π,则博弈进行前,期望收益为(1-p)π/(1+r),贴现率δ=(1-p)/(1+r)

回到博弈:

参与者i的触发策略:

在第一阶段选择Ri,且在第t阶段,如果所有前面t-1阶段的结果都是(R1,R2),则选择Ri,否则选择Li。

首先要证明如果δ足够接近1,该策略是无限重复博弈的纳什均衡,再证明这一纳什均衡是子博弈完美的。

为了证明上述触发策略对博弈双方而言都是纳什均衡,我们假设参与者i已经采取触发策略,可以证明在δ足够接近1的条件下,参与者j的最优反应也选择同样的策略。

如果选择“不合作”,现值为

如果选择“合作”,现值为

当且仅当

时,“合作”才是最优的。

于是当δ>=1/4时,采取触发策略是纳什均衡。

接下来证明这一纳什均衡是子博弈完美的,这需要重新界定一下相关概念。

定义给定一个阶段博弈G,令G(∞,δ)表示相应的无限重复博弈。

对于每个t,之前的t-1次阶段的博弈结果在t阶段开始之前都可被观测到,每个参与者在G(∞,δ)中的收益为无限次博弈中每一阶段得益的现值。

定义在重复博弈G(T)或无限重复博弈G(∞,δ)中,参与者的一个策略指在每一个阶段,针对其前面所有可能的结果,参与者会选择的行动。

定义在有限重复博弈G(T)中,由第t+1阶段开始的一个子博弈为G进行T-t次的重复博弈,可表示为G(T-t)。

在无限重复博弈G(∞,δ)中,由第t+1阶段开始的每个子博弈都等同于初始博弈G(∞,δ)。

博弈G(∞,δ)到t阶段为止有多少不同的可能进行过程,就有多少从t阶段开始的子博弈。

那么,G(∞,δ)中的子博弈分为2类:

一是之前的结果都是(R1,R2)……;二是至少有一个结果不是(R1,R2)……从而可以证明……

无名氏定理(Freedman,1971)令G为一个有限的完全信息静态博弈,令(e1,…,en)表示G的一个NE下的收益,且(x1,…,xn)表示G的任意可行收益。

如果对每个参与者i有xi>ei,且如果δ足够接近1,则无限重复博弈G(∞,δ)存在一个子博弈完美纳什均衡其平均收益可以达到(x1,…,xn)。

解释什么是可行收益,什么是平均收益

例子:

1、双寡头古诺模型中的共谋

市场总供给为:

Q=q1+q2,市场价格为P(Q)=a-Q,假定Q

无限次重复,贴现率为δ。

合作的触发策略及其条件:

触发策略:

在第一阶段生产垄断产量的一半

;在第t阶段,若前面t-1阶段两个企业产量都为

,则继续生产

;否则,生产古诺均衡时的产量。

根据前面的计算,我们可知:

当双方都生产

的时候,各获得利润

当双方都生产古诺产量

时,各获得利润

若一方生产

,另一方偏离约定,最大化当期利润的产量为

,所能获得的利润为

要使得上述触发策略成为纳什均衡,必须满足以下条件:

带入

计算可得

 

若δ<9/17……

δ较小,如何实现合作?

(胡萝卜加大棒)

2、效率工资

阶段博弈:

1、企业开出工资水平w。

2、工人接受或者拒绝。

若拒绝了w就成为自我雇佣,获得w0,。

3、若接受,工人选择努力或者是偷懒。

4、企业无法观测工人是否努力,但是能观测产出。

5、努力一定获得高产出y>0,偷懒以p的概率获得高产出,1-p的概率获得低产出0.

收益:

企业y-w,工人w-e,若工人偷懒,e=0,若出现低产量y=0.

假定:

y-e>w0>py

阶段博弈的纳什均衡

触发策略及其条件

 

3、货币政策的时间一致性问题

阶段博弈:

1、雇主选择一个通胀的预期πe

2、货币当局观测到这一预期,并选择真实通胀率π。

收益:

雇主:

-(π-πe)2

货币当局:

U(π,y)=-cπ2-(y-y*)2

对收益函数作说明:

y=by*+d(π-πe)

阶段博弈的SPNE:

触发策略:

 

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 人文社科 > 法律资料

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2