子博弈精炼纳什均衡+贝叶斯法则+信号博弈Word下载.docx

资源描述

子博弈精炼纳什均衡+贝叶斯法则+信号博弈Word下载.docx

《子博弈精炼纳什均衡+贝叶斯法则+信号博弈Word下载.docx》由会员分享，可在线阅读，更多相关《子博弈精炼纳什均衡+贝叶斯法则+信号博弈Word下载.docx（11页珍藏版）》请在冰点文库上搜索。

子博弈精炼纳什均衡+贝叶斯法则+信号博弈Word下载.docx

这样，具有这种特点的纳什均衡就是不可信的，即不能作为模型的预测结果，按照“精炼”纳什均衡的思想，应当将其消掉。

定义3.1：

子博弈精炼纳什均衡（SPNE）：

扩展式博弈的策略组合

S*=（S1*,…,

Si*,…,

Sn*

）是一个子博弈精炼纳什均衡当且仅当：

如果它是原博弈的纳什均衡；

它在每一个子博弈上也都构成纳什均衡。

如果一个完美信息的动态博弈中，各博弈方的策略构成的一个策略组合满足：

在整个动态博弈及它的所有子博弈中都构成纳什均衡，那么这个策略组合称为该动态博弈的一个“子博弈完美纳什均衡”。

这也意味着原博弈的Nash均衡并不一定是子博弈精炼Nash均衡，除非它还对所有子博弈构成Nash均衡。

例如前文的煤电博弈，（提价，接受）和（不提价，接受）均为纳什均衡，但后者并未满足在整个动态博弈及它的所有子博弈中都构成纳什均衡这一要件，因而理性的煤炭企业一定会选择提价。

博弈:

一个扩展式表示博弈的子博弈G是由一个单结信息集x开始的与所有该决策结的后续结（包括终点结）组成的能自成一个博弈的原博弈的一部分。

对于扩展式博弈的策略组合S*=（S1*,…,Si*,…,Sn*）,如果它是原博弈的纳什均衡;

它在每一个子博弈上也都构成纳什均衡,则它是一个子博弈精炼纳什均衡。

博弈论专家常常使用“序贯理性”（Sequentialrationality）：

指不论过去发生了什么，参与人应该在博弈的每个时点上最优化自己的策略。

子博弈精炼纳什均衡所要求的正是参与人应该是序惯理性的。

对于有限完美信息博弈，逆向归纳法是求解子博弈精炼纳什均衡的最简便的方法。

因为有限完美信息博弈的每一个决策结都开始一个子博弈。

求解方法：

　最后一个结点上的子博弈（纳什均衡）→倒数第二个（纳什均衡）→·

→初始结点上的子博弈（纳什均衡）。

上图摘自张维迎的《博弈论与信息经济学》（P7）

在此图中，我们可以看出博弈论大概分为四类，每种类别都有固定的纳什均衡。

这道题中所问的“如何分辨子博弈”，是求解子博弈精炼纳什均衡的基础。

而“贝叶斯法则”是求解精炼贝叶斯均衡的基础。

所以，如果扩展一下是属于如何求解完全信息动态博弈的子博弈精炼纳什均衡，以及如何求解不完全信息动态博弈的精炼贝叶斯纳什均衡。

在下面分开讨论。

一、完全信息动态的子博弈精炼纳什均衡

完全信息动态一般用扩展式表述。

子博弈精炼纳什均衡要求

（1）它在原博弈上是纳什均衡

（2）它在每一个子博弈上都是纳什均衡。

所以，如何分辨一个扩展式有几个子博弈，关键在于看一个扩展式表述的博弈中有几个单节信息集。

同时，子博弈不能切割原博弈的信息集。

通过下面几个图来解释：

图1

在此博弈中，有三个参与者，分别是A、N（自然）、B。

共有七个决策点，A有一个。

N有两个，B有四个。

这七个决策点分割成七个信息集，每个信息集都只包括一个决策点。

（表示，所有参与者在参与时准确知道自己处于哪个决策结。

）

子博弈由每个决策结及其后续结构成，所以在图一中，共有七个子博弈。

（注意：

任何博弈本身成为其自身的一个子博弈。

图2

图2与图1相同，也有三个参与者，A、N（自然）、B。

不同的是，B在选择时并不知道N的选择，也就是说B知道A选择了开发或者不开发，但是不知道N选择了大还是小。

因为B不知道自己处在N选择了大还是小的决策结上，用虚线表示。

此时，B有两个信息集，但是每个信息集有两个决策点。

总结来说，在图2中，A有一个信息集，只包含一个决策结；

N有两个信息集，各包含一个决策结；

B有两个信息集，各包含两个决策结。

所以，图2共有三个单节信息集，那么也就可以判断图2有三个子博弈。

图3

在同样三个参与者的图中，图3代表A决策时不知道N决策的结果；

B知道自然的选择，但是不知道A的选择。

在图3中，根据“子博弈不能切割原博弈信息集”的规则，图3只有一个子博弈就是原博弈本身。

图3的博弈还可以用另外的方式来表达，可能更容易理解。

图4

图4和图3代表的完全是同一个博弈。

A决策时不知道N决策的结果；

在这个图中，根据之前的“有几个单节信息集就有几个子博弈”的判断方法，可以知道只有一个子博弈就是原博弈本身。

或者说，只有一个子博弈，即N有一个信息集只包含一个决策点。

二、贝叶斯法则的理解

如何理解贝叶斯法则在博弈论中的应用，我觉得张维迎《博弈论与信息经济学》中举的一个例子很好，我先把这部分截图放在下面。

摘自张维迎《博弈论与信息经济学》P182~P183

三：

信号博弈及贝叶斯法则的运用

信号博弈（Signalinggame），是一种由一个发送者（S）和另一个接收者（R）所组成的动态博弈。

一开始这个发送者有一个给定的类型（t），接着发送者会观察这个没有其他人（好比说接收者）知道的类型，去从讯息堆M={m1,m2,m3,...,mj}中选择送出一个讯息（m），接着接收者会观察这个讯息后从他可行的动作中A={a1,a2,a3,....,ak}选一个作为反应动作（a），这里要注意的是接收者除了讯息之外其他都无法得知（如发送者的类型t），接着根据（t,m,a）的组合来决定双方会获得的报酬或回报。

用贝叶斯法则求解精炼贝叶斯纳什均衡最典型的例子应该是用在信号博弈上。

可以参考罗云峰主编的《博弈论教程》，第十三章1、2小节。

我觉得这本书相对讲的清楚些。

这是之前上课用到的一个例子，把它放在下面。

首先，在这个博弈中，有三个参与者，分别是N、S、R。

Sender有两种类型，他是哪种类型是其私有信息。

也就是说，receiver不知道sender是哪种类型，知道的是1/2的可能性是t1,另外1/2的可能性是t2，同时Receiver可以根据Sender的行动来修正自己的判断。

Sender有两个行动的可能性，L或者R；

Receiver有两个行动的可能性，u或者d。

1.假设无论是Sendert1，还是Sendert2，都会选择L。

这一假设条件可以表示为p（L︱t1）=p（L︱t2）=1。

又知Sender1/2的可能性是t1,另外1/2的可能性是t2，即p（t1）=p（t2）=0.5那么这个时候，根据贝叶斯法则。

他选择U，受益是1/2*3+1/2*4=3.5。

如果他选择d，收益是1/2*0+1/2*1=0.5。

所以，在Sender选L的情况下，Receiver会选u。

在Receiver选U的情况下，Sendert1选L的收益是1，Sendert2选L的收益是2.

以上结论，建立在“无论是Sendert1，还是Sendert2，都会选择L，这一假设上，那么要使上述结论成立，首先这个假设要成立。

如何让这个假设成立呢？

就需要保证，如果Receiver选择u，那么无论对哪种类型的Sender来说，选L一定比选R好。

因此，当Sender选择R时，Receiver做出的反应使得任何类型Sender得到的收益，都小于其选择L得到的收益。

当Sender选择R时，只有Receiver选择d才能保证任何类型的Sender收益都小于其选择L的收益。

所以，必须保证当Sender选择R时，Receiver一定选择d。

要想保证Receiver一定选择d呢，则一定要使Sender选R时，Receiver选u的预期收益小于其选d的预期收益。

即q+（1-q）*0<

0*q+2（1-q）,即q<

2/3.

所以，这种情况下的精炼贝叶斯均衡是无论是Sendert1，还是Sendert2，都会选择L；

当Sender选择L时，Receiver选u，当Sender选R时，Receiver选d；

p=0.5；

q≤2/3

2.假设无论是Sendert1，还是Sendert2，都会选择R

这一假设条件可以表示为p（R︱t1）=p（R︱t2）=1。

又知Sender1/2的可能性是t1,另外1/2的可能性是t2，即p（t1）=p（t2）=0.5那么这个时候，根据贝叶斯法则。

他选择u，受益是1/2*1+1/2*0=0.5。

如果他选择d，收益是1/2*0+1/2*2=1。

所以，在sender选L的情况下，Receiver会选d。

在Receiver选d的情况下，sendert1选R的收益是0，sendert2选R的收益是1。

如果Sender选择L，那么Receiver选择u总是优于其选择d，所以Receiver一定会选择u。

而当Receiver选择u是，sendert1收益是1，sendert2的收益是2。

所以这种情况，Sender选L总是优于其选R。

与假设相悖，不存在均衡。

3.如果是Sendert1，会选择L：

如果是Sendert2，会选择R。

在这种情况下，根据贝叶斯法则，p=1q=0（如果Receiver发现Sender的选择是L，就会知道是Sendert1，如果发现选择的是R就能判断出是R）

在Sendert1选择L时，Receiver会选择u，Sender获得收益1；

当Sendert2选择R时，Receiver会选择d，Sender获得收益1。

需要检验，当确定Receiver选择u、d时，Sender做出与假设不一样的选择是否会得到更高的收益。

当Receiver会选择u，Sendert1选择R收益少于选L（可以）；

当Receiver会选择d，Sendert2选择L收益大于R。

因此，Sendert2会选择L，与假设相悖。

所以，这种均衡不存在

4.如果是Sendert1，会选择R：

如果是Sendert2，会选择L。

在这种情况下，根据贝叶斯法则，p=0q=1

在Sendert1选择R时，Receiver会选择u，Sender获得收益2；

当Sendert2选择L时，Receiver会选择u，Sender获得收益2。

再次检验，当确定Receiver选择（u︱L，u︱R）时，两类型Sender做出与假设不一样的选择是否会得到更高的收益。

当Receiver会选择u，Sendert1选择L收益少于选R（可以）；

当Receiver会选择u，Sendert2选择R收益小于L（可以）。

所以，这种均衡存在：

｛（R︱t1,L︱t2），（u︱L,u︱R），p=0，q=1｝

贴现因子及其在重复博弈中的运用

一般来说，当利率为r时，承诺T年之后支付R美元的现值是R美元/（1+r）^T。

因此，即使没有通货膨胀，将来1美元的价值也小于现在1美元的价值，必须按某一数额贴现，该数额取决于利率的高低和收到货币的时间长短。

其中1/（1+r）^T被称为未来T时期的货币的贴现因子（discountfactor）。

贴现因子（discountfactor），也称折现系数、折现参数。

所谓贴现因子，就是将来的现金流量折算成现值的介于0－1之间的一个数。

贴现因子在数值上可以理解为贴现率，就是1个份额经过一段时间后所等同的现在份额。

这个贴现因子不同于金融学或者财务学的贴现率之处在于，它是由参与人的“耐心”程度所决定的。

“耐心”实质上是讲参与人的心理和经济承受能力，不同的参与人在谈判中的心理承受能力可能各不相同，心理承受能力强的可能最终会获得更多的便宜；

同样，如果有比其他参与人更强的经济承受能力，也会占得更多的便宜。

贴现因子δ=1/（1+r）^T0<

δ<

1,r是利率。

贴现值为1/（1+δ）^T

（注：

^T表示T次方）

学者在博弈论对贴现因子的定义：

　贴现因子是讨价还价博弈中的一个很重要的概念，Gibbons将贴现因子定义为“货币的时间价值”，实际上就是贴现率=1/1+r；

张维迎的博弈论中将贴现因子解释为参与人的耐心程度，贴现因子表示一个参与人的耐心程度，取值在『0，1』，越大说明参与人的耐心越好，若是等于0则说明参与人完全没有耐心。

由于贴现因子是由公式1/1+r定义的，那么可以看到，收益率越大，则贴现因子越小，则参与人的耐心程度越小；

反之，如果收益率越小，则贴现因子越大，参与人越有耐心。

令贴现因子为d,d=（1-p）/（1+r）,其中p为博弈立即结束的概率,r为利率.这样贴现因子中就涵盖了货币的时间价值和博弈将要结束的可能性.而当p=1时,表示博弈立即结束,此时d=0,当p=0时,博弈继续,d=1/（1+r）.这里的p也可以表示为人的耐心（吉本斯,1999）.

展开阅读全文