经典博弈论完整版培训课程1.pptx

资源描述

经典博弈论完整版培训课程1.pptx

《经典博弈论完整版培训课程1.pptx》由会员分享，可在线阅读，更多相关《经典博弈论完整版培训课程1.pptx（33页珍藏版）》请在冰点文库上搜索。

经典博弈论完整版培训课程1.pptx

,经典博弈论培训课程,目,录,博弈论概述,一,博弈论模型,二,博弈论应用,三,博弈论成果,四,策有以下几种基本要素：

博弈论概念：

博弈即一些个人，队组或其他组织，面对一定的环境条件，在一定的规则下，同时或先后，一次或多次，从各允许选择的行为或策略中进行选择并加以实施，各自取得相应的结果的过程。

一局中人（players）：

在策略型博弈中，一个对,即博弈的参与者，他们是博弈的决策主体行为。

根据自己的利益要求决定自己的，记局中人为i，局中人集合为1,2,i，即共有i个局中人。

我们将某个局中人以外的其它局中人称为“i的对手”，记为-i。

二策略（strategies）：

即指每个局中人在对策中可以选择采用的行动方案，但这个方案必须是一个完整的行动，而不是行动的某一步。

每个局中人均有可供选择的多种策略。

三支付或收益（payoffs）:

是指一局博弈的得失。

或者说是局中人从各种策略组合中获得的效用，它是策略组合的函数。

如果局中人得失的总和为零，则称这种对策为零和对策；否则，称为非零和博弈。

博弈论概述,博弈论历史变革,04,03,0201,Texthere,05,我国古T代ex围th棋ere国际象棋（印度）等、。

Copypastefonts.Choosetheonlyoptiontoretaintext.,第一次、第二次世界大战，军事对策应用于战役和战略研究。

Copypastefonts.Choosetheonlyoptiontoretaintext.1912年，数学家翟墨罗把对策从模拟模型抽象为数学模型。

1944年，冯诺意曼、摩根斯特合,写了“博博弈弈论论和和经经济济行行为为”，推动,了博弈C论op在yp经as济t济te管f管fon理t理ts.中Ch的h的oo应se用the。

onlyoptiontoretaintext.,近年来，由于纳什、泽尔腾、海萨尼获诺贝尔经济学奖（1994），进一步推动了博弈论的研究。

博弈论现代应用案例,美丽心灵,美丽心灵（ABeautifulMind）是一部改编自同名传记而获得奥斯卡金像奖的电影。

影片讲述一位患有精神分裂症但却在博弈论和微分几何学领域潜心研究以致获得诺贝尔经济学奖的数学家约翰福布斯纳什。

博弈论常见经典模型,Texthere,Choosetheonlyoptiontoretaintext.,02,01,04,03,Texthere囚徒困境,TexthereCopyp纳aste什fon均ts.衡Choosetheonlyoptiontoretaintext.,Copypa性ste别fon战ts.,Texthere优C优Cop超ypa解stefonts.Choosetheonlyoptiontoretaintext.,目,录,博弈论概述,一,博弈论模型,二,博弈论应用,三,博弈论成果,四,博弈论模型囚徒困境（prisonersdilemma）,囚徒B,囚徒A,这个例子可以看作是非合作博弈现象的一个抽象概括。

它讲的是两个嫌疑犯被隔离审讯。

他们面临的处境是：

如果两人都坦白，各判刑8年；如果两人都抵赖，各判刑1年（或许证据不足）；如果一人坦白另一人抵赖，则坦白的放出去，不坦白的判刑15年，（“坦白从宽、抗拒从严”）。

这里，两个囚徒就是两个局中人，每个局中人都有两个策略可T供e供ex选t择h：

er坦e白或抵赖。

表中每一格的一对数字分别表示局中人不同策略组合的收益，第一个数字是囚徒A的收益，第二个数字是囚徒B的收益。

这种有限对策（局中人是有限个，每个局中人的策略数也是有限的）往往用矩阵形式表示。

在对博弈局势进行描述后，博弈论分析就是要求出局中人进行策略选择的理性结局，或者说找出博弈问题的解。

在非合作博弈中，有两种解的技术：

一种是纳什均衡，一种是优超解。

博弈论模型纳什均衡,解析：

在囚徒困境中，考虑囚徒A对他人的最优反应。

如果给定囚徒B的策略是“坦白”，那么对囚徒A来说，采取“坦白”策略得到的收益是-8，采取“抵赖”策略得到的收益是-15，显然“坦白”为好；同理，如果给定囚徒B的策略是“抵赖”，对囚徒A来说，“坦白”也比“抵赖”好。

因此，囚徒A对囚徒B的最优反应是“坦白”。

对囚徒B作同样分析：

如果囚徒A的策略是“坦白”，则他采取“坦白”策略为好；如果囚徒A的策略是“抵赖”,他还是采取“坦白”策略好，所以囚徒B对囚徒A的最优反应也是“坦白”。

两个最优反应形成了一个策略组合（坦白，坦白），这就是一个纳什均衡。

博弈论模型纳什均衡定义一:

给定其它局中人的策略s，局中人i的最优反应记为s，是指能给他带来最大收益的策略，当每个局中人都选择了自己的最优反应策略，并且这些最优反应形成一个策略组合，便形成了纳什均衡。

*,i,i,ii,ii,s,）s,）u（s,s,u（s*,s,i,i,定义二:

12n,一个策略组合s*=（s*,s*,s*）被称为纳什均衡，对于所有的i,纳什均衡的思想就是，博弈的理性结局是这,样一种策略组合，其中每个局中人选择的策略都已是对其它局中人所选策略的最优反应，所以，谁也没有积极性去选择其它策略。

因为每一个局中人均不能因为单方面改变自己的策略而获利，于是谁也没有兴趣主动打破这种均衡。

i,i,S,s,iii,iii,*）,u（s*,s*）u（s,s,公式一：

公式二：

博弈论模型性别战（battleofthesexes）,一男一女恋爱，有些业余活动要安排，或者去看足球比赛，或者去看芭蕾舞演出。

男的偏好足球，女的则更喜欢芭蕾舞，但他们都宁愿在一起，不愿分开。

下表给出收益矩阵：

女,男,足球芭蕾,足球2，10，0,芭蕾0，01，2,这个博弈中有两个纳什均衡：

（足球，足球）和（芭蕾，芭蕾）。

就是说，一方去足球场，另一方也会去足球场；类似地，一方去看芭蕾，另一方也会去看芭蕾。

在实际生活中，也许是这一次看足球，下一次看芭蕾，如此循环，形成一种默契。

这在实际生活中是指，两种互补的活动应该配合，尽管配合的方式可能有很多种。

博弈论模型性别战（battleofthesexes）,比如，两家工厂生产的产品可能是互补的，一家为另一家提供零配件，这里有一个标准的选择问题，由于种种原因，很可能在产品标准的选择上，生产成品的厂家与生产零配件的厂家之间有冲突。

这就需要相互妥协，但妥协的结果有两种可能，或者是生产零配件的厂家适应生产成品的厂家，或者是生产成品的厂家适应于生产零配件的厂家。

性别战的例子中有两个纳什均衡，那么，究竟那一个纳什均衡会实际发生？

我们不知道。

这里还有一个先动优势（first-moveradvantage），比如说，若男的先买票，两人就会出现在足球场，若女的买票，两人就会出现在芭蕾舞剧院。

在囚徒博弈中，我们隐含地假定双方下弈者是同时实施其策略的。

性别战中的先动优势表明了另一种类型的博弈，称为顺序性博弈（sequentialgame）。

在顺序性博弈中，有一名下弈者先博弈行动，然后另一名下弈者要做出反应。

先下弈者有先动优势。

性别战的例子也有很多应用。

企业进入新的市场就是一种顺序性博弈。

新企业首先决定是否进入，然后现有企业决定是不管它，还是阻止它的进入。

博弈论模型优超解,如果一个局中人在任何情况下从某种策略中得到的收益均大于从其它策略中得到的收益，那么对他而言，这个策略称为优超策略或支配性策略（dominantstrategy）。

其它的策略称为被优超策略或被支配策略（dominatedstrategy）。

在囚徒博弈中，对囚徒A来说，“抵赖”被“坦白”优超，对囚徒B也同样，所以，（坦白，坦白）就是一个优超策略均衡。

在这个例子中，优超策略均衡也就是纳什均衡。

当有一名局中人具有优超策略时，博弈总会有一个纳什均衡，因为当该局中人采取优超策略时，另一局中人就会据此做出自己的最优反应。

但纳什均衡不一定是优超策略均衡。

在市场进入阻挠博弈中，在位者有一个优超解“默许”，进入者对默许的最优反应是“进入”，所以，（进入，默许）是一个纳什均衡。

大多数的博弈局势中利用优超概念只能够对博弈问题进行简化，得不到对策解。

博弈论模型优超解,局中人B,u,v,局中人A,xyz,3，65，16，0,7，18，06，2,对于局中人A来说，策略x被y优超了，所以，可以删去x使问题简化为：

局中人B局中人A但是，对这个简化了的博弈，我们仍然无法找到对策解。

有些博弈问题既没有优超均衡解，也没有纳什均衡解。

目,录,博弈论概述,一,博弈论模型,二,博弈论应用,三,博弈论成果,四,囚徒困境在经济学上的应用,古诺均衡的含义：

古诺均衡是指存在这样一对产量组合（q1*,q2*）,使得：

假定企业2的产量为q2*时，q1*是企业1的最优产量；假定企业1的产量为q1*时，q2*是企业2的最优产量。

按照纳什均衡的定义，古诺均衡（q1*,q2*）也就是博弈论中的纳什均衡。

纳什均衡只说明博弈的稳定性结局。

纳什均衡（坦白，坦白）表明两人共同的集体选择，但是这个选择是否是理性的？

理,性选择是指使收益最大化的选择。

如果两人都抵赖，各判刑1年，显然比坦白各判刑8年好。

所以，纳什均衡（坦白，坦白）并不是一个集体理性选择。

但它却是个人理性选择的一个组合。

囚徒困境正是反映了一个深刻的问题，这就是个人理性与集体理性的矛盾。

应用,企业案例,囚徒案例,囚徒困境在经济学上的应用,一个非集体理性选择，如纳什均衡（坦白，坦白），用经济学术语说，其中存在“帕累托改进”的机会。

所谓帕累托改进就是说，它在不使另一部分人的境况变得更坏的前提下，至少能改进一部分人的境况。

如果不存在帕累托改进的情况，便达到“帕累托最优”。

这里，如果两人都选择抵赖，两人的境况都有所改进。

所以，（坦白，坦白）不是帕累托最优。

集体的理性选择应该是大家都抵赖。

但是这个帕累托改进办不到。

为什么？

因为我们已经验证，（坦白，坦白）这个策略组合正是一个纳什均衡。

在一个纳什均衡中，不会有人主动去打破这种格局的。

那么，两个囚徒事先订好攻守同盟，两人都采取抵赖的策略，不是可以改善两人的境遇吗？

但问题是，这个攻守同盟有没有意义？

没有。

原因在于（抵赖，抵赖）这个策略组合不是一个纳什均衡，没有人有积极性去遵守这个协议。

一般地，假设博弈中的每个局中人事先达成一项协议，规定了各自的行为规则。

如果局中人会自觉遵守这个协议，等于说这个协议构成了一个纳什均衡：

给定别人遵守协议的情况下，自己的最好选择就是也遵守协议。

相反，一个协议不构成纳什均衡时，它就不可能自动实施，因为至少有一个局中人会违背这个协议。

所以，不满足纳什均衡要求的协议是没有意义的。

以上的分析告诉我们，用经济学的观点来看，只有由满足个人理性选择的策略组成的集合才是均衡的，或者说只有纳什均衡才是稳定的。

纳什均衡在经济学上的应用,企业1最优反应是多做广告，企业2最优反应也是多做广告，因此（多做广告,多做广告）是一个纳什均衡。

这个纳什均衡的结果是大量资源消耗在广告上。

企业竞争而产生的广告资源浪费也是典型例子。

如两家寡头竞争，经理们可选择策略是“多做广告”和“少做广告”，各种策略组合的盈利矩阵如下表。

企业2,企业1,少做广告多做广告,少做广告30，3040，10,多做广告10，4020，20,纳什均衡在经济学上的应用,纳什均衡概念的局限性在于，在博弈中有可能纳什均衡不是唯一的。

例：

两家寡头价格竞争，经理可选择的策略是价格不变或涨价，收益矩阵如下所示：

企业2,价格不变,涨价,企业1,价格不变,涨价,10，10-20，30,100，-30140，35,结果发现纳什均衡有两个：

（价格不变，价格不变）、（涨价，涨价）。

博弈中的实际结果取决于首先采取什么行动。

如果先前的情况是价格不变，那么这一博弈的预期结果就是价格不变。

另外，对有的博弈来说，也可能不存在纳什均衡。

性别战在经济学上的应用,设想有一家垄断企业已在市场上（称为“在位者”），另一家新企业虎视眈眈想进入（称为“进入者”）。

在位者想保持自己的垄断地位，所以就要阻挠进入者的进入。

在这个博弈中，进入者有两种策略可以选择：

进入还是不进入；在位者也有两种策略：

默许还是斗争。

各种策略组合的收益矩阵如下表：

在位者,进入者,博弈也有两个纳什均衡，即（进入，默许），（不进入，斗争），相应的收益为（40,50）,（0,300）。

就是说如果新企业首先进入，在位者的最优反应是默许；类似地，如果在位者默许，新企业的最优策略是进入。

尽管在新企业不进入时，默许和斗争对在位者是一样的效果，但在在位者选择斗争时，新企业的最优选择是不进入，所以，（不进入，斗争）是一个纳什均衡，而（不进入，默许）不是纳什均衡。

优超解在经济学上的应用,这个博弈中有两个纳什均衡：

一家推出新产品，一家无新产品。

推出新产品的企业赢利为10，无新产品的企业赢利为-5。

究竟是企业1还是企业2赢利，要看是哪一家企业首先行动。

假定企业1具有较高的研究和开发优势，率先在市场上推出新产品，那么企业2的最佳反应就是不跟进，因为跟进的损失是7，不跟进的损失只有5。

一家企业率先推出一种新产品，其它企业跟进也是一种顺序性博弈。

把新产品率先推向市场的先动企业的成功可能性要大一些，跟进者面临的困难是消费者对先动企业的品牌有了一定的忠诚度，并在头脑中有了先动企业的形象；而且，如果消费者在学习使用先动企业的新产品时花费了学习时间，往往不愿意再花时间或改动设备去使用另一家企业的类似产品。

文字处理和数据库软件就是很好的例子。

对一种程序或一种输入方法已很熟练者，一般不愿意更换，除非后者有很多优点。

下表是两个竞争企业是否推出新产品的利益矩阵：

企业2,企业1,无新产品推出新产品,无新产品2，210，-5,推出新产品-5，10-7，-7,目,录,博弈论概述,一,博弈论模型,二,博弈论应用,三,博弈论成果,四,烟草商与囚徒困境烟草商为何不反对禁止烟草广告？

因为这个禁令使他们从“囚徒困境”中解放了出来。

烟草行业同样竞争激烈，为了争夺市场，各大烟草公司都必须大做广告。

为此，它们每年都要花费巨额广告费用，这无疑降低了它们的利润水平。

也就是说，如果烟草公司都不做广告，它们的利润要更高。

烟草公司本身能否达成都不做广告的协议呢？

不能，因为谁遵守协议，就很可能被对手耍弄。

烟草公司做不到的，国家为它做了：

法律起到了协议的作用，而政府承担了监督的成本。

盗版书的“囚徒困境”,盗版书为什么屡禁不止？

无论怎么打击，盗版书仍是屡禁不绝。

而一个更加奇怪的现象出现了：

一些畅销书刚刚运作完成，还没有印刷完毕，其盗版书竟已经堂而皇之地走上了书摊他们一改过去“跟风”的传统，抢在了正版书的前面。

待正版书印出来后，人们会发现，盗版和正版几乎没有什么差别。

这种情况下，人们只能得出一个结论：

出版部门出了“内奸”。

可是，当这样的现象一次次出现，甚至已经成了某种规律的时候，人们才恍然大悟：

原来，是出版者自己在盗自己的版！

职业盗版者将更为廉价的书推上书摊,这对正规出版者无疑带来巨大的冲击。

正规出版者惟一的反击方式就是和有关部门配合打击盗版。

但是效果并不明显。

为了和职业盗版者对抗，正规出版者便盗印自己的书，这部分盗印的书因为走的是“黑道”，同样免除了各种费用，可以在市场上和盗版书打价格战，同时可以赖掉作者的版税。

陈鲁豫亲手抓盗版书心相约,盗版还珠格格,学生的囚徒困境数十道“减负令”难见效中小学生课业负担不减反增？

数十道“减负令”难见效中小学生课业负担不减反增仅年至19年的3年里，中央就下达减负令次。

减轻中小学生过重负担喊了多年，实际情况却是学生课业负担不但没减下来，反倒呈现出越演越烈之势，致使学生作业做到深夜、节假日仍然上课、业余时间奔忙于各种补习班等。

电信价格竞争的“纳什均衡”,假设此博弈的参加者为电信运营商A与B,一开始的价格都是P0。

A（中国电信）是老牌企业，实力雄厚，占据了绝大多数的市场份额；B（中国联通）则刚成立不久，翅膀还没有长硬，是政府为了打破垄断鼓励竞争而筹建起来的。

正因为B是政府扶植起来鼓励竞争的，所以B得到了政府的一些优惠，其中B的价格可以比P0低10。

这一举动，还不会对A产生多大的影响，因为A的根基实在是太牢固了。

在这样的市场分配下，A、B可以达到平衡，但由于B在价格方面的优势，市场份额逐步壮大，到了一定程度，对A造成了影响。

这时候，A该怎么做？

不妨假定：

A降价而B维持，则A获利15，B损失5，整体获利10；A维持且B也维持，则A获利5，B获利10，整体获利15；A维持而B降价，则A损失10，B获利15，整体获利5；A降价且B也降价，则A损失5，B损失5，整体损失10。

从A角度看，显然降价要比维持好，降价至少可以保证比B好，在概率均等的情况下，A降价的收益为15505505，维持的收益为550105025，为了自身利益的最大化，A就不可避免地选择了降价。

从B角度看，效果也一样，降价同样比维持好，其降价收益为5，维持收益为25，它也同样会选择降价。

在这轮博弈中，A、B都将降价作为策略，因此各损失5，整体损失10，整体收益是最差的。

这就是此博弈最终所出现的纳什均衡。

我们构造的这一电信业价格战博弈模型是典型的囚徒困境现象，各个局部都寻求利益的最大化，而整体利益却不是最优，甚至是最差。

（-10，15）,（15，-5）,（5，10）,联通,电信价格竞争的“纳什均衡”电信,维持,维持,降价,降价,（-5，-5）,爱情故事中的优势策略,欧亨利的小说麦琪的礼物描述的这样一个爱情故事：

新婚不久的MM和GG，很是穷困潦倒。

除了MM那一头美丽的金色长发，GG那一只祖传的金怀表，便再也没有什么东西可以让他们引以为傲了。

虽然生活很累很苦，他们却彼此相爱至深。

每个人关心对方都胜过关心自己。

为了促进对方的利益，他们愿意奉献和牺牲自己的一切。

话说明天就是圣诞节了，小两口都是身无余钱。

为了让爱人过得好一点，每个人还是想悄悄儿准备一份礼物给对方。

GG卖掉了心爱的怀表，买了一套漂亮发卡，去配MM那一头金色长发。

MM剪掉心爱的长发，拿去卖钱，为GG的怀表买了表链和表袋。

爱情故事中的优势策略衡量标准：

个人选择付出还是不付出，只看对方能不能得益，与自己是否受损无关。

1,2,GG,MM,付出,付出,不付出,不不付付出出,3,4,最好结果,次好结果,最坏结果,次坏结果,不难看出，无论对方选择付出，还是选择不付出，MM自己的最佳选择都是付出。

然而这并不是对大家都有利的选择（因为,GG也同样思维,而会选择付出）。

爱情故事中的优势策略衡量标准：

双方的整体收益,付出,不付出,（2，0）,（0，0）,GG,MM,付出,不付出,（1，1）,（0，2）,付出,不付出,2,0,GG,MM,付出,不付出,2,2,因此，大家都选择不付出，明显优于大家都选择付出的境况，这就达到了纳什均衡。

优超解-位置博弈,假设有条完全笔直的公路，连接城市A到城市B之间的交通。

这条公路上每天行驶着大量的车辆，并且车流量在公路上是均匀分布的。

假设麦当劳和肯德基要在这条公路上选择一个位置，招揽来往车辆。

一个合乎逻辑的假定：

通常情况下，车辆总是乐意到距自己最近的快餐店购买食物。

1/4麦当劳,3/4肯德基,1/2,0A,1B,从资源的最佳配置来看，麦当劳、肯德基应该分别开在1/4、3/4处是最优。

在这种均匀散布的情况下，每家快餐店所有拥有的客户从距离最近的城市到两家快餐店的中心为止，因此都拥有1/2的顾客量，同时对于开车的人们总体来说，这种策略的选择，车辆到快餐店的总的距离最短。

优超解-位置博弈,1/4麦当劳,3/4肯德基,1/2,0A,1B,肯德基与麦当劳都是百年老店，自然是精明之至，从经济学上就是具有经济理性，总是希望自己的生意尽可能地红火，至于其他人的生意的好坏则与己无关。

出于这种理性，肯德基肯定会想到：

如果将店铺从3/4点处向左移一点，将从麦当劳抢夺走部分顾客，这对于肯德基单方面来说无疑是一个好主意。

当然麦当劳也不甘示弱，作为一个“理性人”，麦当劳自然也应该想到将自己的店铺从1/4点处向右移动以争取更多的顾客。

不难想象，双方博弈的结果将使他们的店铺设置在l/2中点附近达到纳什均衡状态，甲乙两人相依为邻且相安无事地做起快餐生意。

即使不是两家快餐店，而是很多家快餐店，也很容易分析得到结果：

这些快餐店仍然会在1/2处设店达到纳什均衡。

感谢聆听,

展开阅读全文