博弈论基础:当你的最优策略取决于对手

引子:美团与饿了么的外卖大战

2017年,中国外卖市场正处于激烈竞争:

玩家:

美团外卖(背靠腾讯、美团点评)
饿了么(背靠阿里巴巴)

战场:补贴大战

王兴的困境:

情景1:我们补贴

如果饿了么也补贴 → 双方都烧钱,谁也不赚钱
如果饿了么不补贴 → 我们获得市场份额

情景2:我们不补贴

如果饿了么补贴 → 我们失去市场份额
如果饿了么不补贴 → 双方都盈利,皆大欢喜

关键:我的最优策略取决于饿了么的选择。

博弈矩阵:

	饿了么补贴	饿了么不补贴
美团补贴	双方都亏损(-10, -10)	美团赢(+20, -15)
美团不补贴	美团输(-15, +20)	双方都盈利(+5, +5)

(括号内:美团收益,饿了么收益)

分析:

从美团角度:

如果饿了么补贴 → 我也要补贴(否则输更多)
如果饿了么不补贴 → 我也要补贴(抢市场份额)
结论:无论对手怎么做,我都应该补贴(支配策略)

从饿了么角度:

同样逻辑,也应该补贴

结果:

双方都补贴(纳什均衡)
双方都亏损
但谁也不敢停止(停止 = 输掉市场)

现实(2017-2018):

双方累计补贴:超过200亿元
用户享受低价外卖
双方持续亏损

这就是经典的"囚徒困境":

个人理性导致集体非理性
合作更好,但不合作是均衡

最终结果(2018年):

阿里巴巴收购饿了么
竞争缓和,补贴减少
通过"改变博弈结构"跳出困境

今天,我们将深入探讨博弈论,理解策略互动中的理性决策。

一、什么是博弈论?

1.1 定义

博弈论(Game Theory): 研究理性决策者之间策略互动的数学理论。

核心特征:

多个决策者:至少2个
策略互动:我的收益取决于你的选择
理性假设:每个人都追求自身利益最大化
共同知识:大家都知道规则,也知道对方知道规则

博弈的三要素:

参与者(Players):谁在博弈?
策略(Strategies):每个参与者有哪些选择?
收益(Payoffs):每种策略组合下,各方的收益是什么?

1.2 博弈的分类

按时序:

同时博弈:双方同时决策(如石头剪刀布)
序贯博弈:先后决策(如象棋、投资决策)

按信息:

完全信息:双方知道对方的收益函数
不完全信息:不知道对方真实类型(如拍卖、扑克)

按重复性:

一次性博弈:只玩一次
重复博弈:多次重复

按合作:

非合作博弈:各自为战,不能签订可执行合同
合作博弈:可以形成联盟,共同行动

二、纳什均衡:策略互动的稳定点

2.1 什么是纳什均衡?

纳什均衡(Nash Equilibrium): 一种策略组合,在这个组合下,每个人的策略都是对其他人策略的最优反应,没有人有动机单方面偏离。

约翰·纳什(John Nash, 诺贝尔奖1994):

“在纳什均衡下,给定其他人的策略,我改变策略不会获得更高收益。所以我不会改;其他人也一样。这是一种稳定状态。”

数学定义: 策略组合(s₁*, s₂*, …, sₙ*)是纳什均衡,当且仅当: 对每个参与者i,给定其他人的策略s₋ᵢ*,sᵢ*是i的最优反应。

2.2 寻找纳什均衡的方法

方法1:划线法(适用于2×2博弈)

例子:囚徒困境

两个嫌犯被分开审讯:

	同伙沉默	同伙坦白
我沉默	各判1年(−1, −1)	我判10年,同伙释放(−10, 0)
我坦白	我释放,同伙判10年(0, −10)	各判5年(−5, −5)

步骤:

找最优反应:
- 从我的角度:
  - 如果同伙沉默 → 我坦白更好(0 > -1),在(坦白,沉默)格子下划线
  - 如果同伙坦白 → 我坦白更好(-5 > -10),在(坦白,坦白)格子下划线
- 从同伙角度:
  - 如果我沉默 → 同伙坦白更好,在(沉默,坦白)格子下划线
  - 如果我坦白 → 同伙坦白更好,在(坦白,坦白)格子下划线
找双方都划线的格子:
- (坦白,坦白):双方都划线 → 纳什均衡

结果:

双方都坦白(各判5年)
虽然双方都沉默更好(各判1年)
但这不是均衡(每个人都有动机偏离)

2.3 支配策略

支配策略(Dominant Strategy): 无论对手做什么,这个策略都是最优的。

囚徒困境中:

“坦白"是支配策略(无论对方沉默还是坦白,我坦白都更好)

如果每个人都有支配策略:

纳什均衡很容易找到(各自选支配策略)

但大多数博弈:

没有支配策略
最优策略取决于对方选择

三、经典博弈模型

3.1 囚徒困境:合作困境

结构:

合作对双方都更好
但每个人都有动机背叛
结果:双方都背叛(帕累托次优)

现实案例:

案例1:OPEC的减产协议

背景:

OPEC(石油输出国组织):沙特、伊朗等产油国
目标:维持高油价

博弈:

	其他国减产	其他国不减产
沙特减产	油价高,各国获益(+10, +10)	沙特损失,他国获益(-5, +15)
沙特不减产	沙特获益,他国损失(+15, -5)	油价低,各国损失(0, 0)

分析:

“不减产"是支配策略
纳什均衡:(不减产,不减产)
结果:油价崩盘,大家都不赚钱

现实(2014-2016, 2020):

OPEC协议多次破裂
成员国偷偷增产
油价暴跌

如何解决囚徒困境?

方案1:重复博弈

如果长期合作,可以采用"以牙还牙"策略
对方背叛 → 下次我也背叛(惩罚)
长期看,合作更优

方案2:改变收益结构

签订有约束力的合同
背叛者受到外部惩罚

方案3:减少参与者

参与者越少,合作越容易(监督成本低)
案例:2016年OPEC+俄罗斯,形成更小圈子,减产成功

3.2 智猪博弈:不对称博弈

场景: 一个猪圈,一大一小两头猪。一端有按钮(踩了会在另一端出食物),另一端有食槽。

规则:

踩按钮需要消耗能量
食物需要时间跑过去吃

收益:

如果大猪踩,小猪等:大猪跑过去,食物被小猪吃了一半,大猪获4单位(10食物 - 2成本 - 4被吃),小猪获4单位
如果小猪踩,大猪等:小猪跑过去,食物全被大猪吃光,小猪获-1单位(0食物 - 1成本),大猪获10单位
如果两者都踩:大猪先到,小猪获1单位(2食物 - 1成本),大猪获5单位(8食物 - 2成本 - 1被吃)
如果都不踩:都获0

博弈矩阵:

	大猪等待	大猪踩
小猪等待	(0, 0)	(4, 4)
小猪踩	(-1, 10)	(1, 5)

分析:

从小猪角度:

如果大猪等 → 小猪等更好(0 > -1)
如果大猪踩 → 小猪等更好(4 > 1)
结论:无论大猪怎么做,小猪等待是支配策略

从大猪角度:

已知小猪会等待
大猪踩(获4) vs 大猪等(获0)
结论:大猪应该踩

纳什均衡:(小猪等,大猪踩)

启示:

“在不对称博弈中,弱者可以搭便车。强者虽然付出更多,但仍比不行动好,所以会行动。”

现实应用:

案例:开源软件

大公司(如Google、Facebook):投入资源开发开源工具(TensorFlow、React)
小公司:免费使用

为什么大公司愿意?

即使小公司搭便车,大公司仍然获益:
- 建立标准(生态主导权)
- 吸引人才
- 社区贡献(改进工具)
收益 > 成本,所以行动

案例:中国对全球气候治理的贡献

背景:

发达国家(大猪):历史排放多,责任大
发展中国家(小猪):发展需求大

智猪博弈视角:

如果只有发达国家减排,发展中国家搭便车 → 发达国家仍有收益(避免气候灾难)
发展中国家:“你们先减,我们等等”

但中国的选择:

主动承诺碳中和(2060年)
大规模投资可再生能源

为什么?

长期战略:抢占绿色技术制高点
国内收益:减少污染,改善环境
国际影响力提升

启示:

“智猪博弈告诉我们:即使弱者搭便车,强者行动仍可能是最优策略,只要收益足够大。”

3.3 协调博弈:多重均衡

场景: 两个朋友约见面,但忘记约地点。

	朋友去咖啡馆	朋友去图书馆
我去咖啡馆	见面(+10, +10)	见不到(0, 0)
我去图书馆	见不到(0, 0)	见面(+10, +10)

纳什均衡:

(咖啡馆,咖啡馆)
(图书馆,图书馆)

问题:

有两个均衡,去哪个?
需要协调

解决方案:

沟通:事先约定
惯例/文化:“我们通常去咖啡馆”
焦点(Focal Point):某个选项更显眼(如"星巴克"比"某图书馆"更具体)

现实案例:

案例1:技术标准之争

VHS vs Betamax(1970年代):

索尼的Betamax:技术更好
JVC的VHS:兼容性更好,更多厂商支持

结果:

VHS胜出(形成协调均衡)
更多人买VHS → 更多内容发行VHS版 → 更多人买VHS
网络效应:大家都选一个标准,价值最大

案例2:中国的移动支付标准

微信支付 vs 支付宝:

本质上是协调博弈:
- 商家接入哪个?
- 用户使用哪个?
- 大家都用同一个,网络效应最大

结果:

双寡头均衡:两个都广泛使用
形成两个生态

为什么不是"赢家通吃”?

腾讯的社交网络 vs 阿里的电商网络
分别有自己的"焦点”

启示:

“协调博弈的关键:形成共同预期。先行者优势、网络效应、品牌认知,都有助于形成’焦点均衡’。”

3.4 胆小鬼博弈:边缘策略

场景: 两辆车相向而行,谁先转向谁就是"胆小鬼"。

	对方转向	对方直行
我转向	我输,对方赢(-1, +1)	避免相撞(-1, +1)
我直行	我赢,对方输(+1, -1)	相撞,双亡(-100, -100)

纳什均衡:

(我转,对方直行)
(我直行,对方转)

关键:

谁先承诺"我绝不转向",谁就赢
承诺的可信度至关重要

现实案例:

案例:古巴导弹危机(1962)

背景:

苏联在古巴部署导弹
美国要求撤除,否则军事行动
苏联拒绝

博弈:

	苏联撤导弹	苏联不撤
美国妥协	美国输,苏联赢	苏联导弹留在古巴
美国动武	苏联撤导弹	核战争,双方毁灭

过程:

肯尼迪(美国):封锁古巴,摆出动武姿态
赫鲁晓夫(苏联):威胁报复

关键时刻:

双方都在边缘试探
最终:苏联妥协,撤走导弹
但美国秘密承诺:撤走土耳其的导弹(给苏联面子)

为什么苏联让步?

美国的承诺更可信(封锁已实施,军队已动员)
苏联评估:美国可能真的开战
核战代价太大

启示:

“胆小鬼博弈的关键:让对方相信你’不会转向’。方法:提前承诺、消除退路、展示决心。但要小心:双方都不转向,会导致灾难。”

现代案例:企业价格战的边缘策略

案例:滴滴 vs Uber中国(2014-2016)

博弈:

双方疯狂补贴
谁先退出/妥协,谁就输掉市场

滴滴的策略:

多轮融资,展示"资金充足,长期作战"
宣称:“补贴可以持续3年”

Uber的计算:

中国市场亏损巨大(每年10亿美元+)
全球业务压力大
评估:可能耗不过滴滴

结果(2016):

Uber中国卖给滴滴
滴滴"承诺更可信",Uber让步

启示:

“在边缘策略中,资源、决心、承诺的可信度,决定了谁笑到最后。但过度竞争对双方都是灾难,合并/收购往往是理性出路。”

四、序贯博弈与博弈树

4.1 什么是序贯博弈?

序贯博弈:参与者按顺序行动,后行动者可以观察到前行动者的选择。

分析工具:博弈树

案例:市场进入博弈

场景:

市场上有一个在位企业(Incumbent)
一个潜在进入者(Entrant)考虑是否进入
在位企业决定:默许 or 价格战

博弈树:

                        进入者
                       /     \
                    进入      不进入
                    /           \
              在位企业          (0, 10)
               /    \
           默许    价格战
           /          \
      (5, 5)      (-2, -2)

(括号内:进入者收益, 在位企业收益)

分析:逆向归纳法

第二步(在位企业的决策):

如果进入者已进入:
- 默许 → 获5
- 价格战 → 获-2
- 理性选择:默许

第一步(进入者的决策):

预测在位企业会默许
进入 → 获5
不进入 → 获0
理性选择:进入

子博弈完美纳什均衡(Subgame Perfect Nash Equilibrium, SPNE):

(进入, 默许)

关键洞察:

“在位企业的’价格战威胁’不可信。因为一旦进入发生,价格战对在位企业也不利,所以它不会执行。进入者看穿这一点,所以会进入。”

如何让威胁可信?

策略1:沉没成本承诺

在位企业大幅扩大产能(沉没成本)
一旦进入,边际成本很低,价格战对在位企业有利
威胁变得可信

策略2:声誉

在位企业在其他市场有"必打价格战"的声誉
为了维护声誉,会执行威胁

案例:沃尔玛的进入威慑

沃尔玛进入小城镇:

当地小超市:默许 or 价格战?

沃尔玛的优势:

规模经济,成本极低
打价格战对沃尔玛有利(小超市会亏损)
威胁可信

结果:

小超市预期:“如果竞争,我会输”
很多小超市直接关闭或卖掉

启示:

“序贯博弈中,承诺和威胁的可信度至关重要。要让承诺/威胁可信,需要:沉没成本、声誉、改变收益结构。”

五、重复博弈:合作的可能

5.1 一次性 vs 重复博弈

一次性囚徒困境:

纳什均衡:(背叛, 背叛)
合作不稳定

无限次重复囚徒困境:

合作可以成为均衡(条件:足够重视未来)

关键:未来互动的影子(Shadow of the Future)

5.2 以牙还牙策略

Tit-for-Tat策略(罗伯特·阿克塞尔罗德):

第一次:合作
之后:对方上次怎么做,我这次怎么做
- 对方合作 → 我合作
- 对方背叛 → 我背叛

为什么有效?

阿克塞尔罗德的计算机竞赛(1980):

邀请博弈论专家提交策略
模拟重复囚徒困境
结果:Tit-for-Tat赢得竞赛

Tit-for-Tat的优点:

善良(Nice):首次合作,不先背叛
报复(Retaliating):对方背叛,立即惩罚
宽容(Forgiving):对方回归合作,立即合作
清晰(Clear):策略简单,对方容易理解

效果:

鼓励合作(善良)
阻止背叛(报复)
允许恢复(宽容)

现实案例:

案例:国际贸易中的互惠

WTO的贸易规则:

本质上是Tit-for-Tat:
- 你降低关税 → 我降低关税(合作)
- 你提高关税 → 我也提高(报复)

效果:

全球关税持续下降(1950年代:平均40% → 2000年代:平均5%)
贸易额大幅增长

案例:企业联盟的稳定

航空公司联盟(星空联盟、天合联盟、寰宇一家):

成员间合作(代码共享、里程共享)
如果某成员违规(如挖墙脚) → 其他成员报复(取消合作)
Tit-for-Tat维持合作

条件:

重复交互:长期关系
互惠可能:双方都能帮助/伤害对方
信息透明:能观察到对方行为
重视未来:不过度短视

启示:

“重复博弈改变了激励结构。如果双方长期互动且重视未来,合作可以成为稳定均衡。Tit-for-Tat是维持合作的有效策略。”

六、实践框架:博弈思维做决策

6.1 博弈分析清单

遇到策略互动情境时,使用这个框架:

第一步:识别博弈结构

谁是参与者?(我、竞争对手、合作伙伴、政府?)
每个参与者有哪些策略选择?
收益结构是什么?(每种策略组合下,各方得失)

第二步:判断博弈类型

同时博弈 or 序贯博弈?
一次性 or 重复博弈?
零和 or 非零和?
对称 or 不对称?

第三步:寻找均衡

是否有支配策略?
纳什均衡是什么?
是否有多重均衡?(如协调博弈)
均衡是否帕累托最优?

第四步:评估可信度

我的承诺/威胁可信吗?
对手的承诺/威胁可信吗?
如何增强可信度?(沉没成本、声誉、合同)

第五步:考虑动态

如果重复博弈,策略如何调整?
能否建立合作?(Tit-for-Tat)
如何改变博弈结构?(合并、结盟、改变规则)

6.2 博弈思维的实战应用

场景1:价格竞争

问题:

竞争对手降价,我是否跟进?

博弈分析:

识别博弈:
- 参与者:我、竞争对手
- 策略:降价 or 维持价格
收益矩阵:

	对手降价	对手维持
我降价	双方都亏损	我获市场份额
我维持	我失去市场份额	双方都盈利

均衡:
- 类似囚徒困境:双方都降价
如何跳出?
- 短期:如果必须跟进,跟进(否则输更多)
- 长期:寻求差异化(避免纯价格竞争)
- 改变博弈:合并、结盟、或瞄准不同细分市场

场景2:合作谈判

问题:

与供应商谈判,如何获得更好价格?

博弈分析:

识别BATNA(最佳替代方案):
- 我的BATNA:其他供应商
- 供应商的BATNA:其他客户
谈判力量:
- 如果我有更好的BATNA → 我更强
- 如果供应商有更好的BATNA → 供应商更强
策略:
- 提升自己的BATNA(寻找更多备选供应商)
- 降低对方的BATNA(长期合同、排他性)
- 创造价值(双赢方案,扩大蛋糕)

场景3:团队合作

问题:

团队项目,如何防止搭便车?

博弈分析:

识别博弈:公共品博弈(类似智猪博弈)
- 每个人都想搭便车(别人努力,我偷懒)
解决方案:
- 透明化:每个人的贡献可见
- 重复博弈:长期团队,声誉重要
- 激励设计:贡献与回报挂钩
- 惩罚机制:搭便车者受惩罚

七、总结:博弈论的智慧

核心原则

策略互动思维:
- 我的最优策略取决于对方的选择
- 要"站在对方角度思考"(换位思维)
纳什均衡:
- 稳定状态:每个人的策略都是对他人策略的最优反应
- 但均衡未必是最优(如囚徒困境)
承诺与威胁的可信度:
- 不可信的威胁没有用
- 要让承诺/威胁可信:沉没成本、声誉、改变收益结构
重复博弈改变激励:
- 一次性博弈:背叛占优
- 重复博弈:合作可能成为均衡
- Tit-for-Tat是有效策略
先行优势与后发优势:
- 先行:可以承诺,影响对方预期
- 后发:可以观察,针对性反应
- 哪个更好?取决于具体博弈结构
改变博弈结构:
- 陷入囚徒困境?改变规则
- 方法:合并、结盟、建立信任、改变收益

关键洞察

约翰·纳什的洞察: “在策略互动中,存在一种稳定均衡:每个人的策略都是对他人策略的最优反应。这是预测行为的强大工具。”

托马斯·谢林的洞察: “博弈论不仅是数学,更是艺术。如何让承诺可信、如何形成焦点、如何边缘试探,是博弈的精髓。”

罗伯特·阿克塞尔罗德的洞察: “合作不需要利他主义。在重复博弈中,自利的个体也可以合作。Tit-for-Tat证明:善良、报复、宽容、清晰,是合作的基础。”

现代启示: “商业竞争、国际关系、团队合作,本质上都是博弈。理解博弈结构,就能做出更明智的策略选择。”

实践建议

对企业管理者:

竞争决策:不要只看自己,要预测对手反应
避免囚徒困境:寻求差异化,避免红海竞争
建立可信承诺:沉没成本、品牌、长期合同
利用重复博弈:与客户、供应商建立长期关系

对创业者:

进入市场:评估在位企业的反应(会打价格战吗?威胁可信吗?)
竞争策略:避开正面竞争(智猪博弈:找大猪不愿做的事)
合作谈判:提升自己的BATNA,增强谈判力

对个人:

职场合作:重复博弈思维,维护声誉
谈判:了解双方的BATNA,寻找双赢
避免零和思维:很多博弈是非零和,寻找合作空间

对政策制定者:

国际关系:建立互惠机制(Tit-for-Tat)
反垄断:防止企业合谋(囚徒困境对消费者有利)
环境治理:建立长期激励,促进合作

八、延伸阅读

入门级

《策略思维》 - 阿维纳什·迪克西特、巴里·奈尔伯夫
- 博弈论入门经典,案例丰富
《博弈论与经济行为》 - 冯·诺依曼、摩根斯坦
- 博弈论奠基之作(较难)

进阶级

《策略与冲突》 - 托马斯·谢林
- 诺奖得主,博弈论应用
《合作的进化》 - 罗伯特·阿克塞尔罗德
- Tit-for-Tat与重复博弈
《博弈论》 - 德鲁·弗登伯格、让·梯若尔
- 研究生教材,系统全面

实战级

《对抗性博弈》 - 亚当·布兰登伯格、巴里·奈尔伯夫
- 商业应用,竞合战略
《谈判力》 - 罗杰·费希尔、威廉·尤里
- 谈判博弈实战
《自私的基因》 - 理查德·道金斯
- 进化博弈论

学术级

《博弈论教程》 - Martin Osborne
- 严格数学推导
《高级微观经济学》 - Mas-Colell等
- 第7-9章:博弈论

下一步

明天(03-21),我们将进行第三周总结:经济学思维的完整框架:

整合本周所学:理性选择、激励、价格、交易成本、信息不对称、博弈论
构建经济学思维的决策框架
案例综合应用

本周回顾:

03-15:理性选择与边际分析
03-16:激励机制设计
03-17:市场与价格信号
03-18:交易成本与科斯定理
03-19:信息不对称与逆向选择
03-20:博弈论基础

整合目标:

“将这些工具整合为一个完整的思维系统,可以分析任何经济决策。”

即将进入第三周的总结提升!

思考题:

在你的工作中,有哪些策略互动情境?如何用博弈论分析?
你曾陷入"囚徒困境"吗?如何跳出?
与合作伙伴/供应商的关系,是一次性还是重复博弈?如何利用?
你的承诺/威胁在谈判中可信吗?如何增强可信度?

期待你的思考!

引子:美团与饿了么的外卖大战#

一、什么是博弈论?#

1.1 定义#

1.2 博弈的分类#

二、纳什均衡:策略互动的稳定点#

2.1 什么是纳什均衡?#

2.2 寻找纳什均衡的方法#

2.3 支配策略#

三、经典博弈模型#

3.1 囚徒困境:合作困境#

3.2 智猪博弈:不对称博弈#

3.3 协调博弈:多重均衡#

3.4 胆小鬼博弈:边缘策略#

四、序贯博弈与博弈树#

4.1 什么是序贯博弈?#

五、重复博弈:合作的可能#

5.1 一次性 vs 重复博弈#

5.2 以牙还牙策略#

六、实践框架:博弈思维做决策#

6.1 博弈分析清单#

6.2 博弈思维的实战应用#

七、总结:博弈论的智慧#

核心原则#

关键洞察#

实践建议#

八、延伸阅读#

入门级#

进阶级#

实战级#

学术级#

下一步#

引子:美团与饿了么的外卖大战

一、什么是博弈论?

1.1 定义

1.2 博弈的分类

二、纳什均衡:策略互动的稳定点

2.1 什么是纳什均衡?

2.2 寻找纳什均衡的方法

2.3 支配策略

三、经典博弈模型

3.1 囚徒困境:合作困境

3.2 智猪博弈:不对称博弈

3.3 协调博弈:多重均衡

3.4 胆小鬼博弈:边缘策略

四、序贯博弈与博弈树

4.1 什么是序贯博弈?

五、重复博弈:合作的可能

5.1 一次性 vs 重复博弈

5.2 以牙还牙策略

六、实践框架:博弈思维做决策

6.1 博弈分析清单

6.2 博弈思维的实战应用

七、总结:博弈论的智慧

核心原则

关键洞察

实践建议

八、延伸阅读

入门级

进阶级

实战级

学术级

下一步