引子:美团与饿了么的外卖大战
2017年,中国外卖市场正处于激烈竞争:
玩家:
- 美团外卖(背靠腾讯、美团点评)
- 饿了么(背靠阿里巴巴)
战场:补贴大战
王兴的困境:
情景1:我们补贴
- 如果饿了么也补贴 → 双方都烧钱,谁也不赚钱
- 如果饿了么不补贴 → 我们获得市场份额
情景2:我们不补贴
- 如果饿了么补贴 → 我们失去市场份额
- 如果饿了么不补贴 → 双方都盈利,皆大欢喜
关键:我的最优策略取决于饿了么的选择。
博弈矩阵:
| 饿了么补贴 | 饿了么不补贴 | |
|---|---|---|
| 美团补贴 | 双方都亏损(-10, -10) | 美团赢(+20, -15) |
| 美团不补贴 | 美团输(-15, +20) | 双方都盈利(+5, +5) |
(括号内:美团收益,饿了么收益)
分析:
从美团角度:
- 如果饿了么补贴 → 我也要补贴(否则输更多)
- 如果饿了么不补贴 → 我也要补贴(抢市场份额)
- 结论:无论对手怎么做,我都应该补贴(支配策略)
从饿了么角度:
- 同样逻辑,也应该补贴
结果:
- 双方都补贴(纳什均衡)
- 双方都亏损
- 但谁也不敢停止(停止 = 输掉市场)
现实(2017-2018):
- 双方累计补贴:超过200亿元
- 用户享受低价外卖
- 双方持续亏损
这就是经典的"囚徒困境":
- 个人理性导致集体非理性
- 合作更好,但不合作是均衡
最终结果(2018年):
- 阿里巴巴收购饿了么
- 竞争缓和,补贴减少
- 通过"改变博弈结构"跳出困境
今天,我们将深入探讨博弈论,理解策略互动中的理性决策。
一、什么是博弈论?
1.1 定义
博弈论(Game Theory): 研究理性决策者之间策略互动的数学理论。
核心特征:
- 多个决策者:至少2个
- 策略互动:我的收益取决于你的选择
- 理性假设:每个人都追求自身利益最大化
- 共同知识:大家都知道规则,也知道对方知道规则
博弈的三要素:
- 参与者(Players):谁在博弈?
- 策略(Strategies):每个参与者有哪些选择?
- 收益(Payoffs):每种策略组合下,各方的收益是什么?
1.2 博弈的分类
按时序:
- 同时博弈:双方同时决策(如石头剪刀布)
- 序贯博弈:先后决策(如象棋、投资决策)
按信息:
- 完全信息:双方知道对方的收益函数
- 不完全信息:不知道对方真实类型(如拍卖、扑克)
按重复性:
- 一次性博弈:只玩一次
- 重复博弈:多次重复
按合作:
- 非合作博弈:各自为战,不能签订可执行合同
- 合作博弈:可以形成联盟,共同行动
二、纳什均衡:策略互动的稳定点
2.1 什么是纳什均衡?
纳什均衡(Nash Equilibrium): 一种策略组合,在这个组合下,每个人的策略都是对其他人策略的最优反应,没有人有动机单方面偏离。
约翰·纳什(John Nash, 诺贝尔奖1994):
“在纳什均衡下,给定其他人的策略,我改变策略不会获得更高收益。所以我不会改;其他人也一样。这是一种稳定状态。”
数学定义: 策略组合(s₁*, s₂*, …, sₙ*)是纳什均衡,当且仅当: 对每个参与者i,给定其他人的策略s₋ᵢ*,sᵢ*是i的最优反应。
2.2 寻找纳什均衡的方法
方法1:划线法(适用于2×2博弈)
例子:囚徒困境
两个嫌犯被分开审讯:
| 同伙沉默 | 同伙坦白 | |
|---|---|---|
| 我沉默 | 各判1年(−1, −1) | 我判10年,同伙释放(−10, 0) |
| 我坦白 | 我释放,同伙判10年(0, −10) | 各判5年(−5, −5) |
步骤:
找最优反应:
从我的角度:
- 如果同伙沉默 → 我坦白更好(0 > -1),在(坦白,沉默)格子下划线
- 如果同伙坦白 → 我坦白更好(-5 > -10),在(坦白,坦白)格子下划线
从同伙角度:
- 如果我沉默 → 同伙坦白更好,在(沉默,坦白)格子下划线
- 如果我坦白 → 同伙坦白更好,在(坦白,坦白)格子下划线
找双方都划线的格子:
- (坦白,坦白):双方都划线 → 纳什均衡
结果:
- 双方都坦白(各判5年)
- 虽然双方都沉默更好(各判1年)
- 但这不是均衡(每个人都有动机偏离)
2.3 支配策略
支配策略(Dominant Strategy): 无论对手做什么,这个策略都是最优的。
囚徒困境中:
- “坦白"是支配策略(无论对方沉默还是坦白,我坦白都更好)
如果每个人都有支配策略:
- 纳什均衡很容易找到(各自选支配策略)
但大多数博弈:
- 没有支配策略
- 最优策略取决于对方选择
三、经典博弈模型
3.1 囚徒困境:合作困境
结构:
- 合作对双方都更好
- 但每个人都有动机背叛
- 结果:双方都背叛(帕累托次优)
现实案例:
案例1:OPEC的减产协议
背景:
- OPEC(石油输出国组织):沙特、伊朗等产油国
- 目标:维持高油价
博弈:
| 其他国减产 | 其他国不减产 | |
|---|---|---|
| 沙特减产 | 油价高,各国获益(+10, +10) | 沙特损失,他国获益(-5, +15) |
| 沙特不减产 | 沙特获益,他国损失(+15, -5) | 油价低,各国损失(0, 0) |
分析:
- “不减产"是支配策略
- 纳什均衡:(不减产,不减产)
- 结果:油价崩盘,大家都不赚钱
现实(2014-2016, 2020):
- OPEC协议多次破裂
- 成员国偷偷增产
- 油价暴跌
如何解决囚徒困境?
方案1:重复博弈
- 如果长期合作,可以采用"以牙还牙"策略
- 对方背叛 → 下次我也背叛(惩罚)
- 长期看,合作更优
方案2:改变收益结构
- 签订有约束力的合同
- 背叛者受到外部惩罚
方案3:减少参与者
- 参与者越少,合作越容易(监督成本低)
- 案例:2016年OPEC+俄罗斯,形成更小圈子,减产成功
3.2 智猪博弈:不对称博弈
场景: 一个猪圈,一大一小两头猪。一端有按钮(踩了会在另一端出食物),另一端有食槽。
规则:
- 踩按钮需要消耗能量
- 食物需要时间跑过去吃
收益:
- 如果大猪踩,小猪等:大猪跑过去,食物被小猪吃了一半,大猪获4单位(10食物 - 2成本 - 4被吃),小猪获4单位
- 如果小猪踩,大猪等:小猪跑过去,食物全被大猪吃光,小猪获-1单位(0食物 - 1成本),大猪获10单位
- 如果两者都踩:大猪先到,小猪获1单位(2食物 - 1成本),大猪获5单位(8食物 - 2成本 - 1被吃)
- 如果都不踩:都获0
博弈矩阵:
| 大猪等待 | 大猪踩 | |
|---|---|---|
| 小猪等待 | (0, 0) | (4, 4) |
| 小猪踩 | (-1, 10) | (1, 5) |
分析:
从小猪角度:
- 如果大猪等 → 小猪等更好(0 > -1)
- 如果大猪踩 → 小猪等更好(4 > 1)
- 结论:无论大猪怎么做,小猪等待是支配策略
从大猪角度:
- 已知小猪会等待
- 大猪踩(获4) vs 大猪等(获0)
- 结论:大猪应该踩
纳什均衡:(小猪等,大猪踩)
启示:
“在不对称博弈中,弱者可以搭便车。强者虽然付出更多,但仍比不行动好,所以会行动。”
现实应用:
案例:开源软件
- 大公司(如Google、Facebook):投入资源开发开源工具(TensorFlow、React)
- 小公司:免费使用
为什么大公司愿意?
- 即使小公司搭便车,大公司仍然获益:
- 建立标准(生态主导权)
- 吸引人才
- 社区贡献(改进工具)
- 收益 > 成本,所以行动
案例:中国对全球气候治理的贡献
背景:
- 发达国家(大猪):历史排放多,责任大
- 发展中国家(小猪):发展需求大
智猪博弈视角:
- 如果只有发达国家减排,发展中国家搭便车 → 发达国家仍有收益(避免气候灾难)
- 发展中国家:“你们先减,我们等等”
但中国的选择:
- 主动承诺碳中和(2060年)
- 大规模投资可再生能源
为什么?
- 长期战略:抢占绿色技术制高点
- 国内收益:减少污染,改善环境
- 国际影响力提升
启示:
“智猪博弈告诉我们:即使弱者搭便车,强者行动仍可能是最优策略,只要收益足够大。”
3.3 协调博弈:多重均衡
场景: 两个朋友约见面,但忘记约地点。
| 朋友去咖啡馆 | 朋友去图书馆 | |
|---|---|---|
| 我去咖啡馆 | 见面(+10, +10) | 见不到(0, 0) |
| 我去图书馆 | 见不到(0, 0) | 见面(+10, +10) |
纳什均衡:
- (咖啡馆,咖啡馆)
- (图书馆,图书馆)
问题:
- 有两个均衡,去哪个?
- 需要协调
解决方案:
- 沟通:事先约定
- 惯例/文化:“我们通常去咖啡馆”
- 焦点(Focal Point):某个选项更显眼(如"星巴克"比"某图书馆"更具体)
现实案例:
案例1:技术标准之争
VHS vs Betamax(1970年代):
- 索尼的Betamax:技术更好
- JVC的VHS:兼容性更好,更多厂商支持
结果:
- VHS胜出(形成协调均衡)
- 更多人买VHS → 更多内容发行VHS版 → 更多人买VHS
- 网络效应:大家都选一个标准,价值最大
案例2:中国的移动支付标准
微信支付 vs 支付宝:
- 本质上是协调博弈:
- 商家接入哪个?
- 用户使用哪个?
- 大家都用同一个,网络效应最大
结果:
- 双寡头均衡:两个都广泛使用
- 形成两个生态
为什么不是"赢家通吃”?
- 腾讯的社交网络 vs 阿里的电商网络
- 分别有自己的"焦点”
启示:
“协调博弈的关键:形成共同预期。先行者优势、网络效应、品牌认知,都有助于形成’焦点均衡’。”
3.4 胆小鬼博弈:边缘策略
场景: 两辆车相向而行,谁先转向谁就是"胆小鬼"。
| 对方转向 | 对方直行 | |
|---|---|---|
| 我转向 | 我输,对方赢(-1, +1) | 避免相撞(-1, +1) |
| 我直行 | 我赢,对方输(+1, -1) | 相撞,双亡(-100, -100) |
纳什均衡:
- (我转,对方直行)
- (我直行,对方转)
关键:
- 谁先承诺"我绝不转向",谁就赢
- 承诺的可信度至关重要
现实案例:
案例:古巴导弹危机(1962)
背景:
- 苏联在古巴部署导弹
- 美国要求撤除,否则军事行动
- 苏联拒绝
博弈:
| 苏联撤导弹 | 苏联不撤 | |
|---|---|---|
| 美国妥协 | 美国输,苏联赢 | 苏联导弹留在古巴 |
| 美国动武 | 苏联撤导弹 | 核战争,双方毁灭 |
过程:
- 肯尼迪(美国):封锁古巴,摆出动武姿态
- 赫鲁晓夫(苏联):威胁报复
关键时刻:
- 双方都在边缘试探
- 最终:苏联妥协,撤走导弹
- 但美国秘密承诺:撤走土耳其的导弹(给苏联面子)
为什么苏联让步?
- 美国的承诺更可信(封锁已实施,军队已动员)
- 苏联评估:美国可能真的开战
- 核战代价太大
启示:
“胆小鬼博弈的关键:让对方相信你’不会转向’。方法:提前承诺、消除退路、展示决心。但要小心:双方都不转向,会导致灾难。”
现代案例:企业价格战的边缘策略
案例:滴滴 vs Uber中国(2014-2016)
博弈:
- 双方疯狂补贴
- 谁先退出/妥协,谁就输掉市场
滴滴的策略:
- 多轮融资,展示"资金充足,长期作战"
- 宣称:“补贴可以持续3年”
Uber的计算:
- 中国市场亏损巨大(每年10亿美元+)
- 全球业务压力大
- 评估:可能耗不过滴滴
结果(2016):
- Uber中国卖给滴滴
- 滴滴"承诺更可信",Uber让步
启示:
“在边缘策略中,资源、决心、承诺的可信度,决定了谁笑到最后。但过度竞争对双方都是灾难,合并/收购往往是理性出路。”
四、序贯博弈与博弈树
4.1 什么是序贯博弈?
序贯博弈:参与者按顺序行动,后行动者可以观察到前行动者的选择。
分析工具:博弈树
案例:市场进入博弈
场景:
- 市场上有一个在位企业(Incumbent)
- 一个潜在进入者(Entrant)考虑是否进入
- 在位企业决定:默许 or 价格战
博弈树:
进入者
/ \
进入 不进入
/ \
在位企业 (0, 10)
/ \
默许 价格战
/ \
(5, 5) (-2, -2)
(括号内:进入者收益, 在位企业收益)
分析:逆向归纳法
第二步(在位企业的决策):
- 如果进入者已进入:
- 默许 → 获5
- 价格战 → 获-2
- 理性选择:默许
第一步(进入者的决策):
- 预测在位企业会默许
- 进入 → 获5
- 不进入 → 获0
- 理性选择:进入
子博弈完美纳什均衡(Subgame Perfect Nash Equilibrium, SPNE):
- (进入, 默许)
关键洞察:
“在位企业的’价格战威胁’不可信。因为一旦进入发生,价格战对在位企业也不利,所以它不会执行。进入者看穿这一点,所以会进入。”
如何让威胁可信?
策略1:沉没成本承诺
- 在位企业大幅扩大产能(沉没成本)
- 一旦进入,边际成本很低,价格战对在位企业有利
- 威胁变得可信
策略2:声誉
- 在位企业在其他市场有"必打价格战"的声誉
- 为了维护声誉,会执行威胁
案例:沃尔玛的进入威慑
沃尔玛进入小城镇:
- 当地小超市:默许 or 价格战?
沃尔玛的优势:
- 规模经济,成本极低
- 打价格战对沃尔玛有利(小超市会亏损)
- 威胁可信
结果:
- 小超市预期:“如果竞争,我会输”
- 很多小超市直接关闭或卖掉
启示:
“序贯博弈中,承诺和威胁的可信度至关重要。要让承诺/威胁可信,需要:沉没成本、声誉、改变收益结构。”
五、重复博弈:合作的可能
5.1 一次性 vs 重复博弈
一次性囚徒困境:
- 纳什均衡:(背叛, 背叛)
- 合作不稳定
无限次重复囚徒困境:
- 合作可以成为均衡(条件:足够重视未来)
关键:未来互动的影子(Shadow of the Future)
5.2 以牙还牙策略
Tit-for-Tat策略(罗伯特·阿克塞尔罗德):
- 第一次:合作
- 之后:对方上次怎么做,我这次怎么做
- 对方合作 → 我合作
- 对方背叛 → 我背叛
为什么有效?
阿克塞尔罗德的计算机竞赛(1980):
- 邀请博弈论专家提交策略
- 模拟重复囚徒困境
- 结果:Tit-for-Tat赢得竞赛
Tit-for-Tat的优点:
- 善良(Nice):首次合作,不先背叛
- 报复(Retaliating):对方背叛,立即惩罚
- 宽容(Forgiving):对方回归合作,立即合作
- 清晰(Clear):策略简单,对方容易理解
效果:
- 鼓励合作(善良)
- 阻止背叛(报复)
- 允许恢复(宽容)
现实案例:
案例:国际贸易中的互惠
WTO的贸易规则:
- 本质上是Tit-for-Tat:
- 你降低关税 → 我降低关税(合作)
- 你提高关税 → 我也提高(报复)
效果:
- 全球关税持续下降(1950年代:平均40% → 2000年代:平均5%)
- 贸易额大幅增长
案例:企业联盟的稳定
航空公司联盟(星空联盟、天合联盟、寰宇一家):
- 成员间合作(代码共享、里程共享)
- 如果某成员违规(如挖墙脚) → 其他成员报复(取消合作)
- Tit-for-Tat维持合作
条件:
- 重复交互:长期关系
- 互惠可能:双方都能帮助/伤害对方
- 信息透明:能观察到对方行为
- 重视未来:不过度短视
启示:
“重复博弈改变了激励结构。如果双方长期互动且重视未来,合作可以成为稳定均衡。Tit-for-Tat是维持合作的有效策略。”
六、实践框架:博弈思维做决策
6.1 博弈分析清单
遇到策略互动情境时,使用这个框架:
第一步:识别博弈结构
- 谁是参与者?(我、竞争对手、合作伙伴、政府?)
- 每个参与者有哪些策略选择?
- 收益结构是什么?(每种策略组合下,各方得失)
第二步:判断博弈类型
- 同时博弈 or 序贯博弈?
- 一次性 or 重复博弈?
- 零和 or 非零和?
- 对称 or 不对称?
第三步:寻找均衡
- 是否有支配策略?
- 纳什均衡是什么?
- 是否有多重均衡?(如协调博弈)
- 均衡是否帕累托最优?
第四步:评估可信度
- 我的承诺/威胁可信吗?
- 对手的承诺/威胁可信吗?
- 如何增强可信度?(沉没成本、声誉、合同)
第五步:考虑动态
- 如果重复博弈,策略如何调整?
- 能否建立合作?(Tit-for-Tat)
- 如何改变博弈结构?(合并、结盟、改变规则)
6.2 博弈思维的实战应用
场景1:价格竞争
问题:
- 竞争对手降价,我是否跟进?
博弈分析:
识别博弈:
- 参与者:我、竞争对手
- 策略:降价 or 维持价格
收益矩阵:
| 对手降价 | 对手维持 | |
|---|---|---|
| 我降价 | 双方都亏损 | 我获市场份额 |
| 我维持 | 我失去市场份额 | 双方都盈利 |
均衡:
- 类似囚徒困境:双方都降价
如何跳出?
- 短期:如果必须跟进,跟进(否则输更多)
- 长期:寻求差异化(避免纯价格竞争)
- 改变博弈:合并、结盟、或瞄准不同细分市场
场景2:合作谈判
问题:
- 与供应商谈判,如何获得更好价格?
博弈分析:
识别BATNA(最佳替代方案):
- 我的BATNA:其他供应商
- 供应商的BATNA:其他客户
谈判力量:
- 如果我有更好的BATNA → 我更强
- 如果供应商有更好的BATNA → 供应商更强
策略:
- 提升自己的BATNA(寻找更多备选供应商)
- 降低对方的BATNA(长期合同、排他性)
- 创造价值(双赢方案,扩大蛋糕)
场景3:团队合作
问题:
- 团队项目,如何防止搭便车?
博弈分析:
识别博弈:公共品博弈(类似智猪博弈)
- 每个人都想搭便车(别人努力,我偷懒)
解决方案:
- 透明化:每个人的贡献可见
- 重复博弈:长期团队,声誉重要
- 激励设计:贡献与回报挂钩
- 惩罚机制:搭便车者受惩罚
七、总结:博弈论的智慧
核心原则
策略互动思维:
- 我的最优策略取决于对方的选择
- 要"站在对方角度思考"(换位思维)
纳什均衡:
- 稳定状态:每个人的策略都是对他人策略的最优反应
- 但均衡未必是最优(如囚徒困境)
承诺与威胁的可信度:
- 不可信的威胁没有用
- 要让承诺/威胁可信:沉没成本、声誉、改变收益结构
重复博弈改变激励:
- 一次性博弈:背叛占优
- 重复博弈:合作可能成为均衡
- Tit-for-Tat是有效策略
先行优势与后发优势:
- 先行:可以承诺,影响对方预期
- 后发:可以观察,针对性反应
- 哪个更好?取决于具体博弈结构
改变博弈结构:
- 陷入囚徒困境?改变规则
- 方法:合并、结盟、建立信任、改变收益
关键洞察
约翰·纳什的洞察: “在策略互动中,存在一种稳定均衡:每个人的策略都是对他人策略的最优反应。这是预测行为的强大工具。”
托马斯·谢林的洞察: “博弈论不仅是数学,更是艺术。如何让承诺可信、如何形成焦点、如何边缘试探,是博弈的精髓。”
罗伯特·阿克塞尔罗德的洞察: “合作不需要利他主义。在重复博弈中,自利的个体也可以合作。Tit-for-Tat证明:善良、报复、宽容、清晰,是合作的基础。”
现代启示: “商业竞争、国际关系、团队合作,本质上都是博弈。理解博弈结构,就能做出更明智的策略选择。”
实践建议
对企业管理者:
- 竞争决策:不要只看自己,要预测对手反应
- 避免囚徒困境:寻求差异化,避免红海竞争
- 建立可信承诺:沉没成本、品牌、长期合同
- 利用重复博弈:与客户、供应商建立长期关系
对创业者:
- 进入市场:评估在位企业的反应(会打价格战吗?威胁可信吗?)
- 竞争策略:避开正面竞争(智猪博弈:找大猪不愿做的事)
- 合作谈判:提升自己的BATNA,增强谈判力
对个人:
- 职场合作:重复博弈思维,维护声誉
- 谈判:了解双方的BATNA,寻找双赢
- 避免零和思维:很多博弈是非零和,寻找合作空间
对政策制定者:
- 国际关系:建立互惠机制(Tit-for-Tat)
- 反垄断:防止企业合谋(囚徒困境对消费者有利)
- 环境治理:建立长期激励,促进合作
八、延伸阅读
入门级
《策略思维》 - 阿维纳什·迪克西特、巴里·奈尔伯夫
- 博弈论入门经典,案例丰富
《博弈论与经济行为》 - 冯·诺依曼、摩根斯坦
- 博弈论奠基之作(较难)
进阶级
《策略与冲突》 - 托马斯·谢林
- 诺奖得主,博弈论应用
《合作的进化》 - 罗伯特·阿克塞尔罗德
- Tit-for-Tat与重复博弈
《博弈论》 - 德鲁·弗登伯格、让·梯若尔
- 研究生教材,系统全面
实战级
《对抗性博弈》 - 亚当·布兰登伯格、巴里·奈尔伯夫
- 商业应用,竞合战略
《谈判力》 - 罗杰·费希尔、威廉·尤里
- 谈判博弈实战
《自私的基因》 - 理查德·道金斯
- 进化博弈论
学术级
《博弈论教程》 - Martin Osborne
- 严格数学推导
《高级微观经济学》 - Mas-Colell等
- 第7-9章:博弈论
下一步
明天(03-21),我们将进行第三周总结:经济学思维的完整框架:
- 整合本周所学:理性选择、激励、价格、交易成本、信息不对称、博弈论
- 构建经济学思维的决策框架
- 案例综合应用
本周回顾:
- 03-15:理性选择与边际分析
- 03-16:激励机制设计
- 03-17:市场与价格信号
- 03-18:交易成本与科斯定理
- 03-19:信息不对称与逆向选择
- 03-20:博弈论基础
整合目标:
“将这些工具整合为一个完整的思维系统,可以分析任何经济决策。”
即将进入第三周的总结提升!
思考题:
- 在你的工作中,有哪些策略互动情境?如何用博弈论分析?
- 你曾陷入"囚徒困境"吗?如何跳出?
- 与合作伙伴/供应商的关系,是一次性还是重复博弈?如何利用?
- 你的承诺/威胁在谈判中可信吗?如何增强可信度?
期待你的思考!