引子:美团与饿了么的外卖大战

2017年,中国外卖市场正处于激烈竞争:

玩家:

  • 美团外卖(背靠腾讯、美团点评)
  • 饿了么(背靠阿里巴巴)

战场:补贴大战

王兴的困境:

情景1:我们补贴

  • 如果饿了么也补贴 → 双方都烧钱,谁也不赚钱
  • 如果饿了么不补贴 → 我们获得市场份额

情景2:我们不补贴

  • 如果饿了么补贴 → 我们失去市场份额
  • 如果饿了么不补贴 → 双方都盈利,皆大欢喜

关键:我的最优策略取决于饿了么的选择。

博弈矩阵:

饿了么补贴饿了么不补贴
美团补贴双方都亏损(-10, -10)美团赢(+20, -15)
美团不补贴美团输(-15, +20)双方都盈利(+5, +5)

(括号内:美团收益,饿了么收益)

分析:

从美团角度:

  • 如果饿了么补贴 → 我也要补贴(否则输更多)
  • 如果饿了么不补贴 → 我也要补贴(抢市场份额)
  • 结论:无论对手怎么做,我都应该补贴(支配策略)

从饿了么角度:

  • 同样逻辑,也应该补贴

结果:

  • 双方都补贴(纳什均衡)
  • 双方都亏损
  • 但谁也不敢停止(停止 = 输掉市场)

现实(2017-2018):

  • 双方累计补贴:超过200亿元
  • 用户享受低价外卖
  • 双方持续亏损

这就是经典的"囚徒困境":

  • 个人理性导致集体非理性
  • 合作更好,但不合作是均衡

最终结果(2018年):

  • 阿里巴巴收购饿了么
  • 竞争缓和,补贴减少
  • 通过"改变博弈结构"跳出困境

今天,我们将深入探讨博弈论,理解策略互动中的理性决策。


一、什么是博弈论?

1.1 定义

博弈论(Game Theory): 研究理性决策者之间策略互动的数学理论。

核心特征:

  1. 多个决策者:至少2个
  2. 策略互动:我的收益取决于你的选择
  3. 理性假设:每个人都追求自身利益最大化
  4. 共同知识:大家都知道规则,也知道对方知道规则

博弈的三要素:

  1. 参与者(Players):谁在博弈?
  2. 策略(Strategies):每个参与者有哪些选择?
  3. 收益(Payoffs):每种策略组合下,各方的收益是什么?

1.2 博弈的分类

按时序:

  • 同时博弈:双方同时决策(如石头剪刀布)
  • 序贯博弈:先后决策(如象棋、投资决策)

按信息:

  • 完全信息:双方知道对方的收益函数
  • 不完全信息:不知道对方真实类型(如拍卖、扑克)

按重复性:

  • 一次性博弈:只玩一次
  • 重复博弈:多次重复

按合作:

  • 非合作博弈:各自为战,不能签订可执行合同
  • 合作博弈:可以形成联盟,共同行动

二、纳什均衡:策略互动的稳定点

2.1 什么是纳什均衡?

纳什均衡(Nash Equilibrium): 一种策略组合,在这个组合下,每个人的策略都是对其他人策略的最优反应,没有人有动机单方面偏离。

约翰·纳什(John Nash, 诺贝尔奖1994):

“在纳什均衡下,给定其他人的策略,我改变策略不会获得更高收益。所以我不会改;其他人也一样。这是一种稳定状态。”

数学定义: 策略组合(s₁*, s₂*, …, sₙ*)是纳什均衡,当且仅当: 对每个参与者i,给定其他人的策略s₋ᵢ*,sᵢ*是i的最优反应。

2.2 寻找纳什均衡的方法

方法1:划线法(适用于2×2博弈)

例子:囚徒困境

两个嫌犯被分开审讯:

同伙沉默同伙坦白
我沉默各判1年(−1, −1)我判10年,同伙释放(−10, 0)
我坦白我释放,同伙判10年(0, −10)各判5年(−5, −5)

步骤:

  1. 找最优反应:

    • 从我的角度:

      • 如果同伙沉默 → 我坦白更好(0 > -1),在(坦白,沉默)格子下划线
      • 如果同伙坦白 → 我坦白更好(-5 > -10),在(坦白,坦白)格子下划线
    • 从同伙角度:

      • 如果我沉默 → 同伙坦白更好,在(沉默,坦白)格子下划线
      • 如果我坦白 → 同伙坦白更好,在(坦白,坦白)格子下划线
  2. 找双方都划线的格子:

    • (坦白,坦白):双方都划线 → 纳什均衡

结果:

  • 双方都坦白(各判5年)
  • 虽然双方都沉默更好(各判1年)
  • 但这不是均衡(每个人都有动机偏离)

2.3 支配策略

支配策略(Dominant Strategy): 无论对手做什么,这个策略都是最优的。

囚徒困境中:

  • “坦白"是支配策略(无论对方沉默还是坦白,我坦白都更好)

如果每个人都有支配策略:

  • 纳什均衡很容易找到(各自选支配策略)

但大多数博弈:

  • 没有支配策略
  • 最优策略取决于对方选择

三、经典博弈模型

3.1 囚徒困境:合作困境

结构:

  • 合作对双方都更好
  • 但每个人都有动机背叛
  • 结果:双方都背叛(帕累托次优)

现实案例:

案例1:OPEC的减产协议

背景:

  • OPEC(石油输出国组织):沙特、伊朗等产油国
  • 目标:维持高油价

博弈:

其他国减产其他国不减产
沙特减产油价高,各国获益(+10, +10)沙特损失,他国获益(-5, +15)
沙特不减产沙特获益,他国损失(+15, -5)油价低,各国损失(0, 0)

分析:

  • “不减产"是支配策略
  • 纳什均衡:(不减产,不减产)
  • 结果:油价崩盘,大家都不赚钱

现实(2014-2016, 2020):

  • OPEC协议多次破裂
  • 成员国偷偷增产
  • 油价暴跌

如何解决囚徒困境?

方案1:重复博弈

  • 如果长期合作,可以采用"以牙还牙"策略
  • 对方背叛 → 下次我也背叛(惩罚)
  • 长期看,合作更优

方案2:改变收益结构

  • 签订有约束力的合同
  • 背叛者受到外部惩罚

方案3:减少参与者

  • 参与者越少,合作越容易(监督成本低)
  • 案例:2016年OPEC+俄罗斯,形成更小圈子,减产成功

3.2 智猪博弈:不对称博弈

场景: 一个猪圈,一大一小两头猪。一端有按钮(踩了会在另一端出食物),另一端有食槽。

规则:

  • 踩按钮需要消耗能量
  • 食物需要时间跑过去吃

收益:

  • 如果大猪踩,小猪等:大猪跑过去,食物被小猪吃了一半,大猪获4单位(10食物 - 2成本 - 4被吃),小猪获4单位
  • 如果小猪踩,大猪等:小猪跑过去,食物全被大猪吃光,小猪获-1单位(0食物 - 1成本),大猪获10单位
  • 如果两者都踩:大猪先到,小猪获1单位(2食物 - 1成本),大猪获5单位(8食物 - 2成本 - 1被吃)
  • 如果都不踩:都获0

博弈矩阵:

大猪等待大猪踩
小猪等待(0, 0)(4, 4)
小猪踩(-1, 10)(1, 5)

分析:

从小猪角度:

  • 如果大猪等 → 小猪等更好(0 > -1)
  • 如果大猪踩 → 小猪等更好(4 > 1)
  • 结论:无论大猪怎么做,小猪等待是支配策略

从大猪角度:

  • 已知小猪会等待
  • 大猪踩(获4) vs 大猪等(获0)
  • 结论:大猪应该踩

纳什均衡:(小猪等,大猪踩)

启示:

“在不对称博弈中,弱者可以搭便车。强者虽然付出更多,但仍比不行动好,所以会行动。”

现实应用:

案例:开源软件

  • 大公司(如Google、Facebook):投入资源开发开源工具(TensorFlow、React)
  • 小公司:免费使用

为什么大公司愿意?

  • 即使小公司搭便车,大公司仍然获益:
    • 建立标准(生态主导权)
    • 吸引人才
    • 社区贡献(改进工具)
  • 收益 > 成本,所以行动

案例:中国对全球气候治理的贡献

背景:

  • 发达国家(大猪):历史排放多,责任大
  • 发展中国家(小猪):发展需求大

智猪博弈视角:

  • 如果只有发达国家减排,发展中国家搭便车 → 发达国家仍有收益(避免气候灾难)
  • 发展中国家:“你们先减,我们等等”

但中国的选择:

  • 主动承诺碳中和(2060年)
  • 大规模投资可再生能源

为什么?

  • 长期战略:抢占绿色技术制高点
  • 国内收益:减少污染,改善环境
  • 国际影响力提升

启示:

“智猪博弈告诉我们:即使弱者搭便车,强者行动仍可能是最优策略,只要收益足够大。”


3.3 协调博弈:多重均衡

场景: 两个朋友约见面,但忘记约地点。

朋友去咖啡馆朋友去图书馆
我去咖啡馆见面(+10, +10)见不到(0, 0)
我去图书馆见不到(0, 0)见面(+10, +10)

纳什均衡:

  • (咖啡馆,咖啡馆)
  • (图书馆,图书馆)

问题:

  • 有两个均衡,去哪个?
  • 需要协调

解决方案:

  1. 沟通:事先约定
  2. 惯例/文化:“我们通常去咖啡馆”
  3. 焦点(Focal Point):某个选项更显眼(如"星巴克"比"某图书馆"更具体)

现实案例:

案例1:技术标准之争

VHS vs Betamax(1970年代):

  • 索尼的Betamax:技术更好
  • JVC的VHS:兼容性更好,更多厂商支持

结果:

  • VHS胜出(形成协调均衡)
  • 更多人买VHS → 更多内容发行VHS版 → 更多人买VHS
  • 网络效应:大家都选一个标准,价值最大

案例2:中国的移动支付标准

微信支付 vs 支付宝:

  • 本质上是协调博弈:
    • 商家接入哪个?
    • 用户使用哪个?
    • 大家都用同一个,网络效应最大

结果:

  • 双寡头均衡:两个都广泛使用
  • 形成两个生态

为什么不是"赢家通吃”?

  • 腾讯的社交网络 vs 阿里的电商网络
  • 分别有自己的"焦点”

启示:

“协调博弈的关键:形成共同预期。先行者优势、网络效应、品牌认知,都有助于形成’焦点均衡’。”


3.4 胆小鬼博弈:边缘策略

场景: 两辆车相向而行,谁先转向谁就是"胆小鬼"。

对方转向对方直行
我转向我输,对方赢(-1, +1)避免相撞(-1, +1)
我直行我赢,对方输(+1, -1)相撞,双亡(-100, -100)

纳什均衡:

  • (我转,对方直行)
  • (我直行,对方转)

关键:

  • 谁先承诺"我绝不转向",谁就赢
  • 承诺的可信度至关重要

现实案例:

案例:古巴导弹危机(1962)

背景:

  • 苏联在古巴部署导弹
  • 美国要求撤除,否则军事行动
  • 苏联拒绝

博弈:

苏联撤导弹苏联不撤
美国妥协美国输,苏联赢苏联导弹留在古巴
美国动武苏联撤导弹核战争,双方毁灭

过程:

  • 肯尼迪(美国):封锁古巴,摆出动武姿态
  • 赫鲁晓夫(苏联):威胁报复

关键时刻:

  • 双方都在边缘试探
  • 最终:苏联妥协,撤走导弹
  • 但美国秘密承诺:撤走土耳其的导弹(给苏联面子)

为什么苏联让步?

  • 美国的承诺更可信(封锁已实施,军队已动员)
  • 苏联评估:美国可能真的开战
  • 核战代价太大

启示:

“胆小鬼博弈的关键:让对方相信你’不会转向’。方法:提前承诺、消除退路、展示决心。但要小心:双方都不转向,会导致灾难。”

现代案例:企业价格战的边缘策略

案例:滴滴 vs Uber中国(2014-2016)

博弈:

  • 双方疯狂补贴
  • 谁先退出/妥协,谁就输掉市场

滴滴的策略:

  • 多轮融资,展示"资金充足,长期作战"
  • 宣称:“补贴可以持续3年”

Uber的计算:

  • 中国市场亏损巨大(每年10亿美元+)
  • 全球业务压力大
  • 评估:可能耗不过滴滴

结果(2016):

  • Uber中国卖给滴滴
  • 滴滴"承诺更可信",Uber让步

启示:

“在边缘策略中,资源、决心、承诺的可信度,决定了谁笑到最后。但过度竞争对双方都是灾难,合并/收购往往是理性出路。”


四、序贯博弈与博弈树

4.1 什么是序贯博弈?

序贯博弈:参与者按顺序行动,后行动者可以观察到前行动者的选择。

分析工具:博弈树

案例:市场进入博弈

场景:

  • 市场上有一个在位企业(Incumbent)
  • 一个潜在进入者(Entrant)考虑是否进入
  • 在位企业决定:默许 or 价格战

博弈树:

                        进入者
                       /     \
                    进入      不进入
                    /           \
              在位企业          (0, 10)
               /    \
           默许    价格战
           /          \
      (5, 5)      (-2, -2)

(括号内:进入者收益, 在位企业收益)

分析:逆向归纳法

第二步(在位企业的决策):

  • 如果进入者已进入:
    • 默许 → 获5
    • 价格战 → 获-2
    • 理性选择:默许

第一步(进入者的决策):

  • 预测在位企业会默许
  • 进入 → 获5
  • 不进入 → 获0
  • 理性选择:进入

子博弈完美纳什均衡(Subgame Perfect Nash Equilibrium, SPNE):

  • (进入, 默许)

关键洞察:

“在位企业的’价格战威胁’不可信。因为一旦进入发生,价格战对在位企业也不利,所以它不会执行。进入者看穿这一点,所以会进入。”

如何让威胁可信?

策略1:沉没成本承诺

  • 在位企业大幅扩大产能(沉没成本)
  • 一旦进入,边际成本很低,价格战对在位企业有利
  • 威胁变得可信

策略2:声誉

  • 在位企业在其他市场有"必打价格战"的声誉
  • 为了维护声誉,会执行威胁

案例:沃尔玛的进入威慑

沃尔玛进入小城镇:

  • 当地小超市:默许 or 价格战?

沃尔玛的优势:

  • 规模经济,成本极低
  • 打价格战对沃尔玛有利(小超市会亏损)
  • 威胁可信

结果:

  • 小超市预期:“如果竞争,我会输”
  • 很多小超市直接关闭或卖掉

启示:

“序贯博弈中,承诺和威胁的可信度至关重要。要让承诺/威胁可信,需要:沉没成本、声誉、改变收益结构。”


五、重复博弈:合作的可能

5.1 一次性 vs 重复博弈

一次性囚徒困境:

  • 纳什均衡:(背叛, 背叛)
  • 合作不稳定

无限次重复囚徒困境:

  • 合作可以成为均衡(条件:足够重视未来)

关键:未来互动的影子(Shadow of the Future)

5.2 以牙还牙策略

Tit-for-Tat策略(罗伯特·阿克塞尔罗德):

  • 第一次:合作
  • 之后:对方上次怎么做,我这次怎么做
    • 对方合作 → 我合作
    • 对方背叛 → 我背叛

为什么有效?

阿克塞尔罗德的计算机竞赛(1980):

  • 邀请博弈论专家提交策略
  • 模拟重复囚徒困境
  • 结果:Tit-for-Tat赢得竞赛

Tit-for-Tat的优点:

  1. 善良(Nice):首次合作,不先背叛
  2. 报复(Retaliating):对方背叛,立即惩罚
  3. 宽容(Forgiving):对方回归合作,立即合作
  4. 清晰(Clear):策略简单,对方容易理解

效果:

  • 鼓励合作(善良)
  • 阻止背叛(报复)
  • 允许恢复(宽容)

现实案例:

案例:国际贸易中的互惠

WTO的贸易规则:

  • 本质上是Tit-for-Tat:
    • 你降低关税 → 我降低关税(合作)
    • 你提高关税 → 我也提高(报复)

效果:

  • 全球关税持续下降(1950年代:平均40% → 2000年代:平均5%)
  • 贸易额大幅增长

案例:企业联盟的稳定

航空公司联盟(星空联盟、天合联盟、寰宇一家):

  • 成员间合作(代码共享、里程共享)
  • 如果某成员违规(如挖墙脚) → 其他成员报复(取消合作)
  • Tit-for-Tat维持合作

条件:

  1. 重复交互:长期关系
  2. 互惠可能:双方都能帮助/伤害对方
  3. 信息透明:能观察到对方行为
  4. 重视未来:不过度短视

启示:

“重复博弈改变了激励结构。如果双方长期互动且重视未来,合作可以成为稳定均衡。Tit-for-Tat是维持合作的有效策略。”


六、实践框架:博弈思维做决策

6.1 博弈分析清单

遇到策略互动情境时,使用这个框架:

第一步:识别博弈结构

  • 谁是参与者?(我、竞争对手、合作伙伴、政府?)
  • 每个参与者有哪些策略选择?
  • 收益结构是什么?(每种策略组合下,各方得失)

第二步:判断博弈类型

  • 同时博弈 or 序贯博弈?
  • 一次性 or 重复博弈?
  • 零和 or 非零和?
  • 对称 or 不对称?

第三步:寻找均衡

  • 是否有支配策略?
  • 纳什均衡是什么?
  • 是否有多重均衡?(如协调博弈)
  • 均衡是否帕累托最优?

第四步:评估可信度

  • 我的承诺/威胁可信吗?
  • 对手的承诺/威胁可信吗?
  • 如何增强可信度?(沉没成本、声誉、合同)

第五步:考虑动态

  • 如果重复博弈,策略如何调整?
  • 能否建立合作?(Tit-for-Tat)
  • 如何改变博弈结构?(合并、结盟、改变规则)

6.2 博弈思维的实战应用

场景1:价格竞争

问题:

  • 竞争对手降价,我是否跟进?

博弈分析:

  1. 识别博弈:

    • 参与者:我、竞争对手
    • 策略:降价 or 维持价格
  2. 收益矩阵:

对手降价对手维持
我降价双方都亏损我获市场份额
我维持我失去市场份额双方都盈利
  1. 均衡:

    • 类似囚徒困境:双方都降价
  2. 如何跳出?

    • 短期:如果必须跟进,跟进(否则输更多)
    • 长期:寻求差异化(避免纯价格竞争)
    • 改变博弈:合并、结盟、或瞄准不同细分市场

场景2:合作谈判

问题:

  • 与供应商谈判,如何获得更好价格?

博弈分析:

  1. 识别BATNA(最佳替代方案):

    • 我的BATNA:其他供应商
    • 供应商的BATNA:其他客户
  2. 谈判力量:

    • 如果我有更好的BATNA → 我更强
    • 如果供应商有更好的BATNA → 供应商更强
  3. 策略:

    • 提升自己的BATNA(寻找更多备选供应商)
    • 降低对方的BATNA(长期合同、排他性)
    • 创造价值(双赢方案,扩大蛋糕)

场景3:团队合作

问题:

  • 团队项目,如何防止搭便车?

博弈分析:

  1. 识别博弈:公共品博弈(类似智猪博弈)

    • 每个人都想搭便车(别人努力,我偷懒)
  2. 解决方案:

    • 透明化:每个人的贡献可见
    • 重复博弈:长期团队,声誉重要
    • 激励设计:贡献与回报挂钩
    • 惩罚机制:搭便车者受惩罚

七、总结:博弈论的智慧

核心原则

  1. 策略互动思维:

    • 我的最优策略取决于对方的选择
    • 要"站在对方角度思考"(换位思维)
  2. 纳什均衡:

    • 稳定状态:每个人的策略都是对他人策略的最优反应
    • 但均衡未必是最优(如囚徒困境)
  3. 承诺与威胁的可信度:

    • 不可信的威胁没有用
    • 要让承诺/威胁可信:沉没成本、声誉、改变收益结构
  4. 重复博弈改变激励:

    • 一次性博弈:背叛占优
    • 重复博弈:合作可能成为均衡
    • Tit-for-Tat是有效策略
  5. 先行优势与后发优势:

    • 先行:可以承诺,影响对方预期
    • 后发:可以观察,针对性反应
    • 哪个更好?取决于具体博弈结构
  6. 改变博弈结构:

    • 陷入囚徒困境?改变规则
    • 方法:合并、结盟、建立信任、改变收益

关键洞察

约翰·纳什的洞察: “在策略互动中,存在一种稳定均衡:每个人的策略都是对他人策略的最优反应。这是预测行为的强大工具。”

托马斯·谢林的洞察: “博弈论不仅是数学,更是艺术。如何让承诺可信、如何形成焦点、如何边缘试探,是博弈的精髓。”

罗伯特·阿克塞尔罗德的洞察: “合作不需要利他主义。在重复博弈中,自利的个体也可以合作。Tit-for-Tat证明:善良、报复、宽容、清晰,是合作的基础。”

现代启示: “商业竞争、国际关系、团队合作,本质上都是博弈。理解博弈结构,就能做出更明智的策略选择。”

实践建议

对企业管理者:

  • 竞争决策:不要只看自己,要预测对手反应
  • 避免囚徒困境:寻求差异化,避免红海竞争
  • 建立可信承诺:沉没成本、品牌、长期合同
  • 利用重复博弈:与客户、供应商建立长期关系

对创业者:

  • 进入市场:评估在位企业的反应(会打价格战吗?威胁可信吗?)
  • 竞争策略:避开正面竞争(智猪博弈:找大猪不愿做的事)
  • 合作谈判:提升自己的BATNA,增强谈判力

对个人:

  • 职场合作:重复博弈思维,维护声誉
  • 谈判:了解双方的BATNA,寻找双赢
  • 避免零和思维:很多博弈是非零和,寻找合作空间

对政策制定者:

  • 国际关系:建立互惠机制(Tit-for-Tat)
  • 反垄断:防止企业合谋(囚徒困境对消费者有利)
  • 环境治理:建立长期激励,促进合作

八、延伸阅读

入门级

  1. 《策略思维》 - 阿维纳什·迪克西特、巴里·奈尔伯夫

    • 博弈论入门经典,案例丰富
  2. 《博弈论与经济行为》 - 冯·诺依曼、摩根斯坦

    • 博弈论奠基之作(较难)

进阶级

  1. 《策略与冲突》 - 托马斯·谢林

    • 诺奖得主,博弈论应用
  2. 《合作的进化》 - 罗伯特·阿克塞尔罗德

    • Tit-for-Tat与重复博弈
  3. 《博弈论》 - 德鲁·弗登伯格、让·梯若尔

    • 研究生教材,系统全面

实战级

  1. 《对抗性博弈》 - 亚当·布兰登伯格、巴里·奈尔伯夫

    • 商业应用,竞合战略
  2. 《谈判力》 - 罗杰·费希尔、威廉·尤里

    • 谈判博弈实战
  3. 《自私的基因》 - 理查德·道金斯

    • 进化博弈论

学术级

  1. 《博弈论教程》 - Martin Osborne

    • 严格数学推导
  2. 《高级微观经济学》 - Mas-Colell等

    • 第7-9章:博弈论

下一步

明天(03-21),我们将进行第三周总结:经济学思维的完整框架:

  • 整合本周所学:理性选择、激励、价格、交易成本、信息不对称、博弈论
  • 构建经济学思维的决策框架
  • 案例综合应用

本周回顾:

  • 03-15:理性选择与边际分析
  • 03-16:激励机制设计
  • 03-17:市场与价格信号
  • 03-18:交易成本与科斯定理
  • 03-19:信息不对称与逆向选择
  • 03-20:博弈论基础

整合目标:

“将这些工具整合为一个完整的思维系统,可以分析任何经济决策。”

即将进入第三周的总结提升!


思考题:

  1. 在你的工作中,有哪些策略互动情境?如何用博弈论分析?
  2. 你曾陷入"囚徒困境"吗?如何跳出?
  3. 与合作伙伴/供应商的关系,是一次性还是重复博弈?如何利用?
  4. 你的承诺/威胁在谈判中可信吗?如何增强可信度?

期待你的思考!