引子:福尔摩斯的推理艺术
《血字的研究》开篇,华生医生第一次见到福尔摩斯。
两人握手后,福尔摩斯说:
“您到过阿富汗,我看得出来。”
华生大惊:“您怎么知道?”
福尔摩斯解释:
“习惯成自然,我的思路是这样的:这位先生具有医务工作者的风度,但又是一副军人气概。那么,显然他是个军医。他是刚从热带地方来,因为他脸色黝黑,但是,从他手腕的皮肤黑白分明看来,这并不是他原来的肤色。他面容憔悴,这就清楚地说明他是久病初愈而又历尽了艰苦。他左臂受过伤,现在动作起来还有些僵硬不便。试问,一个英国军医在热带地方历尽艰苦,并且臂部负过伤,这能在什么地方呢?自然只有在阿富汗了。”
这就是贝叶斯推理。
福尔摩斯做了什么?
观察1:医务工作者风度 + 军人气概
→ 更新信念:P(军医) 增加
观察2:脸色黝黑 + 手腕皮肤黑白分明
→ 更新信念:P(热带地区) 增加
观察3:面容憔悴
→ 更新信念:P(久病初愈 + 历尽艰苦) 增加
观察4:左臂僵硬
→ 更新信念:P(负伤) 增加
综合:英国军医 + 热带 + 艰苦 + 负伤
→ P(阿富汗) ≈ 90%+ (当时英军主要战场)
每个证据都在更新概率分布,直到一个假设概率最高。
今天,我们学习如何系统化地做贝叶斯推理。
贝叶斯定理:深度剖析
数学形式(完整版)
P(H|E) = P(E|H) × P(H) / P(E)
其中:
H = Hypothesis(假设)
E = Evidence(证据)
P(H|E) = 后验概率(看到证据后,假设为真的概率)
P(E|H) = 似然度(假设为真时,看到这个证据的概率)
P(H) = 先验概率(看到证据前,假设为真的概率)
P(E) = 证据概率(看到这个证据的总概率)
直觉理解:
后验 = (似然 × 先验) / 归一化常数
为什么P(E)常被忽略?
因为通常我们比较多个假设:
P(H₁|E) / P(H₂|E) = [P(E|H₁) × P(H₁)] / [P(E|H₂) × P(H₂)]
P(E)在分子分母都有,约掉了。
所以实践中:
后验概率 ∝ 似然度 × 先验概率
似然比(Likelihood Ratio):更实用的形式
LR = P(E|H为真) / P(E|H为假)
后验几率 = 先验几率 × LR
例子:医疗诊断
场景:
- 疾病发病率:1%(先验)
- 检测敏感度:99%(真阳性率)
- 检测特异度:99%(真阴性率)
- 结果:阳性
传统贝叶斯计算(昨天讲过):约50%
用似然比:
先验几率 = P(患病) / P(不患病)
= 0.01 / 0.99
≈ 1:99
似然比 = P(阳性|患病) / P(阳性|不患病)
= 0.99 / 0.01
= 99
后验几率 = 1:99 × 99
= 1:1
= 50%概率患病
更直观:阳性结果将几率从1:99提升到1:1。
实战案例1:商业决策
场景:是否进入新市场?
假设:新市场潜力大(H)
先验分析:
| 信息源 | 先验概率估计 |
|---|---|
| 行业报告(增长率20%/年) | 70% |
| 竞争对手少(只有2家) | 60% |
| 自己经验(类似市场成功过) | 55% |
综合先验(主观判断):P(H) = 65%
证据收集与更新
证据E₁:市场调研(200个潜在客户访谈)
结果:
- 70%表示"有兴趣"
- 30%表示"可能购买"
问:如果市场真的有潜力,这个结果的概率是多少?
P(E₁|H为真) = 0.8 (真有潜力,应该有更多人有兴趣)
P(E₁|H为假) = 0.3 (没潜力,也有人说有兴趣,客套话)
LR₁ = 0.8 / 0.3 = 2.67
后验几率 = (0.65/0.35) × 2.67 = 1.86:1 / 1
≈ 65% → 约80%
更新后:P(H|E₁) ≈ 80%
证据E₂:试点项目(投入$10万,运营3个月)
结果:
- 获客50个
- 付费转化率:10%(行业平均15%)
- 客户反馈:产品OK,但价格偏高
分析:
如果市场有潜力,试点应该表现更好。
转化率低于预期,是负面证据。
P(E₂|H为真) = 0.3 (有潜力但试点差,可能执行问题)
P(E₂|H为假) = 0.7 (没潜力,试点差很正常)
LR₂ = 0.3 / 0.7 ≈ 0.43 (<1,负面证据)
后验几率 = (0.80/0.20) × 0.43 = 1.72:1
≈ 80% → 约63%
更新后:P(H|E₁,E₂) ≈ 63%
证据E₃:竞争对手A突然退出市场
公告:市场规模不足以支撑盈利
P(E₃|H为真) = 0.1 (有潜力,竞争对手不太可能退出)
P(E₃|H为假) = 0.8 (没潜力,退出很正常)
LR₃ = 0.1 / 0.8 = 0.125 (强烈负面证据)
后验几率 = (0.63/0.37) × 0.125 = 0.21:1
≈ 63% → 约18%
最终后验:P(H|E₁,E₂,E₃) ≈ 18%
决策:不进入该市场(概率太低)
关键洞察
1. 贝叶斯是动态的
随着证据积累,信念不断更新:
65% (先验)
→ 80% (调研后)
→ 63% (试点后)
→ 18% (竞争对手退出后)
2. 负面证据比正面证据更有价值
- E₂(试点失败):LR = 0.43
- E₃(竞争对手退出):LR = 0.125
强烈的负面证据能快速推翻假设。
3. 先验很重要
如果先验是95%(如已在类似市场成功10次),即使有负面证据,后验可能还是70%+。
4. 量化假设的概率
P(E|H) 需要估计,如何得出?
方法:
1. 历史数据(如过去10个类似项目,7个调研好的真的成功)
2. 专家判断(有经验的人的主观概率)
3. 基准率(行业平均)
4. 组合以上三者
实战案例2:投资决策
场景:这家创业公司会成为独角兽吗?
假设H:公司X会达到$10亿估值(独角兽)
基础率(先验):
- 美国每年新创业公司:~70万家
- 成为独角兽的:~50家/年
- 基础率 = 50/70万 ≈ 0.007% ≈ 1/14000
这是一个极低的先验!
很多投资者忽略基础率,只看公司本身(基础率忽略)。
证据收集
E₁:创始人背景
- 连续创业者(上一个公司$50M退出)
- 斯坦福CS硕士
- 前Google高级工程师
更新:
P(E₁|成为独角兽) = 0.3 (独角兽中30%有类似背景)
P(E₁|普通公司) = 0.05 (普通公司中5%)
LR₁ = 0.3 / 0.05 = 6
后验几率 = (1/14000) × 6
= 6/14000
≈ 0.04%
**依然极低!**因为先验太低。
E₂:产品市场匹配(PMF)
- 发布3个月
- 有机增长(无付费广告)
- 月活用户:10万
- 增长率:30%/月
- 付费转化率:5%
- 月收入:$50万(ARR $6M)
P(E₂|成为独角兽) = 0.4 (早期表现强劲)
P(E₂|普通公司) = 0.01 (大多数公司达不到)
LR₂ = 0.4 / 0.01 = 40
后验几率 = (0.0004) × 40
≈ 1.6%
E₃:顶级VC投资
- Sequoia Capital领投$20M A轮
- 估值$100M(post-money)
P(E₃|成为独角兽) = 0.25 (Sequoia投资的25%成为独角兽)
P(E₃|普通公司) = 0.001 (Sequoia很少投普通公司)
LR₃ = 0.25 / 0.001 = 250
后验几率 = (0.016) × 250
≈ 4% → 约80%(校正后)
等等,这个数学有问题:0.016 × 250 = 4,但4的几率转概率应该是80%。
正确计算(用几率形式):
先验几率 = 1:14000
LR₁ = 6 → 6:14000 = 1:2333
LR₂ = 40 → 40:2333 = 1:58
LR₃ = 250 → 250:58 ≈ 4.3:1
后验概率 = 4.3 / (4.3+1) = 81%
最终:P(成为独角兽 | E₁,E₂,E₃) ≈ 81%
反思
1. 极低先验需要极强证据
从0.007%到81%,需要:
- 创始人背景(LR=6)
- 早期数据(LR=40)
- 顶级VC(LR=250)
累积LR = 6×40×250 = 60,000
2. Sequoia的价值
Sequoia投资本身就是强烈证据(LR=250),因为:
- 他们有数据优势(看过数千公司)
- 投后支持(帮助公司成功)
跟投策略:“不自己判断,跟着顶级VC投”
为什么可行?
因为顶级VC已经做了贝叶斯推理,他们的决策是强信号。
风险:
- 估值高(VC已抬高价格)
- 信息不对称(你看不到VC看到的全部信息)
实战案例3:个人生活决策
场景:对方喜欢我吗?(约会场景)
假设H:TA对我有好感
先验(基于一般情况):
假设你们是朋友,没有明显暧昧迹象:
P(H) = 20%(默认大多数朋友关系是platonic)
证据观察
E₁:TA主动约你单独喝咖啡
P(E₁|有好感) = 0.7 (喜欢的话会主动约)
P(E₁|没好感) = 0.2 (朋友也会约,但概率低)
LR₁ = 0.7 / 0.2 = 3.5
后验:20% → 约50%
E₂:咖啡时聊了3小时,TA一直保持眼神接触,身体微微前倾
P(E₂|有好感) = 0.8 (肢体语言积极)
P(E₂|没好感) = 0.3 (可能只是外向性格)
LR₂ = 0.8 / 0.3 ≈ 2.67
后验:50% → 约73%
E₃:分别时,TA说"改天再约",但3周没联系
P(E₃|有好感) = 0.1 (真喜欢应该会主动联系)
P(E₃|没好感) = 0.7 (客套话)
LR₃ = 0.1 / 0.7 ≈ 0.14
后验:73% → 约20%
回到起点!
E₄:你主动发消息,TA秒回,聊得很开心
P(E₄|有好感) = 0.6
P(E₄|没好感) = 0.4 (也可能只是礼貌)
LR₄ = 0.6 / 0.4 = 1.5
后验:20% → 约27%
E₅:你邀请TA参加朋友聚会,TA答应并且打扮精致
P(E₅|有好感) = 0.8 (在意你的朋友对TA的印象)
P(E₅|没好感) = 0.2
LR₅ = 0.8 / 0.2 = 4
后验:27% → 约60%
E₆:聚会上,TA和你的朋友聊得很嗨,但和你反而话少了
P(E₆|有好感) = 0.2 (紧张?)
P(E₆|没好感) = 0.6 (把你当朋友,和你朋友社交)
LR₆ = 0.2 / 0.6 ≈ 0.33
后验:60% → 约33%
情感贝叶斯的难点
1. P(E|H)很难估计
肢体语言、话语的真实含义,因人而异。
解决:
- 了解对方性格基线(TA是外向还是内向?)
- 对比TA对你 vs 对其他人的行为
2. 证据互相关联
E₃(3周没联系)可能和E₂(眼神接触)矛盾,说明:
- E₂被误读(只是TA的习惯)
- 或中间发生了什么(TA有了新约会对象)
3. 情绪影响先验
如果你很喜欢TA,先验可能被高估:
- 客观:20%
- 主观:50%(因为你希望如此)
确认偏误:只看到支持假设的证据,忽略反面证据。
解决方案:直接询问
最强证据:TA的明确回答
你:"我对你有好感,你怎么想?"
TA:"我也喜欢你" / "我把你当朋友"
LR = ∞ (几乎确定性)
为什么人们不这么做?
- 害怕被拒绝(损失厌恶)
- 希望"自然发展"
- 享受暧昧的不确定性(预期的快乐)
但从决策科学角度:
直接询问是最优策略(最小化不确定性)。
贝叶斯的陷阱与解药
陷阱1:先验过于主观
问题:如果先验是瞎猜的,后验也不可靠。
例子:
我认为这个项目成功概率90%(毫无依据)
即使有负面证据(LR=0.1)
后验 = 90% × 某个缩减 = 依然很高
解决:
用基础率作为先验(如行业平均成功率),而非主观感觉。
陷阱2:似然度估计错误
问题:P(E|H)的估计很主观。
解决:
- 用历史数据(如果有)
- 多专家取平均(集体智慧)
- 敏感性分析(如果LR从2变3,后验如何变化?)
陷阱3:证据选择偏差
只看支持假设的证据,忽略反对证据。
例子:
投资者只看创业公司的成功指标(用户增长),忽略负面指标(客户流失率、盈利能力)。
解决:
Red Team思维:
设立一个团队专门寻找反对证据。
陷阱4:过度更新
极端证据导致后验崩溃到0或100%。
例子:
先验:50%
极端负面证据(LR=0.001)
后验:几乎0%
然后停止寻找其他证据("反正已经不可能了")
问题:也许那个"极端证据"是假的/误读的。
解决:
保持一定开放性:
- 后验不应该到达0%或100%(除非证据是conclusive)
- 继续收集证据,验证之前的证据
工具:贝叶斯计算器
手工计算(小技巧)
用几率形式更直观:
Step 1: 先验概率 → 先验几率
P(H) = 0.2 → 几率 = 0.2/0.8 = 1:4
Step 2: 计算似然比
LR = P(E|H) / P(E|¬H)
Step 3: 后验几率 = 先验几率 × LR
后验几率 = (1:4) × LR
Step 4: 几率 → 概率
如果后验几率 = 3:1
后验概率 = 3/(3+1) = 75%
Python代码
def bayesian_update(prior, likelihood_ratio):
"""
贝叶斯更新
prior: 先验概率 (0-1)
likelihood_ratio: 似然比 P(E|H) / P(E|¬H)
返回: 后验概率
"""
# 概率 → 几率
prior_odds = prior / (1 - prior)
# 更新
posterior_odds = prior_odds * likelihood_ratio
# 几率 → 概率
posterior = posterior_odds / (1 + posterior_odds)
return posterior
# 例子
prior = 0.20 # 先验20%
LR1 = 3.5 # 证据1
LR2 = 2.67 # 证据2
LR3 = 0.14 # 证据3(负面)
posterior = prior
for LR in [LR1, LR2, LR3]:
posterior = bayesian_update(posterior, LR)
print(f"更新后概率: {posterior:.2%}")
# 输出:
# 更新后概率: 50.00%
# 更新后概率: 72.73%
# 更新后概率: 20.00%
深度反思:贝叶斯与科学
科学方法 = 系统化贝叶斯推理
科学的核心:
- 提出假设(先验)
- 设计实验(收集证据)
- 观察结果(似然度)
- 更新信念(后验)
- 重复
与传统"证明/证伪"的区别:
| 传统科学观 | 贝叶斯观 |
|---|---|
| 假设要么对要么错 | 假设有概率分布 |
| 一个实验可以"证伪" | 实验只是更新概率 |
| 科学追求"真理" | 科学追求"概率最高的解释" |
Karl Popper vs Bayesian Science:
Popper:科学通过证伪进步(只要一个反例就推翻理论)
贝叶斯:科学通过逐步缩小不确定性进步(反例只是降低概率,不一定推翻)
现代趋势:贝叶斯统计在机器学习、医学、社会科学中主导。
主观概率的合理性
质疑:“每个人的先验不同,那科学还客观吗?”
Aumann’s Agreement Theorem(1976):
如果两个理性人有相同的先验,且共享所有证据,则他们的后验必定相同。
实践含义:
- 科学家可以有不同先验
- 但随着证据积累,后验会收敛
- 数据足够多,先验影响消失
例子:
科学家A先验:引力波存在(90%)
科学家B先验:引力波存在(10%)
LIGO探测到引力波(强烈证据,LR=10^9)
科学家A后验:~100%
科学家B后验:~100%
殊途同归。
启示:
主观先验不是bug,是feature。
允许不同观点起点,但要求共同遵守贝叶斯规则更新。
延伸阅读
Sharon Bertsch McGrayne - The Theory That Would Not Die
- 贝叶斯定理的历史
Nate Silver - The Signal and the Noise
- 贝叶斯在预测中的应用
E.T. Jaynes - Probability Theory: The Logic of Science
- 贝叶斯概率的哲学基础
今日练习
练习1:日常贝叶斯
选一个你的信念(如"我应该换工作")
先验:基于目前信息,概率是多少?
收集证据:
- 和现同事聊(了解公司前景)
- 面试其他公司(了解市场行情)
- 阅读行业报告
每次证据后:
- 估计P(E|H)和P(E|¬H)
- 计算LR
- 更新后验
- 记录推理过程
1个月后:后验概率是多少?对比先验,改变多少?
练习2:福尔摩斯游戏
和朋友玩:
- 一人藏一个物品
- 另一人通过提问收集证据
- 每次回答后,大声说出后验概率
- 看谁用最少问题找到物品
练习3:反向贝叶斯
给定后验,反推需要什么证据:
如果你希望:
- 先验30% → 后验80%
- 需要LR是多少?
(0.3/0.7) × LR = (0.8/0.2)
LR = 4 / 0.4286 ≈ 9.33
需要9倍以上的强证据。
问自己:什么证据能提供LR=9?
明天预告:我们将探讨Expected Value(期望值)与Kelly Criterion(凯利公式)——如何在不确定性中优化决策和资金分配。
“当事实改变时,我改变观点。请问你呢?”
—— John Maynard Keynes(凯恩斯)
“贝叶斯思维的精髓:强势持有观点,弱势握住信念。”