7.4 博弈论:理性人如何互动?
你以为"最优策略"是独立存在的?错了——你的最优策略,取决于别人怎么选。博弈论是理解 MEV 竞争、DeFi 协议设计和 Token 经济学的底层操作系统。
开篇:为什么"最优策略"取决于别人怎么选?
我先问你一个问题:石头剪刀布,你出什么?
你可能会说:"随机出呗,三分之一的概率。"
但如果你知道对手是一个心理学高手呢?他可能会这样想:
- "大多数人第一把喜欢出石头"→ 所以他出布
- "他知道大多数人第一把出石头,所以他出布"→ 所以你出剪刀
- "他知道你知道他出布,所以你出剪刀"→ 所以他出石头
你的最优策略,不是取决于"什么最强",而是取决于"对手怎么想"。
这就是博弈论的核心思想:在一个互动的世界里,你的收益不仅取决于你自己的选择,还取决于别人的选择。
理解了这个,你就理解了:
- 为什么 MEV 机器人的竞争就像一场"军备竞赛"——你快,别人比你更快
- 为什么 DeFi 协议的流动性挖矿像"囚徒困境"——每个协议都在疯狂印币,结果大家一起亏损
- 为什么 Token 经济学设计是一门"机制设计"的艺术——你要设计一套规则,让所有人在追求自利的同时实现集体最优
- 为什么央行行长的"话术"比实际行动更重要——因为市场预期会自我实现
这节课,我们从头讲起——博弈论到底是什么?它怎么跟 Web3 产生化学反应?
第一章:博弈论基础——博弈的三个要素
1.1 什么是博弈论?一个"打牌"的故事
你和三个朋友打牌。你手里有一对 A,你觉得自己赢定了。
但你注意到:对面的小明在微笑,左边的小红在皱眉,右边的小刚在看手机。
你该怎么办?
- 如果小明在"诈唬"(bluffing),你应该跟注
- 如果小红的牌真的很好,你应该弃牌
- 如果小刚在装作不在意,他可能在等你犯错
你出什么牌,不取决于你手里有什么牌,而取决于你"读"到了什么信息。
这就是博弈论——研究"理性人"在互动中如何做决策的科学。
记忆锚点:博弈论就像打牌——你不能只看自己的牌,还要猜别人手里有什么牌,以及他们猜你手里有什么牌。
1.2 博弈的三个要素
每一个博弈,无论多复杂,都可以拆解为三个要素:
| 要素 | 英文 | 含义 | 打牌的类比 |
|---|---|---|---|
| 参与者 | Players | 谁在玩? | 你、小明、小红、小刚 |
| 策略 | Strategies | 有什么选择? | 跟注、加注、弃牌 |
| 支付 | Payoffs | 赢了得什么,输了失什么? | 赢了拿走底池,输了赔掉筹码 |
参与者(Players)
参与者就是"在游戏里的人"。关键问题:谁是参与者?谁不是?
在打牌中,参与者是四个玩家。但在 Web3 的 MEV 竞争中,参与者可能是:
- MEV 搜索者(Searchers)—— 寻找套利机会的机器人
- 区块构建者(Builders)—— 组装区块的节点
- 验证者(Validators)—— 验证区块的节点
- 普通用户 —— 发起交易的人
每个参与者都有自己的目标,而且他们的目标可能互相冲突。
记忆锚点:参与者就像"棋盘上的棋子"——每个棋子有自己的走法和目标,但它们的移动会互相影响。
策略(Strategies)
策略就是"你可以做什么选择"。关键问题:你有多少种选择?
在打牌中,你的策略是:跟注、加注、弃牌。但在 MEV 竞争中,搜索者的策略可能包括:
- 出价多少 Gas 费?
- 在哪个区块提交交易?
- 是否使用 Flashbots 的私有交易池?
- 是否"抢跑"(front-run)其他人的交易?
策略空间越大,博弈越复杂。
记忆锚点:策略就像"菜单上的菜品"——你可以在菜单上选任何一道菜,但你不能点菜单上没有的东西。
支付(Payoffs)
支付就是"你得到了什么"。关键问题:你的收益取决于什么?
在打牌中,支付很简单:赢了拿钱,输了赔钱。但在 Web3 中,支付可能很复杂:
- MEV 搜索者:利润 = 套利收益 - Gas 费 - 竞争损耗
- DeFi 协议:收益 = TVL 增长 - 代币通胀成本
- 验证者:收益 = 区块奖励 + MEV 分成 - 运营成本
支付矩阵是博弈论的核心工具——它列出了每种策略组合下,每个参与者的收益。
记忆锚点:支付就像"成绩单"——你考了多少分,不仅取决于你自己的努力,还取决于考试难度(别人的策略)。
1.3 博弈的分类
博弈论有很多分类方式,我们用一张图来理解:
Web3 中最常见的是:非合作、不完全信息、动态、重复博弈——这是最复杂的博弈类型,也是博弈论研究的重点。
第二章:纳什均衡——"谁都不想改变策略"的状态
2.1 什么是纳什均衡?一个"堵车"的故事
早上 8 点,你开车上班。有两条路可以选:
- A 路:通常 20 分钟,但如果堵车要 40 分钟
- B 路:通常 30 分钟,但很少堵车
你选了 A 路。结果发现:所有人都选了 A 路——因为大家都觉得 A 路更快。
A 路堵成了一锅粥,你花了 40 分钟才到公司。
这时候你想:下次我走 B 路吧。
但如果所有人都这么想呢?B 路就会变成新的"堵车路"。
最终,所有人都在计算"别人走哪条路",然后选择对自己最有利的路——直到达到一个平衡状态:无论你怎么换路,都不会更快。
这个状态,就是纳什均衡。
记忆锚点:纳什均衡就像"堵车"——大家都堵在一个次优的状态,但谁都不想先换路,因为换了可能更堵。
2.2 纳什均衡的正式定义
纳什均衡:在一个策略组合中,给定其他人的策略,没有任何一个参与者有动机单方面改变自己的策略。
关键词:
- 给定别人的策略:你不能控制别人怎么选
- 没有动机单方面改变:你改变策略不会让自己更好
纳什均衡不一定是最优的结果——它只是"稳定"的结果。就像堵车:所有人都堵在路上是"稳定"的,但不是"最优"的(如果大家协调一下,错峰出行,所有人都能更快到达)。
2.3 经典案例:囚徒困境
这是博弈论中最著名的案例,我用一个 Web3 的故事来讲:
场景:两个 DeFi 协议(协议 A 和协议 B)在争夺流动性。
每个协议有两个选择:
- 合作:维持合理的代币通胀率(比如年化 5%)
- 背叛:疯狂印币吸引流动性(比如年化 500%)
支付矩阵(收益用"高/中/低"表示):
用表格表示:
| 协议 B 合作 | 协议 B 背叛 | |
|---|---|---|
| 协议 A 合作 | A: 中等收益,B: 中等收益 | A: 亏损,B: 高收益 |
| 协议 A 背叛 | A: 高收益,B: 亏损 | A: 低收益,B: 低收益 |
分析:
- 如果协议 B 合作,协议 A 背叛能获得"高收益"——所以 A 想背叛
- 如果协议 B 背叛,协议 A 背叛至少能获得"低收益"(而不是"亏损")——所以 A 还是想背叛
- 无论 B 怎么选,A 的最优策略都是"背叛"
- 同理,无论 A 怎么选,B 的最优策略也是"背叛"
结果:双方都选择"背叛"——疯狂印币,代币暴跌,双输。
这就是纳什均衡:(背叛,背叛)。
但问题是:如果双方都合作,结果会更好(中等收益 vs 低收益)。
记忆锚点:囚徒困境就像"两个小偷被抓"——如果都不供出对方,两人都判 1 年;如果一个供出另一个,供出者释放,被供出者判 10 年;如果互相供出,各判 5 年。理性选择是互相供出(背叛),但结果是各判 5 年(双输)——比都不供出(各判 1 年)差得多。
2.4 囚徒困境在 Web3 中的现实映射
囚徒困境在 Web3 中无处不在:
案例一:流动性挖矿的"军备竞赛"
2020 年 DeFi Summer,SushiSwap 对 Uniswap 发起了"吸血鬼攻击"(Vampire Attack)——用高额代币奖励吸引 Uniswap 的流动性提供者。
- Uniswap 的选择:合作(不加代币奖励) vs 背叛(也发代币)
- SushiSwap 的选择:合作(不搞吸血鬼攻击) vs 背叛(疯狂发币)
结果:双方都"背叛"了——Uniswap 也发了 UNI 代币,SushiSwap 继续发 SUSHI 代币。
数据:2020-2021 年 DeFi 协议的代币通胀率平均超过 100%/年(来源:Token Terminal,2021),导致大量代币价格暴跌 90% 以上。
案例二:Gas 费竞价的"军备竞赛"
在以太坊上,当你发起一笔交易时,你需要设置 Gas 费。Gas 费越高,你的交易越快被打包。
- 如果所有人都设置低 Gas 费 → 所有人的交易都慢,但大家都省钱
- 如果有人设置高 Gas 费 → 他的交易快,但其他人被迫提高 Gas 费
- 结果:所有人都不断提高 Gas 费 → Gas 费飙升 → 大家都多花钱
这就是为什么以太坊的 Gas 费在牛市时会飙升到几百 Gwei——每个参与者都在"背叛"(提高 Gas 费),导致集体多付钱。
案例三:MEV 搜索者的"军备竞赛"
MEV(最大可提取价值)搜索者之间的竞争,是囚徒困境的极致版本:
- 如果所有搜索者都"合作"(不互相竞争)→ 大家平分 MEV 利润
- 如果有搜索者"背叛"(提高 Gas 费抢跑)→ 他拿到更多利润,其他人亏损
- 结果:所有搜索者不断提高 Gas 费 → 利润被 Gas 费吞噬 → 大家都赚得更少
据 Flashbots 数据,2024 年以太坊上 MEV 搜索者的 Gas 费支出占总 MEV 利润的 30-50%(来源:Flashbots Transparency Report,2024)。
第三章:经典博弈模型——生活中无处不在的博弈
3.1 囚徒困境:为什么"合作"这么难
我们已经在上一章详细讨论了囚徒困境。这里补充一个关键点:囚徒困境揭示了一个深刻的矛盾——个体理性 ≠ 集体理性。
生活中的囚徒困境:
| 场景 | 合作 | 背叛 | 纳什均衡 |
|---|---|---|---|
| 军备竞赛 | 双方都裁军 | 一方扩军 | 双方都扩军 |
| 价格战 | 双方都维持高价 | 一方降价 | 双方都降价 |
| 学术造假 | 双方都诚实 | 一方造假 | 双方都造假? |
| DeFi 通胀 | 双方都控制通胀 | 一方疯狂印币 | 双方都疯狂印币 |
Web3 深度案例:Curve War(曲线战争)
2021-2023 年,DeFi 领域爆发了一场"Curve War"——多个协议(Convex、Yearn、Frax 等)争夺 Curve Finance 的 CRV 代币投票权,以将流动性引导到自己的池子。
- 合作策略:各协议公平竞争,不互相"买票"
- 背叛策略:疯狂购买 CRV 代币,垄断投票权
结果:所有协议都"背叛"了——CRV 代币价格被推高,但流动性并没有实质性增加。这就是囚徒困境的典型结果:所有人都多花了钱,但没有人获得更多的好处。
记忆锚点:囚徒困境告诉我们——在没有约束机制的情况下,合作是不稳定的。这就是为什么区块链需要"共识机制"——它是一种"约束背叛"的制度设计。
3.2 智猪博弈:为什么"小猪"总是等"大猪"干活
场景:一个猪圈里有两头猪——一头大猪,一头小猪。猪圈的一头有一个按钮,按一下会掉出食物;另一头是食槽。
- 如果大猪去按按钮,小猪在食槽等着 → 大猪跑回来时,小猪已经吃掉一部分食物
- 如果小猪去按按钮,大猪在食槽等着 → 小猪跑回来时,大猪已经把食物吃光了
- 如果两头猪都不按 → 大家都饿着
理性分析:
- 大猪知道:如果自己不去按,小猪也不会去按(因为小猪按了也吃不到),所以大猪必须去按
- 小猪知道:大猪一定会去按(因为大猪按了还能吃到),所以小猪只需要等着
纳什均衡:大猪按按钮,小猪等着。
记忆锚点:智猪博弈就像"公司里的大牛和新人"——大牛干活,新人搭便车。因为大牛不干的话,项目就黄了;新人不干的话,大牛还是会干。
Web3 案例:协议开发中的"搭便车"问题
在开源 DeFi 协议中,"智猪博弈"无处不在:
- 大猪:大型协议(如 Uniswap、Aave)投入大量资源开发新功能
- 小猪:小型分叉协议(如 SushiSwap、Compound Fork)直接复制代码,免费使用
数据:截至 2025 年,DeFi 领域有超过 200 个 Uniswap V2/V3 的分叉协议(来源:DefiLlama,2025),其中大部分没有做任何原创性开发。
为什么小猪能搭便车?
因为 DeFi 协议是开源的——代码公开,任何人都可以复制。这就像智猪博弈中的按钮是"公开的"——大猪按了按钮,小猪不需要按就能吃到食物。
Web3 案例:以太坊生态中的"大猪"和"小猪"
| 角色 | 代表 | 投入 | 收益 |
|---|---|---|---|
| 大猪 | 以太坊基金会、Consensys | 数十亿美元开发基础设施 | 生态繁荣带来的 ETH 增值 |
| 小猪 | 各种 L2、DeFi 协议 | 直接使用以太坊基础设施 | 免费搭便车,利润归自己 |
以太坊的"大猪"角色解释了为什么以太坊基金会一直在"烧钱"——因为它知道,如果自己不投入,整个生态就会停滞。而"小猪"们(L2、DeFi 协议)则可以免费使用这些基础设施,专注于自己的应用层创新。
3.3 斗鸡博弈:为什么"胆小鬼"输在"先退缩"
场景:两辆车相向而行,谁先转弯谁就是"胆小鬼"(chicken)。
- 如果 A 转弯,B 直行 → A 丢脸,B 赢了
- 如果 B 转弯,A 直行 → B 丢脸,A 赢了
- 如果都不转弯 → 两车相撞,双输
- 如果都转弯 → 双方都保全面子
纳什均衡:有两个——(A 直行,B 转弯)和(A 转弯,B 直行)。
关键洞察:谁先"表态"自己绝不会转弯,谁就赢了。
记忆锚点:斗鸡博弈就像"两个黑帮老大谈判"——谁先亮出刀子,谁就赢了。因为对方知道你"不会退缩",他就会退缩。
Web3 案例:公链之间的"生态争夺战"
2021-2024 年,多个公链(Solana、Avalanche、Polygon、BNB Chain 等)争夺 DeFi 生态:
- 策略 A:疯狂撒钱吸引开发者("我绝不退缩")
- 策略 B:理性投入,等待对手犯错("我先转弯")
数据:2021-2023 年,各公链的生态基金总投入超过 50 亿美元(来源:Messari,2023),但大部分资金并没有带来持久的生态繁荣。
Solana 的"斗鸡策略":
Solana 在 2021 年采取了"绝不退缩"的策略——大量撒钱吸引开发者和用户。结果:
- 短期:TVL 飙升,代币价格暴涨
- 长期:FTX 暴雷后,生态崩塌,代币暴跌 97%
教训:在斗鸡博弈中,"绝不退缩"的策略有高回报,但也有高风险。如果对手也"绝不退缩",结果就是"两车相撞"(双输)。
3.4 性别之战:为什么"协调"比"最优"更重要
场景:一对情侣想约会,但一个人想看足球,另一个人想看电影。
- 如果两人都看足球 → 看足球的人很满意,看电影的人不太满意
- 如果两人都看电影 → 看电影的人很满意,看足球的人不太满意
- 如果一人看足球、一人看电影 → 两人都不满意(没在一起)
关键洞察:两个人在一起(协调)比各自去"最优"的地方更重要。
记忆锚点:性别之战就像"选微信还是支付宝"——不是哪个更好,而是"大家都用哪个"。协调比最优更重要。
Web3 案例:ERC-20 标准的"协调博弈"
在以太坊早期,有多种代币标准在竞争:
- ERC-20(最终胜出)
- ERC-223(试图改进 ERC-20)
- ERC-777(更复杂的代币标准)
为什么 ERC-20 胜出了?
不是因为它"最优"——ERC-223 和 ERC-777 在技术上可能更好。但 ERC-20 先发优势明显,所有钱包、交易所、DeFi 协议都支持它。
这就是"性别之战"的逻辑:协调(大家都用同一个标准)比技术最优更重要。
数据:截至 2025 年,以太坊上 95% 以上的代币使用 ERC-20 标准(来源:Etherscan,2025),即使有技术上更优的替代方案。
第四章:动态博弈——先手优势与后发制人
4.1 什么是动态博弈?一个"下棋"的故事
你和朋友下象棋。你先走(执红),他后走(执黑)。
你的每一步棋,都会影响他下一步的选择;他的每一步棋,也会影响你下一步的选择。
这就是动态博弈——参与者有先有后地行动,后行动的人可以看到先行动的人的选择。
与静态博弈(所有人同时出招)不同,动态博弈有一个关键特征:先手优势。
记忆锚点:动态博弈就像"下棋"——你不能只考虑"这一步好不好",还要考虑"这一步会导致对手怎么回应"。
4.2 子博弈完美均衡
在动态博弈中,纳什均衡可能包含"不可信的威胁"。
例子:一个协议威胁说"如果你抄袭我的代码,我就发动 51% 攻击毁掉整条链"。
这个威胁可信吗?不可信——因为发动 51% 攻击的成本太高,而且会毁掉攻击者自己的资产。
子博弈完美均衡(Subgame Perfect Equilibrium)要求:在博弈的每一个阶段,每个参与者的策略都是最优的——排除了"不可信的威胁"。
记忆锚点:子博弈完美均衡就像"真正的棋局"——不是说"我要怎么怎么威胁你",而是"在每一步棋上,我都走最优的那一步"。
4.3 逆向归纳法:从结果倒推策略
动态博弈的核心分析工具是逆向归纳法(Backward Induction)——从博弈的最后一步开始,倒推每一步的最优策略。
例子:你和对手在竞拍一个 NFT。
- 最后一轮:对手出价 100 ETH。你要不要出 101 ETH?
- 如果这个 NFT 对你值 105 ETH → 出价(赚 4 ETH)
- 如果这个 NFT 对你值 95 ETH → 不出价(亏 6 ETH)
- 倒数第二轮:你知道对手在最后一轮的策略,所以你在这一轮就考虑好后续
逆向归纳法的核心思想:不要只看眼前,要看整盘棋。
Web3 案例:MEV 竞争中的"逆向归纳"
MEV 搜索者在竞价时,实际上在做逆向归纳:
- 最后一步:这个区块能提取多少 MEV?→ 确定"天花板"
- 倒推:我最多能出多少 Gas 费?→ MEV 利润 - Gas 费 > 0
- 再倒推:对手会出多少 Gas 费?→ 我需要出比对手更高的 Gas 费
- 最终决策:出一个"刚好比对手高一点"的 Gas 费
这就是为什么 MEV 竞争如此激烈——每个搜索者都在做逆向归纳,试图找到"刚好比对手高一点"的出价。
4.4 Web3 深度案例:MEV 竞争中的"先到先得"vs"后发制人"
MEV 竞争是动态博弈的"完美实验场"。
场景:一个 DEX 上出现了价格失衡——Token A 在 Uniswap 上的价格比 SushiSwap 低 5%。
搜索者 A(先发制人):
- 在 Mempool 中发现这笔大额交易
- 立即提交一笔"抢跑"交易(front-run),在大额交易之前买入
- 大额交易执行后,价格上升,搜索者 A 卖出获利
搜索者 B(后发制人):
- 等搜索者 A 的抢跑交易被打包
- 然后提交一笔"回跑"交易(back-run),在搜索者 A 卖出后买入
- 利用搜索者 A 造成的短期价格波动获利
博弈分析:
| 策略 | 搜索者 A | 搜索者 B |
|---|---|---|
| A 先发,B 后发 | A 赚 MEV,B 赚残余 | B 的利润取决于 A 的行为 |
| B 先发,A 后发 | B 赚 MEV,A 赚残余 | A 的利润取决于 B 的行为 |
| 同时抢跑 | Gas 费竞价,胜者通吃 | 败者白付 Gas 费 |
数据:据 Flashbots 统计,2024 年以太坊上约 70% 的 MEV 交易涉及"三明治攻击"(sandwich attack)——即同时包含"抢跑"和"回跑"的策略(来源:Flashbots,2024)。
记忆锚点:MEV 竞争就像"拍卖会上的最后 10 秒"——你不能太早出价(暴露意图),也不能太晚出价(错过机会)。关键是在"恰到好处"的时机出价。
第五章:重复博弈——为什么"长期关系"能促成合作
5.1 一次性博弈 vs 重复博弈
还记得囚徒困境吗?在一次性博弈中,双方都会选择"背叛"——因为背叛是"占优策略"。
但如果这个博弈要重复 100 次呢?
情况完全不同了。
在一次性博弈中:
- 你背叛 → 对方无法报复 → 你赚了
在重复博弈中:
- 你背叛 → 对方下一轮也背叛 → 你亏了
- 你合作 → 对方下一轮也合作 → 你们都赚了
重复博弈创造了"未来的影子"(Shadow of the Future)——你今天的行为会影响明天的结果。
记忆锚点:一次性博弈就像"在旅游景区被宰"——商家知道你不会再来,所以宰你没商量。重复博弈就像"小区门口的便利店"——老板知道你天天来,所以不敢宰你。
5.2 无名氏定理:无限重复博弈中合作可以成为均衡
无名氏定理(Folk Theorem)是重复博弈中最深刻的结论:
在无限重复博弈中,只要参与者有足够的耐心(折现因子足够大),任何"可行的、个体理性的"收益组合都可以成为均衡。
翻译成人话:如果你们要长期打交道,合作是完全可能的——只要大家都足够看重未来。
关键条件:
- 博弈必须是无限重复的(或不确定何时结束)
- 参与者必须有足够的耐心(折现因子 δ 足够大)
- 背叛必须能被"惩罚"(有可信的报复机制)
记忆锚点:无名氏定理就像"邻居关系"——如果你在一个小区住一辈子,你一定会和邻居搞好关系。因为你知道,今天坑了邻居,明天他就会报复你。
5.3 "以牙还牙"策略
在重复博弈中,最著名的策略是**"以牙还牙"(Tit for Tat)**:
- 第一轮:合作
- 之后每一轮:模仿对手上一轮的行动
- 对手上一轮合作 → 你这一轮合作
- 对手上一轮背叛 → 你这一轮背叛
"以牙还牙"的神奇之处:
- 它是善良的(第一轮合作)
- 它是可报复的(对手背叛,你也背叛)
- 它是宽容的(对手改邪归正,你也原谅)
- 它是清晰的(对手能理解你的策略)
Axelrod 锦标赛:1980 年,政治学家 Robert Axelrod 组织了一场计算机锦标赛,让各种策略互相博弈。结果"以牙还牙"策略赢得了比赛。
记忆锚点:以牙还牙就像"做人之道"——先对人好,但如果别人对你不好,你也别客气;但如果别人改好了,你也原谅他。
5.4 Web3 案例:DeFi 协议的声誉机制 = 重复博弈
在 DeFi 世界中,"声誉"就是重复博弈的"影子"。
案例一:Aave 的信用委托
Aave V3 引入了"信用委托"(Credit Delegation)功能——一个用户可以将自己的信用额度委托给另一个用户。
- 如果被委托人按时还款 → 委托人信任他,下次继续委托
- 如果被委托人违约 → 委托人不再信任他,其他用户也会知道
这就是重复博弈:你要在 DeFi 世界中长期生存,就必须维护自己的"链上声誉"。
案例二:Uniswap 的流动性提供者
流动性提供者(LP)在 Uniswap 上的行为是一种重复博弈:
- 如果 LP 长期提供流动性 → 赚取交易费,建立声誉
- 如果 LP 频繁撤出流动性 → 可能被视为"不可靠",其他协议不愿意合作
数据:据 Uniswap 官方统计,2024 年约 60% 的流动性提供者是"长期 LP"(持有头寸超过 6 个月),这说明重复博弈的"合作均衡"在 DeFi 中是存在的(来源:Uniswap Analytics,2024)。
案例三:链上声誉系统
多个项目正在构建"链上声誉系统"——将用户的链上行为记录下来,作为未来合作的参考:
| 项目 | 机制 | 博弈论原理 |
|---|---|---|
| EigenLayer | Restaking 声誉 | 质押越多,声誉越高,但也越"绑定" |
| Gitcoin Passport | 链上身份验证 | 身份越丰富,可信度越高 |
| POAP | 出席证明 | 参与越多,社区信任度越高 |
这些系统本质上是在将一次性博弈转化为重复博弈——让用户知道"你的行为会被记录",从而激励合作。
第六章:不完全信息博弈——"我不知道你手里有什么牌"
6.1 什么是不完全信息博弈?一个"二手车市场"的故事
你想买一辆二手车。卖家说:"这辆车状况很好,值 10 万。"
但你不知道:
- 这辆车是"好车"(值 10 万)还是"柠檬"(值 3 万)?
- 卖家是不是在骗你?
- 卖家比你更了解这辆车的真实状况
这就是不完全信息博弈——有些参与者拥有其他参与者不知道的"私有信息"。
记忆锚点:不完全信息博弈就像"打牌时你只能看到自己的牌"——你不知道对手手里有什么牌,只能通过他的"行为"来猜测。
6.2 贝叶斯纳什均衡
在不完全信息博弈中,纳什均衡被推广为贝叶斯纳什均衡(Bayesian Nash Equilibrium):
每个参与者根据自己的"信念"(对其他参与者类型的概率估计)选择最优策略。
翻译成人话:你不知道对手是什么类型,但你可以根据他的行为来"更新"你的信念。
例子:你在二手车市场,看到一辆标价 8 万的车。
- 你的先验信念:50% 概率是好车,50% 概率是柠檬
- 你观察到:卖家愿意提供 1 年质保
- 你更新信念:提供质保的卖家更可能是卖好车的(因为卖柠檬的卖家不敢提供质保)
- 你的后验信念:70% 概率是好车,30% 概率是柠檬
这就是贝叶斯更新——通过观察行为来推断"隐藏的类型"。
6.3 信号博弈:如何用行动"传递信息"
在不完全信息博弈中,拥有私有信息的一方可以通过"行动"来传递信息——这叫信号博弈(Signaling Game)。
经典案例:教育的信号功能
为什么企业更愿意招名校毕业生?
- 解释一:名校教育提高了生产力(人力资本理论)
- 解释二:名校文凭是一个"信号"——只有聪明、勤奋的人才能考上名校(信号理论)
信号理论的核心:信号必须是"有成本的"——如果每个人都能发出同样的信号,信号就没有信息量了。
记忆锚点:信号博弈就像"孔雀开屏"——孔雀通过展示华丽的尾巴来传递"我是优质基因"的信号。但开屏是有成本的(容易被捕食者发现),所以只有真正健康的孔雀才敢开屏。
Web3 案例:ICO/IDO 中的信号博弈
在 ICO/IDO 中,项目方和投资者之间存在严重的信息不对称:
- 项目方知道:项目是否靠谱,团队是否有能力
- 投资者不知道:只能通过"信号"来判断
项目方的信号:
| 信号 | 含义 | 可信度 |
|---|---|---|
| 知名 VC 投资 | 专业机构已经尽调 | 高(VC 有声誉成本) |
| 开源代码 | 项目是透明的 | 中(代码可能是抄的) |
| 审计报告 | 合约没有漏洞 | 中(审计公司可能有利益冲突) |
| 团队实名 | 团队愿意承担法律责任 | 高(匿名团队跑路成本低) |
| 锁仓机制 | 团队不会立即套现 | 高(锁仓有时间成本) |
数据:据 CoinGecko 统计,2024 年获得顶级 VC(如 a16z、Paradigm)投资的项目,代币上线后平均回报率为 150%;而没有 VC 投资的项目,平均回报率为 -30%(来源:CoinGecko,2024)。这说明 VC 投资是一个有效的"信号"。
6.4 Web3 中的信息不对称问题
信息不对称在 Web3 中无处不在:
场景一:NFT 市场的"柠檬问题"
NFT 市场是典型的"柠檬市场":
- 卖家知道:NFT 的真实价值(是否是"蓝筹"、是否有社区)
- 买家不知道:只能通过价格、交易量、社交媒体热度来判断
结果:买家愿意支付的价格 = 平均质量的价格 → 高质量 NFT 被低估,低质量 NFT 被高估 → 高质量卖家退出市场 → 市场平均质量下降 → 买家出价更低 → 螺旋式下降
这就是阿克洛夫(Akerlof)的"柠檬市场"理论——信息不对称会导致市场失灵。
场景二:DeFi 协议的"黑箱问题"
很多 DeFi 协议的内部运作是不透明的:
- 协议方知道:智能合约的真实安全性、团队的真实意图
- 用户不知道:只能通过审计报告、社区讨论来判断
信号解决方案:
| 信号 | 机制 | 效果 |
|---|---|---|
| 多重审计 | 找 3+ 家审计公司 | 降低单点利益冲突风险 |
| Bug Bounty | 设立漏洞赏金 | 激励白帽黑客发现漏洞 |
| 时间锁 | 治理操作有延迟 | 给用户反应时间 |
| 保险协议 | 如 Nexus Mutual | 为用户提供安全网 |
第七章:机制设计——如何设计"让人说真话"的规则
7.1 什么是机制设计?一个"分蛋糕"的故事
两个小孩要分一块蛋糕。怎么分才公平?
方法一:一个孩子切,另一个孩子先选。
- 切蛋糕的孩子会尽量切得均匀——因为如果切歪了,另一个孩子会拿走大的那块
- 结果:蛋糕被公平地分成两半
方法二:一个孩子切,自己先选。
- 切蛋糕的孩子会故意切得一大一小——然后自己拿大的那块
- 结果:不公平
方法一就是"机制设计"的精髓——设计一套规则,让参与者在追求自利的同时实现集体最优。
记忆锚点:机制设计就像"分蛋糕"——切蛋糕的人最后选。这个简单的规则,保证了公平的结果——不需要道德说教,只需要好的制度设计。
7.2 拍卖理论:四种拍卖方式的博弈分析
拍卖是机制设计的经典应用。我们来看四种拍卖方式:
英式拍卖(English Auction)
- 规则:从低价开始,参与者轮流加价,最高价者得
- 博弈分析:参与者会一直加价,直到价格超过自己的估值
- 结果:物品归估值最高的人,价格接近第二高的估值
荷兰拍卖(Dutch Auction)
- 规则:从高价开始,价格逐渐下降,第一个叫停的人得
- 博弈分析:参与者需要在"等更低价格"和"怕被别人抢走"之间权衡
- 结果:价格取决于参与者的"风险偏好"
密封拍卖(Sealed-bid Auction)
- 规则:所有参与者同时提交密封报价,最高价者得
- 博弈分析:参与者需要猜测别人的出价,然后出一个"刚好比别人高一点"的价格
- 结果:取决于信息对称性
维克里拍卖(Vickrey Auction)
- 规则:密封拍卖,但最高价者以第二高的价格购买
- 博弈分析:参与者的最优策略是"如实报告自己的估值"
- 结果:物品归估值最高的人,价格等于第二高的估值
记忆锚点:维克里拍卖就像"真心话大冒险"——规则设计得让你不得不说真话,因为说真话是你的最优策略。
7.3 激励相容:让参与者追求个人利益时也实现集体最优
机制设计的核心原则是激励相容(Incentive Compatibility):
好的机制应该让参与者在追求个人利益的同时,也实现集体最优。
翻译成人话:不要指望人们"做好事"——设计一套规则,让"做好事"成为他们的最优选择。
Web3 案例:PoS 共识机制的激励设计
以太坊的 PoS(Proof of Stake)共识机制是一个精妙的激励相容设计:
| 行为 | 激励 | 结果 |
|---|---|---|
| 诚实验证 | 获得区块奖励 | 集体安全 |
| 恶意验证 | 被罚没质押(Slashing) | 个人损失 |
| 不活跃 | 被罚没质押(Inactivity Leak) | 个人损失 |
数据:截至 2025 年,以太坊上约 3300 万 ETH 被质押(约占总供应量的 27%),罚没事件极少(每年不到 100 起),说明激励机制是有效的(来源:Beaconcha.in,2025)。
7.4 Web3 深度案例:Token 经济学设计 = 机制设计
Token 经济学设计,本质上就是机制设计——设计一套规则,让所有参与者(用户、开发者、投资者、验证者)在追求自利的同时,实现协议的长期繁荣。
案例一:Curve 的 veToken 模型
Curve Finance 设计了 veCRV(vote-escrowed CRV)机制:
- 用户锁仓 CRV 代币 → 获得 veCRV
- veCRV 持有者可以投票决定流动性挖矿的奖励分配
- 锁仓时间越长,投票权越大
激励分析:
| 参与者 | 激励 | 行为 |
|---|---|---|
| 流动性提供者 | 获得 CRV 奖励 | 提供流动性 |
| CRV 持有者 | 获得投票权 + 交易费分成 | 锁仓 CRV |
| 协议 | 流动性深度增加 | 吸引更多用户 |
博弈论原理:veToken 模型将"一次性博弈"转化为"重复博弈"——锁仓时间越长,参与者的"退出成本"越高,越倾向于长期合作。
案例二:Optimism 的 Retroactive Public Goods Funding
Optimism 设计了一种"回溯性公共物品资助"机制:
- 先让开发者自由建设
- 然后由代币持有者投票决定哪些项目对生态贡献最大
- 对贡献最大的项目给予奖励
激励分析:
| 参与者 | 激励 | 行为 |
|---|---|---|
| 开发者 | 获得回溯性奖励 | 建设有价值的项目 |
| 代币持有者 | 生态繁荣带来的代币增值 | 投票支持优质项目 |
| 协议 | 生态繁荣 | 吸引更多开发者 |
博弈论原理:这是一种"事后激励"机制——先让参与者自由行动,然后根据结果给予奖励。这避免了"事前激励"的道德风险(拿了钱不好好干)。
案例三:EigenLayer 的 Restaking 机制
EigenLayer 设计了一种"再质押"机制:
- 用户将已质押的 ETH 再次质押到 EigenLayer
- EigenLayer 将这些"再质押"的 ETH 用作其他协议的安全保障
- 用户获得额外的奖励,但也承担额外的罚没风险
激励分析:
| 参与者 | 激励 | 风险 |
|---|---|---|
| 再质押者 | 额外收益 | 双重罚没风险 |
| AVS 协议 | 获得安全保障 | 需要设计合理的罚没条件 |
| EigenLayer | 平台费收入 | 系统性风险 |
博弈论原理:这是一种"信号博弈"——愿意承担更高风险的再质押者,传递了"我对自己的行为有信心"的信号。
第八章:前瞻性指引——央行如何用博弈论管理预期
8.1 什么是前瞻性指引?一个"老师说考试范围"的故事
期中考试前,老师说:"这次考试只考前 5 章。"
你的反应:只复习前 5 章。
但如果老师改口说:"其实第 6 章也考。"
你的反应:赶紧复习第 6 章。
老师的话改变了你的行为——即使考试还没开始。
这就是前瞻性指引(Forward Guidance)——通过"提前宣布未来的政策意图"来影响人们当前的行为。
记忆锚点:前瞻性指引就像"老师说考试范围"——老师不需要真的出题,只需要"说"考试范围,就能改变学生的复习策略。
8.2 央行的"话术"如何影响市场
央行行长的每一句话,都被市场解读为"政策信号":
| 央行表态 | 市场解读 | 市场反应 |
|---|---|---|
| "通胀是暂时的" | 不会急着加息 | 股市上涨 |
| "我们将坚决遏制通胀" | 可能大幅加息 | 股市下跌 |
| "经济前景不确定" | 可能暂停加息 | 市场观望 |
| "我们有足够的工具" | 可能降息/扩表 | 风险资产上涨 |
数据:据美联储研究,2022-2024 年,美联储主席鲍威尔的每次公开讲话后,标普 500 指数的平均波动幅度达到 1.5%(来源:Federal Reserve Bank of San Francisco,2024)。这说明"话术"的影响力巨大。
8.3 时间不一致性问题
前瞻性指引有一个根本性问题:时间不一致性(Time Inconsistency)。
场景:
- 央行宣布:"未来一年不加息"
- 一年后,通胀飙升
- 央行面临选择:加息(违背承诺) vs 不加息(放任通胀)
如果央行加息:市场会失去对央行的信任 → 未来的前瞻性指引失效 如果央行不加息:通胀失控 → 经济受损
这就是时间不一致性——今天的最优承诺,在明天可能不是最优的。
记忆锚点:时间不一致性就像"减肥时的自己"——今天说"明天开始减肥",明天又说"后天再开始"。承诺和行动之间总有差距。
Web3 案例:项目方的"路线图" = 前瞻性指引
Web3 项目方的"路线图"(Roadmap)就是一种前瞻性指引:
| 路线图承诺 | 用户预期 | 如果兑现 | 如果食言 |
|---|---|---|---|
| "Q2 上线主网" | 主网上线后期望收益 | 代币上涨,用户信任 | 代币暴跌,用户流失 |
| "年内实现去中心化治理" | 治理代币有投票权 | 生态繁荣 | 代币失去价值支撑 |
| "与顶级交易所合作" | 流动性增加 | 交易量上升 | 代币难以交易 |
数据:据 Messari 研究,2023-2024 年,路线图兑现率超过 80% 的项目,代币平均回报率为 120%;而兑现率低于 50% 的项目,代币平均回报率为 -60%(来源:Messari,2024)。
教训:在 Web3 世界中,"说到做到"是最稀缺的能力。因为区块链是透明的,所有的承诺都会被记录——食言的代价比传统世界更高。
第九章:OPC 实战——用博弈论分析 DeFi 和 MEV
9.1 MEV 竞争 = 博弈论的"完美实验场"
MEV(最大可提取价值)竞争是博弈论在 Web3 中最直接的应用。
为什么 MEV 是"完美实验场"?
| 特征 | MEV 竞争 | 传统博弈论 |
|---|---|---|
| 参与者明确 | 搜索者、构建者、验证者 | 通常假设参与者已知 |
| 策略空间有限 | Gas 费、交易顺序、时间 | 策略空间通常无限 |
| 支付可量化 | 利润 = MEV - Gas 费 | 支付通常用效用函数 |
| 信息部分透明 | Mempool 是公开的 | 信息结构复杂 |
| 重复性高 | 每 12 秒一个区块 | 博弈通常只分析一次 |
MEV 的博弈结构:
9.2 DeFi 协议之间的流动性竞争
DeFi 协议之间的流动性竞争,是囚徒困境的现实版本。
竞争策略分析:
| 策略 | 短期效果 | 长期效果 | 博弈论模型 |
|---|---|---|---|
| 高通胀挖矿 | 吸引流动性 | 代币暴跌 | 囚徒困境(背叛) |
| 低通胀 + 真实收益 | 流动性增长慢 | 可持续增长 | 重复博弈(合作) |
| veToken 锁仓 | 绑定长期用户 | 建立护城河 | 机制设计(激励相容) |
| 贿赂市场 | 短期流动性增加 | 生态碎片化 | 智猪博弈(搭便车) |
数据对比:
| 协议 | 策略 | TVL 变化(2023-2024) | 代币价格变化 |
|---|---|---|---|
| Curve | veToken + 低通胀 | 稳定在 $3B-$5B | 相对稳定 |
| SushiSwap | 高通胀 → 转型 | 从 $5B 降至 $500M | 下跌 90%+ |
| Uniswap | 无代币通胀 | 稳定在 $4B-$6B | 相对稳定 |
(来源:DefiLlama,2024)
教训:在流动性竞争中,"背叛"(高通胀)只能获得短期优势;"合作"(可持续的代币经济学)才能获得长期胜利。
9.3 套利机器人之间的博弈
套利机器人之间的竞争,是动态博弈 + 重复博弈的结合。
博弈维度:
| 维度 | 策略选择 | 博弈论模型 |
|---|---|---|
| Gas 费竞价 | 出多少 Gas? | 拍卖理论(维克里拍卖) |
| 交易时机 | 何时提交交易? | 动态博弈(先手 vs 后手) |
| 策略保密 | 是否公开策略? | 不完全信息博弈 |
| 合作 vs 竞争 | 是否与其他机器人合作? | 囚徒困境 |
实战案例:三明治攻击的博弈分析
三明治攻击(Sandwich Attack)是一种经典的 MEV 策略:
- 观察:在 Mempool 中发现一笔大额买单
- 抢跑:在大额买单之前买入(推高价格)
- 等待:大额买单执行(进一步推高价格)
- 回跑:在大额买单之后卖出(获利)
博弈分析:
| 角色 | 策略 | 收益 |
|---|---|---|
| 攻击者 | 抢跑 + 回跑 | 大额买单造成的滑点收益 |
| 受害者 | 被动 | 支付更高的价格(滑点损失) |
| 其他搜索者 | 观察或竞争 | 分享或失去 MEV |
反制策略:
| 反制方法 | 机制 | 博弈论原理 |
|---|---|---|
| Flashbots Protect | 私有交易池 | 信息隐藏(不完全信息博弈) |
| 滑点保护 | 设置最大滑点 | 限制攻击者的利润空间 |
| 时间加权订单 | 分批执行 | 降低单笔交易的 MEV 吸引力 |
| 私有 RPC | 不公开交易 | 完全隐藏信息 |
核心洞察
博弈论的三句话总结
- 你的最优策略取决于别人怎么选——博弈论的核心是"互动",不是"独立决策"
- 纳什均衡不等于最优结果——囚徒困境告诉我们,理性人的互动可能导致双输
- 好的制度设计比道德说教更有效——机制设计的精髓是"让做好事成为最优选择"
参考与延伸
[1] Nisan, Roughgarden, Tardos, Vazirli. "Algorithmic Game Theory"(2007)— 博弈论与机制设计的经典教材,涵盖拍卖理论、纳什均衡、不完全信息博弈等核心概念
[2] Flashbots. "MEV and Me"(2024)— MEV 的博弈论分析,包括搜索者竞争、三明治攻击、Flashbots 机制设计
[3] Vitalik Buterin. "Hard Problems in Cryptocurrency: Five Years Later"(2019)— 区块链中的博弈论问题,包括共识机制设计、激励相容、MEV 缓解
[4] Token Terminal. "DeFi Revenue and TVL Dashboard"(2025)— DeFi 协议的收入、TVL、代币通胀率等数据,用于分析流动性竞争的博弈论动态
[5] Axelrod. "The Evolution of Cooperation"(1984)— 重复博弈与合作的演化,"以牙还牙"策略的经典研究
[6] Messari. "State of DeFi 2024"(2024)— DeFi 生态的全面分析,包括流动性竞争、代币经济学、协议收入等数据
[7] Akerlof. "The Market for Lemons"(1970)— 信息不对称与市场失灵的经典论文,适用于分析 NFT 市场和 ICO 中的柠檬问题
[8] Federal Reserve Bank of San Francisco. "Forward Guidance and Market Reactions"(2024)— 前瞻性指引对市场影响的实证研究,用于分析央行话术的博弈论效应