Skip to content

7.4 博弈论:理性人如何互动?

你以为"最优策略"是独立存在的?错了——你的最优策略,取决于别人怎么选。博弈论是理解 MEV 竞争、DeFi 协议设计和 Token 经济学的底层操作系统。

开篇:为什么"最优策略"取决于别人怎么选?

我先问你一个问题:石头剪刀布,你出什么?

你可能会说:"随机出呗,三分之一的概率。"

但如果你知道对手是一个心理学高手呢?他可能会这样想:

  • "大多数人第一把喜欢出石头"→ 所以他出布
  • "他知道大多数人第一把出石头,所以他出布"→ 所以你出剪刀
  • "他知道你知道他出布,所以你出剪刀"→ 所以他出石头

你的最优策略,不是取决于"什么最强",而是取决于"对手怎么想"。

这就是博弈论的核心思想:在一个互动的世界里,你的收益不仅取决于你自己的选择,还取决于别人的选择

理解了这个,你就理解了:

  • 为什么 MEV 机器人的竞争就像一场"军备竞赛"——你快,别人比你更快
  • 为什么 DeFi 协议的流动性挖矿像"囚徒困境"——每个协议都在疯狂印币,结果大家一起亏损
  • 为什么 Token 经济学设计是一门"机制设计"的艺术——你要设计一套规则,让所有人在追求自利的同时实现集体最优
  • 为什么央行行长的"话术"比实际行动更重要——因为市场预期会自我实现

这节课,我们从头讲起——博弈论到底是什么?它怎么跟 Web3 产生化学反应?


第一章:博弈论基础——博弈的三个要素

1.1 什么是博弈论?一个"打牌"的故事

你和三个朋友打牌。你手里有一对 A,你觉得自己赢定了。

但你注意到:对面的小明在微笑,左边的小红在皱眉,右边的小刚在看手机。

你该怎么办?

  • 如果小明在"诈唬"(bluffing),你应该跟注
  • 如果小红的牌真的很好,你应该弃牌
  • 如果小刚在装作不在意,他可能在等你犯错

你出什么牌,不取决于你手里有什么牌,而取决于你"读"到了什么信息。

这就是博弈论——研究"理性人"在互动中如何做决策的科学

记忆锚点:博弈论就像打牌——你不能只看自己的牌,还要猜别人手里有什么牌,以及他们猜你手里有什么牌。

1.2 博弈的三个要素

每一个博弈,无论多复杂,都可以拆解为三个要素:

要素英文含义打牌的类比
参与者Players谁在玩?你、小明、小红、小刚
策略Strategies有什么选择?跟注、加注、弃牌
支付Payoffs赢了得什么,输了失什么?赢了拿走底池,输了赔掉筹码

参与者(Players)

参与者就是"在游戏里的人"。关键问题:谁是参与者?谁不是?

在打牌中,参与者是四个玩家。但在 Web3 的 MEV 竞争中,参与者可能是:

  • MEV 搜索者(Searchers)—— 寻找套利机会的机器人
  • 区块构建者(Builders)—— 组装区块的节点
  • 验证者(Validators)—— 验证区块的节点
  • 普通用户 —— 发起交易的人

每个参与者都有自己的目标,而且他们的目标可能互相冲突。

记忆锚点:参与者就像"棋盘上的棋子"——每个棋子有自己的走法和目标,但它们的移动会互相影响。

策略(Strategies)

策略就是"你可以做什么选择"。关键问题:你有多少种选择?

在打牌中,你的策略是:跟注、加注、弃牌。但在 MEV 竞争中,搜索者的策略可能包括:

  • 出价多少 Gas 费?
  • 在哪个区块提交交易?
  • 是否使用 Flashbots 的私有交易池?
  • 是否"抢跑"(front-run)其他人的交易?

策略空间越大,博弈越复杂。

记忆锚点:策略就像"菜单上的菜品"——你可以在菜单上选任何一道菜,但你不能点菜单上没有的东西。

支付(Payoffs)

支付就是"你得到了什么"。关键问题:你的收益取决于什么?

在打牌中,支付很简单:赢了拿钱,输了赔钱。但在 Web3 中,支付可能很复杂:

  • MEV 搜索者:利润 = 套利收益 - Gas 费 - 竞争损耗
  • DeFi 协议:收益 = TVL 增长 - 代币通胀成本
  • 验证者:收益 = 区块奖励 + MEV 分成 - 运营成本

支付矩阵是博弈论的核心工具——它列出了每种策略组合下,每个参与者的收益。

记忆锚点:支付就像"成绩单"——你考了多少分,不仅取决于你自己的努力,还取决于考试难度(别人的策略)。

1.3 博弈的分类

博弈论有很多分类方式,我们用一张图来理解:

博弈的分类

按合作性分

按信息分

按时间分

按次数分

合作博弈
参与者可以结盟

非合作博弈
参与者各自为战

完全信息
所有人都知道规则

不完全信息
有人藏着底牌

静态博弈
同时出招

动态博弈
有先有后

一次性博弈
只玩一次

重复博弈
反复玩

Web3 中最常见的是:非合作、不完全信息、动态、重复博弈——这是最复杂的博弈类型,也是博弈论研究的重点。


第二章:纳什均衡——"谁都不想改变策略"的状态

2.1 什么是纳什均衡?一个"堵车"的故事

早上 8 点,你开车上班。有两条路可以选:

  • A 路:通常 20 分钟,但如果堵车要 40 分钟
  • B 路:通常 30 分钟,但很少堵车

你选了 A 路。结果发现:所有人都选了 A 路——因为大家都觉得 A 路更快。

A 路堵成了一锅粥,你花了 40 分钟才到公司。

这时候你想:下次我走 B 路吧。

但如果所有人都这么想呢?B 路就会变成新的"堵车路"。

最终,所有人都在计算"别人走哪条路",然后选择对自己最有利的路——直到达到一个平衡状态:无论你怎么换路,都不会更快

这个状态,就是纳什均衡

记忆锚点:纳什均衡就像"堵车"——大家都堵在一个次优的状态,但谁都不想先换路,因为换了可能更堵。

2.2 纳什均衡的正式定义

纳什均衡:在一个策略组合中,给定其他人的策略,没有任何一个参与者有动机单方面改变自己的策略

关键词:

  • 给定别人的策略:你不能控制别人怎么选
  • 没有动机单方面改变:你改变策略不会让自己更好

纳什均衡不一定是最优的结果——它只是"稳定"的结果。就像堵车:所有人都堵在路上是"稳定"的,但不是"最优"的(如果大家协调一下,错峰出行,所有人都能更快到达)。

2.3 经典案例:囚徒困境

这是博弈论中最著名的案例,我用一个 Web3 的故事来讲:

场景:两个 DeFi 协议(协议 A 和协议 B)在争夺流动性。

每个协议有两个选择:

  • 合作:维持合理的代币通胀率(比如年化 5%)
  • 背叛:疯狂印币吸引流动性(比如年化 500%)

支付矩阵(收益用"高/中/低"表示):

囚徒困境:DeFi 流动性竞争

协议 A 合作

协议 B 合作
→ 双方都获得中等收益
(稳定增长)

协议 A 合作

协议 B 背叛
→ B 拿走所有流动性
→ A 被掏空

协议 A 背叛

协议 B 合作
→ A 拿走所有流动性
→ B 被掏空

协议 A 背叛

协议 B 背叛
→ 双方疯狂印币
→ 代币暴跌,双输

用表格表示:

协议 B 合作协议 B 背叛
协议 A 合作A: 中等收益,B: 中等收益A: 亏损,B: 高收益
协议 A 背叛A: 高收益,B: 亏损A: 低收益,B: 低收益

分析

  • 如果协议 B 合作,协议 A 背叛能获得"高收益"——所以 A 想背叛
  • 如果协议 B 背叛,协议 A 背叛至少能获得"低收益"(而不是"亏损")——所以 A 还是想背叛
  • 无论 B 怎么选,A 的最优策略都是"背叛"
  • 同理,无论 A 怎么选,B 的最优策略也是"背叛"

结果:双方都选择"背叛"——疯狂印币,代币暴跌,双输。

这就是纳什均衡:(背叛,背叛)

但问题是:如果双方都合作,结果会更好(中等收益 vs 低收益)

记忆锚点:囚徒困境就像"两个小偷被抓"——如果都不供出对方,两人都判 1 年;如果一个供出另一个,供出者释放,被供出者判 10 年;如果互相供出,各判 5 年。理性选择是互相供出(背叛),但结果是各判 5 年(双输)——比都不供出(各判 1 年)差得多。

2.4 囚徒困境在 Web3 中的现实映射

囚徒困境在 Web3 中无处不在:

案例一:流动性挖矿的"军备竞赛"

2020 年 DeFi Summer,SushiSwap 对 Uniswap 发起了"吸血鬼攻击"(Vampire Attack)——用高额代币奖励吸引 Uniswap 的流动性提供者。

  • Uniswap 的选择:合作(不加代币奖励) vs 背叛(也发代币)
  • SushiSwap 的选择:合作(不搞吸血鬼攻击) vs 背叛(疯狂发币)

结果:双方都"背叛"了——Uniswap 也发了 UNI 代币,SushiSwap 继续发 SUSHI 代币。

数据:2020-2021 年 DeFi 协议的代币通胀率平均超过 100%/年(来源:Token Terminal,2021),导致大量代币价格暴跌 90% 以上。

案例二:Gas 费竞价的"军备竞赛"

在以太坊上,当你发起一笔交易时,你需要设置 Gas 费。Gas 费越高,你的交易越快被打包。

  • 如果所有人都设置低 Gas 费 → 所有人的交易都慢,但大家都省钱
  • 如果有人设置高 Gas 费 → 他的交易快,但其他人被迫提高 Gas 费
  • 结果:所有人都不断提高 Gas 费 → Gas 费飙升 → 大家都多花钱

这就是为什么以太坊的 Gas 费在牛市时会飙升到几百 Gwei——每个参与者都在"背叛"(提高 Gas 费),导致集体多付钱

案例三:MEV 搜索者的"军备竞赛"

MEV(最大可提取价值)搜索者之间的竞争,是囚徒困境的极致版本:

  • 如果所有搜索者都"合作"(不互相竞争)→ 大家平分 MEV 利润
  • 如果有搜索者"背叛"(提高 Gas 费抢跑)→ 他拿到更多利润,其他人亏损
  • 结果:所有搜索者不断提高 Gas 费 → 利润被 Gas 费吞噬 → 大家都赚得更少

据 Flashbots 数据,2024 年以太坊上 MEV 搜索者的 Gas 费支出占总 MEV 利润的 30-50%(来源:Flashbots Transparency Report,2024)。


第三章:经典博弈模型——生活中无处不在的博弈

3.1 囚徒困境:为什么"合作"这么难

我们已经在上一章详细讨论了囚徒困境。这里补充一个关键点:囚徒困境揭示了一个深刻的矛盾——个体理性 ≠ 集体理性

生活中的囚徒困境

场景合作背叛纳什均衡
军备竞赛双方都裁军一方扩军双方都扩军
价格战双方都维持高价一方降价双方都降价
学术造假双方都诚实一方造假双方都造假?
DeFi 通胀双方都控制通胀一方疯狂印币双方都疯狂印币

Web3 深度案例:Curve War(曲线战争)

2021-2023 年,DeFi 领域爆发了一场"Curve War"——多个协议(Convex、Yearn、Frax 等)争夺 Curve Finance 的 CRV 代币投票权,以将流动性引导到自己的池子。

  • 合作策略:各协议公平竞争,不互相"买票"
  • 背叛策略:疯狂购买 CRV 代币,垄断投票权

结果:所有协议都"背叛"了——CRV 代币价格被推高,但流动性并没有实质性增加。这就是囚徒困境的典型结果:所有人都多花了钱,但没有人获得更多的好处

记忆锚点:囚徒困境告诉我们——在没有约束机制的情况下,合作是不稳定的。这就是为什么区块链需要"共识机制"——它是一种"约束背叛"的制度设计。

3.2 智猪博弈:为什么"小猪"总是等"大猪"干活

场景:一个猪圈里有两头猪——一头大猪,一头小猪。猪圈的一头有一个按钮,按一下会掉出食物;另一头是食槽。

  • 如果大猪去按按钮,小猪在食槽等着 → 大猪跑回来时,小猪已经吃掉一部分食物
  • 如果小猪去按按钮,大猪在食槽等着 → 小猪跑回来时,大猪已经把食物吃光了
  • 如果两头猪都不按 → 大家都饿着

理性分析

  • 大猪知道:如果自己不去按,小猪也不会去按(因为小猪按了也吃不到),所以大猪必须去按
  • 小猪知道:大猪一定会去按(因为大猪按了还能吃到),所以小猪只需要等着

纳什均衡:大猪按按钮,小猪等着。

记忆锚点:智猪博弈就像"公司里的大牛和新人"——大牛干活,新人搭便车。因为大牛不干的话,项目就黄了;新人不干的话,大牛还是会干。

Web3 案例:协议开发中的"搭便车"问题

在开源 DeFi 协议中,"智猪博弈"无处不在:

  • 大猪:大型协议(如 Uniswap、Aave)投入大量资源开发新功能
  • 小猪:小型分叉协议(如 SushiSwap、Compound Fork)直接复制代码,免费使用

数据:截至 2025 年,DeFi 领域有超过 200 个 Uniswap V2/V3 的分叉协议(来源:DefiLlama,2025),其中大部分没有做任何原创性开发。

为什么小猪能搭便车?

因为 DeFi 协议是开源的——代码公开,任何人都可以复制。这就像智猪博弈中的按钮是"公开的"——大猪按了按钮,小猪不需要按就能吃到食物。

Web3 案例:以太坊生态中的"大猪"和"小猪"

角色代表投入收益
大猪以太坊基金会、Consensys数十亿美元开发基础设施生态繁荣带来的 ETH 增值
小猪各种 L2、DeFi 协议直接使用以太坊基础设施免费搭便车,利润归自己

以太坊的"大猪"角色解释了为什么以太坊基金会一直在"烧钱"——因为它知道,如果自己不投入,整个生态就会停滞。而"小猪"们(L2、DeFi 协议)则可以免费使用这些基础设施,专注于自己的应用层创新。

3.3 斗鸡博弈:为什么"胆小鬼"输在"先退缩"

场景:两辆车相向而行,谁先转弯谁就是"胆小鬼"(chicken)。

  • 如果 A 转弯,B 直行 → A 丢脸,B 赢了
  • 如果 B 转弯,A 直行 → B 丢脸,A 赢了
  • 如果都不转弯 → 两车相撞,双输
  • 如果都转弯 → 双方都保全面子

纳什均衡:有两个——(A 直行,B 转弯)和(A 转弯,B 直行)。

关键洞察:谁先"表态"自己绝不会转弯,谁就赢了。

记忆锚点:斗鸡博弈就像"两个黑帮老大谈判"——谁先亮出刀子,谁就赢了。因为对方知道你"不会退缩",他就会退缩。

Web3 案例:公链之间的"生态争夺战"

2021-2024 年,多个公链(Solana、Avalanche、Polygon、BNB Chain 等)争夺 DeFi 生态:

  • 策略 A:疯狂撒钱吸引开发者("我绝不退缩")
  • 策略 B:理性投入,等待对手犯错("我先转弯")

数据:2021-2023 年,各公链的生态基金总投入超过 50 亿美元(来源:Messari,2023),但大部分资金并没有带来持久的生态繁荣。

Solana 的"斗鸡策略"

Solana 在 2021 年采取了"绝不退缩"的策略——大量撒钱吸引开发者和用户。结果:

  • 短期:TVL 飙升,代币价格暴涨
  • 长期:FTX 暴雷后,生态崩塌,代币暴跌 97%

教训:在斗鸡博弈中,"绝不退缩"的策略有高回报,但也有高风险。如果对手也"绝不退缩",结果就是"两车相撞"(双输)。

3.4 性别之战:为什么"协调"比"最优"更重要

场景:一对情侣想约会,但一个人想看足球,另一个人想看电影。

  • 如果两人都看足球 → 看足球的人很满意,看电影的人不太满意
  • 如果两人都看电影 → 看电影的人很满意,看足球的人不太满意
  • 如果一人看足球、一人看电影 → 两人都不满意(没在一起)

关键洞察两个人在一起(协调)比各自去"最优"的地方更重要

记忆锚点:性别之战就像"选微信还是支付宝"——不是哪个更好,而是"大家都用哪个"。协调比最优更重要。

Web3 案例:ERC-20 标准的"协调博弈"

在以太坊早期,有多种代币标准在竞争:

  • ERC-20(最终胜出)
  • ERC-223(试图改进 ERC-20)
  • ERC-777(更复杂的代币标准)

为什么 ERC-20 胜出了?

不是因为它"最优"——ERC-223 和 ERC-777 在技术上可能更好。但 ERC-20 先发优势明显,所有钱包、交易所、DeFi 协议都支持它。

这就是"性别之战"的逻辑协调(大家都用同一个标准)比技术最优更重要

数据:截至 2025 年,以太坊上 95% 以上的代币使用 ERC-20 标准(来源:Etherscan,2025),即使有技术上更优的替代方案。


第四章:动态博弈——先手优势与后发制人

4.1 什么是动态博弈?一个"下棋"的故事

你和朋友下象棋。你先走(执红),他后走(执黑)。

你的每一步棋,都会影响他下一步的选择;他的每一步棋,也会影响你下一步的选择。

这就是动态博弈——参与者有先有后地行动,后行动的人可以看到先行动的人的选择

与静态博弈(所有人同时出招)不同,动态博弈有一个关键特征:先手优势

记忆锚点:动态博弈就像"下棋"——你不能只考虑"这一步好不好",还要考虑"这一步会导致对手怎么回应"。

4.2 子博弈完美均衡

在动态博弈中,纳什均衡可能包含"不可信的威胁"。

例子:一个协议威胁说"如果你抄袭我的代码,我就发动 51% 攻击毁掉整条链"。

这个威胁可信吗?不可信——因为发动 51% 攻击的成本太高,而且会毁掉攻击者自己的资产。

子博弈完美均衡(Subgame Perfect Equilibrium)要求:在博弈的每一个阶段,每个参与者的策略都是最优的——排除了"不可信的威胁"。

记忆锚点:子博弈完美均衡就像"真正的棋局"——不是说"我要怎么怎么威胁你",而是"在每一步棋上,我都走最优的那一步"。

4.3 逆向归纳法:从结果倒推策略

动态博弈的核心分析工具是逆向归纳法(Backward Induction)——从博弈的最后一步开始,倒推每一步的最优策略

例子:你和对手在竞拍一个 NFT。

  • 最后一轮:对手出价 100 ETH。你要不要出 101 ETH?
    • 如果这个 NFT 对你值 105 ETH → 出价(赚 4 ETH)
    • 如果这个 NFT 对你值 95 ETH → 不出价(亏 6 ETH)
  • 倒数第二轮:你知道对手在最后一轮的策略,所以你在这一轮就考虑好后续

逆向归纳法的核心思想不要只看眼前,要看整盘棋

出 60

不出

出 70

不出

出 80

不出

竞拍开始
起拍价 50 ETH

你:要不要出 60 ETH?

对手:要不要出 70 ETH?

对手以 50 ETH 获得

你:要不要出 80 ETH?

你以 60 ETH 获得

继续竞价...

对手以 70 ETH 获得

Web3 案例:MEV 竞争中的"逆向归纳"

MEV 搜索者在竞价时,实际上在做逆向归纳:

  1. 最后一步:这个区块能提取多少 MEV?→ 确定"天花板"
  2. 倒推:我最多能出多少 Gas 费?→ MEV 利润 - Gas 费 > 0
  3. 再倒推:对手会出多少 Gas 费?→ 我需要出比对手更高的 Gas 费
  4. 最终决策:出一个"刚好比对手高一点"的 Gas 费

这就是为什么 MEV 竞争如此激烈——每个搜索者都在做逆向归纳,试图找到"刚好比对手高一点"的出价。

4.4 Web3 深度案例:MEV 竞争中的"先到先得"vs"后发制人"

MEV 竞争是动态博弈的"完美实验场"。

场景:一个 DEX 上出现了价格失衡——Token A 在 Uniswap 上的价格比 SushiSwap 低 5%。

搜索者 A(先发制人)

  • 在 Mempool 中发现这笔大额交易
  • 立即提交一笔"抢跑"交易(front-run),在大额交易之前买入
  • 大额交易执行后,价格上升,搜索者 A 卖出获利

搜索者 B(后发制人)

  • 等搜索者 A 的抢跑交易被打包
  • 然后提交一笔"回跑"交易(back-run),在搜索者 A 卖出后买入
  • 利用搜索者 A 造成的短期价格波动获利

博弈分析

策略搜索者 A搜索者 B
A 先发,B 后发A 赚 MEV,B 赚残余B 的利润取决于 A 的行为
B 先发,A 后发B 赚 MEV,A 赚残余A 的利润取决于 B 的行为
同时抢跑Gas 费竞价,胜者通吃败者白付 Gas 费

数据:据 Flashbots 统计,2024 年以太坊上约 70% 的 MEV 交易涉及"三明治攻击"(sandwich attack)——即同时包含"抢跑"和"回跑"的策略(来源:Flashbots,2024)。

记忆锚点:MEV 竞争就像"拍卖会上的最后 10 秒"——你不能太早出价(暴露意图),也不能太晚出价(错过机会)。关键是在"恰到好处"的时机出价。


第五章:重复博弈——为什么"长期关系"能促成合作

5.1 一次性博弈 vs 重复博弈

还记得囚徒困境吗?在一次性博弈中,双方都会选择"背叛"——因为背叛是"占优策略"。

但如果这个博弈要重复 100 次呢?

情况完全不同了

在一次性博弈中:

  • 你背叛 → 对方无法报复 → 你赚了

在重复博弈中:

  • 你背叛 → 对方下一轮也背叛 → 你亏了
  • 你合作 → 对方下一轮也合作 → 你们都赚了

重复博弈创造了"未来的影子"(Shadow of the Future)——你今天的行为会影响明天的结果。

记忆锚点:一次性博弈就像"在旅游景区被宰"——商家知道你不会再来,所以宰你没商量。重复博弈就像"小区门口的便利店"——老板知道你天天来,所以不敢宰你。

5.2 无名氏定理:无限重复博弈中合作可以成为均衡

无名氏定理(Folk Theorem)是重复博弈中最深刻的结论:

在无限重复博弈中,只要参与者有足够的耐心(折现因子足够大),任何"可行的、个体理性的"收益组合都可以成为均衡。

翻译成人话:如果你们要长期打交道,合作是完全可能的——只要大家都足够看重未来

关键条件

  1. 博弈必须是无限重复的(或不确定何时结束)
  2. 参与者必须有足够的耐心(折现因子 δ 足够大)
  3. 背叛必须能被"惩罚"(有可信的报复机制)

记忆锚点:无名氏定理就像"邻居关系"——如果你在一个小区住一辈子,你一定会和邻居搞好关系。因为你知道,今天坑了邻居,明天他就会报复你。

5.3 "以牙还牙"策略

在重复博弈中,最著名的策略是**"以牙还牙"(Tit for Tat)**:

  1. 第一轮:合作
  2. 之后每一轮:模仿对手上一轮的行动
    • 对手上一轮合作 → 你这一轮合作
    • 对手上一轮背叛 → 你这一轮背叛

"以牙还牙"的神奇之处

  • 它是善良的(第一轮合作)
  • 它是可报复的(对手背叛,你也背叛)
  • 它是宽容的(对手改邪归正,你也原谅)
  • 它是清晰的(对手能理解你的策略)

Axelrod 锦标赛:1980 年,政治学家 Robert Axelrod 组织了一场计算机锦标赛,让各种策略互相博弈。结果"以牙还牙"策略赢得了比赛。

记忆锚点:以牙还牙就像"做人之道"——先对人好,但如果别人对你不好,你也别客气;但如果别人改好了,你也原谅他。

5.4 Web3 案例:DeFi 协议的声誉机制 = 重复博弈

在 DeFi 世界中,"声誉"就是重复博弈的"影子"。

案例一:Aave 的信用委托

Aave V3 引入了"信用委托"(Credit Delegation)功能——一个用户可以将自己的信用额度委托给另一个用户。

  • 如果被委托人按时还款 → 委托人信任他,下次继续委托
  • 如果被委托人违约 → 委托人不再信任他,其他用户也会知道

这就是重复博弈:你要在 DeFi 世界中长期生存,就必须维护自己的"链上声誉"。

案例二:Uniswap 的流动性提供者

流动性提供者(LP)在 Uniswap 上的行为是一种重复博弈:

  • 如果 LP 长期提供流动性 → 赚取交易费,建立声誉
  • 如果 LP 频繁撤出流动性 → 可能被视为"不可靠",其他协议不愿意合作

数据:据 Uniswap 官方统计,2024 年约 60% 的流动性提供者是"长期 LP"(持有头寸超过 6 个月),这说明重复博弈的"合作均衡"在 DeFi 中是存在的(来源:Uniswap Analytics,2024)。

案例三:链上声誉系统

多个项目正在构建"链上声誉系统"——将用户的链上行为记录下来,作为未来合作的参考:

项目机制博弈论原理
EigenLayerRestaking 声誉质押越多,声誉越高,但也越"绑定"
Gitcoin Passport链上身份验证身份越丰富,可信度越高
POAP出席证明参与越多,社区信任度越高

这些系统本质上是在将一次性博弈转化为重复博弈——让用户知道"你的行为会被记录",从而激励合作。


第六章:不完全信息博弈——"我不知道你手里有什么牌"

6.1 什么是不完全信息博弈?一个"二手车市场"的故事

你想买一辆二手车。卖家说:"这辆车状况很好,值 10 万。"

但你不知道

  • 这辆车是"好车"(值 10 万)还是"柠檬"(值 3 万)?
  • 卖家是不是在骗你?
  • 卖家比你更了解这辆车的真实状况

这就是不完全信息博弈——有些参与者拥有其他参与者不知道的"私有信息"

记忆锚点:不完全信息博弈就像"打牌时你只能看到自己的牌"——你不知道对手手里有什么牌,只能通过他的"行为"来猜测。

6.2 贝叶斯纳什均衡

在不完全信息博弈中,纳什均衡被推广为贝叶斯纳什均衡(Bayesian Nash Equilibrium):

每个参与者根据自己的"信念"(对其他参与者类型的概率估计)选择最优策略。

翻译成人话:你不知道对手是什么类型,但你可以根据他的行为来"更新"你的信念

例子:你在二手车市场,看到一辆标价 8 万的车。

  • 你的先验信念:50% 概率是好车,50% 概率是柠檬
  • 你观察到:卖家愿意提供 1 年质保
  • 你更新信念:提供质保的卖家更可能是卖好车的(因为卖柠檬的卖家不敢提供质保)
  • 你的后验信念:70% 概率是好车,30% 概率是柠檬

这就是贝叶斯更新——通过观察行为来推断"隐藏的类型"。

先验信念
50% 好车
50% 柠檬

观察行为
卖家提供 1 年质保

贝叶斯更新
卖好车的人更敢提供质保

后验信念
70% 好车
30% 柠檬

决策
是否购买?

6.3 信号博弈:如何用行动"传递信息"

在不完全信息博弈中,拥有私有信息的一方可以通过"行动"来传递信息——这叫信号博弈(Signaling Game)。

经典案例:教育的信号功能

为什么企业更愿意招名校毕业生?

  • 解释一:名校教育提高了生产力(人力资本理论)
  • 解释二:名校文凭是一个"信号"——只有聪明、勤奋的人才能考上名校(信号理论)

信号理论的核心信号必须是"有成本的"——如果每个人都能发出同样的信号,信号就没有信息量了

记忆锚点:信号博弈就像"孔雀开屏"——孔雀通过展示华丽的尾巴来传递"我是优质基因"的信号。但开屏是有成本的(容易被捕食者发现),所以只有真正健康的孔雀才敢开屏。

Web3 案例:ICO/IDO 中的信号博弈

在 ICO/IDO 中,项目方和投资者之间存在严重的信息不对称:

  • 项目方知道:项目是否靠谱,团队是否有能力
  • 投资者不知道:只能通过"信号"来判断

项目方的信号

信号含义可信度
知名 VC 投资专业机构已经尽调高(VC 有声誉成本)
开源代码项目是透明的中(代码可能是抄的)
审计报告合约没有漏洞中(审计公司可能有利益冲突)
团队实名团队愿意承担法律责任高(匿名团队跑路成本低)
锁仓机制团队不会立即套现高(锁仓有时间成本)

数据:据 CoinGecko 统计,2024 年获得顶级 VC(如 a16z、Paradigm)投资的项目,代币上线后平均回报率为 150%;而没有 VC 投资的项目,平均回报率为 -30%(来源:CoinGecko,2024)。这说明 VC 投资是一个有效的"信号"。

6.4 Web3 中的信息不对称问题

信息不对称在 Web3 中无处不在:

场景一:NFT 市场的"柠檬问题"

NFT 市场是典型的"柠檬市场":

  • 卖家知道:NFT 的真实价值(是否是"蓝筹"、是否有社区)
  • 买家不知道:只能通过价格、交易量、社交媒体热度来判断

结果:买家愿意支付的价格 = 平均质量的价格 → 高质量 NFT 被低估,低质量 NFT 被高估 → 高质量卖家退出市场 → 市场平均质量下降 → 买家出价更低 → 螺旋式下降

这就是阿克洛夫(Akerlof)的"柠檬市场"理论——信息不对称会导致市场失灵。

场景二:DeFi 协议的"黑箱问题"

很多 DeFi 协议的内部运作是不透明的:

  • 协议方知道:智能合约的真实安全性、团队的真实意图
  • 用户不知道:只能通过审计报告、社区讨论来判断

信号解决方案

信号机制效果
多重审计找 3+ 家审计公司降低单点利益冲突风险
Bug Bounty设立漏洞赏金激励白帽黑客发现漏洞
时间锁治理操作有延迟给用户反应时间
保险协议如 Nexus Mutual为用户提供安全网

第七章:机制设计——如何设计"让人说真话"的规则

7.1 什么是机制设计?一个"分蛋糕"的故事

两个小孩要分一块蛋糕。怎么分才公平?

方法一:一个孩子切,另一个孩子先选。

  • 切蛋糕的孩子会尽量切得均匀——因为如果切歪了,另一个孩子会拿走大的那块
  • 结果:蛋糕被公平地分成两半

方法二:一个孩子切,自己先选。

  • 切蛋糕的孩子会故意切得一大一小——然后自己拿大的那块
  • 结果:不公平

方法一就是"机制设计"的精髓——设计一套规则,让参与者在追求自利的同时实现集体最优

记忆锚点:机制设计就像"分蛋糕"——切蛋糕的人最后选。这个简单的规则,保证了公平的结果——不需要道德说教,只需要好的制度设计。

7.2 拍卖理论:四种拍卖方式的博弈分析

拍卖是机制设计的经典应用。我们来看四种拍卖方式:

英式拍卖(English Auction)

  • 规则:从低价开始,参与者轮流加价,最高价者得
  • 博弈分析:参与者会一直加价,直到价格超过自己的估值
  • 结果:物品归估值最高的人,价格接近第二高的估值

荷兰拍卖(Dutch Auction)

  • 规则:从高价开始,价格逐渐下降,第一个叫停的人得
  • 博弈分析:参与者需要在"等更低价格"和"怕被别人抢走"之间权衡
  • 结果:价格取决于参与者的"风险偏好"

密封拍卖(Sealed-bid Auction)

  • 规则:所有参与者同时提交密封报价,最高价者得
  • 博弈分析:参与者需要猜测别人的出价,然后出一个"刚好比别人高一点"的价格
  • 结果:取决于信息对称性

维克里拍卖(Vickrey Auction)

  • 规则:密封拍卖,但最高价者以第二高的价格购买
  • 博弈分析:参与者的最优策略是"如实报告自己的估值"
  • 结果:物品归估值最高的人,价格等于第二高的估值

记忆锚点:维克里拍卖就像"真心话大冒险"——规则设计得让你不得不说真话,因为说真话是你的最优策略。

四种拍卖方式对比

英式拍卖
公开加价

优点:价格发现效率高
缺点:可能串谋

荷兰拍卖
公开降价

优点:速度快
缺点:价格不稳定

密封拍卖
密封报价

优点:防串谋
缺点:信息不充分

维克里拍卖
第二价格密封

优点:激励说真话
缺点:收入可能较低

7.3 激励相容:让参与者追求个人利益时也实现集体最优

机制设计的核心原则是激励相容(Incentive Compatibility):

好的机制应该让参与者在追求个人利益的同时,也实现集体最优。

翻译成人话:不要指望人们"做好事"——设计一套规则,让"做好事"成为他们的最优选择

Web3 案例:PoS 共识机制的激励设计

以太坊的 PoS(Proof of Stake)共识机制是一个精妙的激励相容设计:

行为激励结果
诚实验证获得区块奖励集体安全
恶意验证被罚没质押(Slashing)个人损失
不活跃被罚没质押(Inactivity Leak)个人损失

数据:截至 2025 年,以太坊上约 3300 万 ETH 被质押(约占总供应量的 27%),罚没事件极少(每年不到 100 起),说明激励机制是有效的(来源:Beaconcha.in,2025)。

7.4 Web3 深度案例:Token 经济学设计 = 机制设计

Token 经济学设计,本质上就是机制设计——设计一套规则,让所有参与者(用户、开发者、投资者、验证者)在追求自利的同时,实现协议的长期繁荣

案例一:Curve 的 veToken 模型

Curve Finance 设计了 veCRV(vote-escrowed CRV)机制:

  • 用户锁仓 CRV 代币 → 获得 veCRV
  • veCRV 持有者可以投票决定流动性挖矿的奖励分配
  • 锁仓时间越长,投票权越大

激励分析

参与者激励行为
流动性提供者获得 CRV 奖励提供流动性
CRV 持有者获得投票权 + 交易费分成锁仓 CRV
协议流动性深度增加吸引更多用户

博弈论原理:veToken 模型将"一次性博弈"转化为"重复博弈"——锁仓时间越长,参与者的"退出成本"越高,越倾向于长期合作。

案例二:Optimism 的 Retroactive Public Goods Funding

Optimism 设计了一种"回溯性公共物品资助"机制:

  • 先让开发者自由建设
  • 然后由代币持有者投票决定哪些项目对生态贡献最大
  • 对贡献最大的项目给予奖励

激励分析

参与者激励行为
开发者获得回溯性奖励建设有价值的项目
代币持有者生态繁荣带来的代币增值投票支持优质项目
协议生态繁荣吸引更多开发者

博弈论原理:这是一种"事后激励"机制——先让参与者自由行动,然后根据结果给予奖励。这避免了"事前激励"的道德风险(拿了钱不好好干)。

案例三:EigenLayer 的 Restaking 机制

EigenLayer 设计了一种"再质押"机制:

  • 用户将已质押的 ETH 再次质押到 EigenLayer
  • EigenLayer 将这些"再质押"的 ETH 用作其他协议的安全保障
  • 用户获得额外的奖励,但也承担额外的罚没风险

激励分析

参与者激励风险
再质押者额外收益双重罚没风险
AVS 协议获得安全保障需要设计合理的罚没条件
EigenLayer平台费收入系统性风险

博弈论原理:这是一种"信号博弈"——愿意承担更高风险的再质押者,传递了"我对自己的行为有信心"的信号。


第八章:前瞻性指引——央行如何用博弈论管理预期

8.1 什么是前瞻性指引?一个"老师说考试范围"的故事

期中考试前,老师说:"这次考试只考前 5 章。"

你的反应:只复习前 5 章。

但如果老师改口说:"其实第 6 章也考。"

你的反应:赶紧复习第 6 章。

老师的话改变了你的行为——即使考试还没开始。

这就是前瞻性指引(Forward Guidance)——通过"提前宣布未来的政策意图"来影响人们当前的行为

记忆锚点:前瞻性指引就像"老师说考试范围"——老师不需要真的出题,只需要"说"考试范围,就能改变学生的复习策略。

8.2 央行的"话术"如何影响市场

央行行长的每一句话,都被市场解读为"政策信号":

央行表态市场解读市场反应
"通胀是暂时的"不会急着加息股市上涨
"我们将坚决遏制通胀"可能大幅加息股市下跌
"经济前景不确定"可能暂停加息市场观望
"我们有足够的工具"可能降息/扩表风险资产上涨

数据:据美联储研究,2022-2024 年,美联储主席鲍威尔的每次公开讲话后,标普 500 指数的平均波动幅度达到 1.5%(来源:Federal Reserve Bank of San Francisco,2024)。这说明"话术"的影响力巨大。

8.3 时间不一致性问题

前瞻性指引有一个根本性问题:时间不一致性(Time Inconsistency)。

场景

  • 央行宣布:"未来一年不加息"
  • 一年后,通胀飙升
  • 央行面临选择:加息(违背承诺) vs 不加息(放任通胀)

如果央行加息:市场会失去对央行的信任 → 未来的前瞻性指引失效 如果央行不加息:通胀失控 → 经济受损

这就是时间不一致性——今天的最优承诺,在明天可能不是最优的

记忆锚点:时间不一致性就像"减肥时的自己"——今天说"明天开始减肥",明天又说"后天再开始"。承诺和行动之间总有差距。

Web3 案例:项目方的"路线图" = 前瞻性指引

Web3 项目方的"路线图"(Roadmap)就是一种前瞻性指引:

路线图承诺用户预期如果兑现如果食言
"Q2 上线主网"主网上线后期望收益代币上涨,用户信任代币暴跌,用户流失
"年内实现去中心化治理"治理代币有投票权生态繁荣代币失去价值支撑
"与顶级交易所合作"流动性增加交易量上升代币难以交易

数据:据 Messari 研究,2023-2024 年,路线图兑现率超过 80% 的项目,代币平均回报率为 120%;而兑现率低于 50% 的项目,代币平均回报率为 -60%(来源:Messari,2024)。

教训在 Web3 世界中,"说到做到"是最稀缺的能力。因为区块链是透明的,所有的承诺都会被记录——食言的代价比传统世界更高。


第九章:OPC 实战——用博弈论分析 DeFi 和 MEV

9.1 MEV 竞争 = 博弈论的"完美实验场"

MEV(最大可提取价值)竞争是博弈论在 Web3 中最直接的应用。

为什么 MEV 是"完美实验场"?

特征MEV 竞争传统博弈论
参与者明确搜索者、构建者、验证者通常假设参与者已知
策略空间有限Gas 费、交易顺序、时间策略空间通常无限
支付可量化利润 = MEV - Gas 费支付通常用效用函数
信息部分透明Mempool 是公开的信息结构复杂
重复性高每 12 秒一个区块博弈通常只分析一次

MEV 的博弈结构

MEV 博弈结构

用户发起交易

Mempool
(公开信息)

搜索者 1
发现套利机会

搜索者 2
发现套利机会

搜索者 N
发现套利机会

Gas 费竞价

构建者组装区块

验证者验证区块

区块上链
胜者获得 MEV

9.2 DeFi 协议之间的流动性竞争

DeFi 协议之间的流动性竞争,是囚徒困境的现实版本。

竞争策略分析

策略短期效果长期效果博弈论模型
高通胀挖矿吸引流动性代币暴跌囚徒困境(背叛)
低通胀 + 真实收益流动性增长慢可持续增长重复博弈(合作)
veToken 锁仓绑定长期用户建立护城河机制设计(激励相容)
贿赂市场短期流动性增加生态碎片化智猪博弈(搭便车)

数据对比

协议策略TVL 变化(2023-2024)代币价格变化
CurveveToken + 低通胀稳定在 $3B-$5B相对稳定
SushiSwap高通胀 → 转型从 $5B 降至 $500M下跌 90%+
Uniswap无代币通胀稳定在 $4B-$6B相对稳定

(来源:DefiLlama,2024)

教训在流动性竞争中,"背叛"(高通胀)只能获得短期优势;"合作"(可持续的代币经济学)才能获得长期胜利

9.3 套利机器人之间的博弈

套利机器人之间的竞争,是动态博弈 + 重复博弈的结合。

博弈维度

维度策略选择博弈论模型
Gas 费竞价出多少 Gas?拍卖理论(维克里拍卖)
交易时机何时提交交易?动态博弈(先手 vs 后手)
策略保密是否公开策略?不完全信息博弈
合作 vs 竞争是否与其他机器人合作?囚徒困境

实战案例:三明治攻击的博弈分析

三明治攻击(Sandwich Attack)是一种经典的 MEV 策略:

  1. 观察:在 Mempool 中发现一笔大额买单
  2. 抢跑:在大额买单之前买入(推高价格)
  3. 等待:大额买单执行(进一步推高价格)
  4. 回跑:在大额买单之后卖出(获利)

博弈分析

角色策略收益
攻击者抢跑 + 回跑大额买单造成的滑点收益
受害者被动支付更高的价格(滑点损失)
其他搜索者观察或竞争分享或失去 MEV

反制策略

反制方法机制博弈论原理
Flashbots Protect私有交易池信息隐藏(不完全信息博弈)
滑点保护设置最大滑点限制攻击者的利润空间
时间加权订单分批执行降低单笔交易的 MEV 吸引力
私有 RPC不公开交易完全隐藏信息

核心洞察

博弈论的三句话总结

  1. 你的最优策略取决于别人怎么选——博弈论的核心是"互动",不是"独立决策"
  2. 纳什均衡不等于最优结果——囚徒困境告诉我们,理性人的互动可能导致双输
  3. 好的制度设计比道德说教更有效——机制设计的精髓是"让做好事成为最优选择"

参考与延伸

[1] Nisan, Roughgarden, Tardos, Vazirli. "Algorithmic Game Theory"(2007)— 博弈论与机制设计的经典教材,涵盖拍卖理论、纳什均衡、不完全信息博弈等核心概念

[2] Flashbots. "MEV and Me"(2024)— MEV 的博弈论分析,包括搜索者竞争、三明治攻击、Flashbots 机制设计

[3] Vitalik Buterin. "Hard Problems in Cryptocurrency: Five Years Later"(2019)— 区块链中的博弈论问题,包括共识机制设计、激励相容、MEV 缓解

[4] Token Terminal. "DeFi Revenue and TVL Dashboard"(2025)— DeFi 协议的收入、TVL、代币通胀率等数据,用于分析流动性竞争的博弈论动态

[5] Axelrod. "The Evolution of Cooperation"(1984)— 重复博弈与合作的演化,"以牙还牙"策略的经典研究

[6] Messari. "State of DeFi 2024"(2024)— DeFi 生态的全面分析,包括流动性竞争、代币经济学、协议收入等数据

[7] Akerlof. "The Market for Lemons"(1970)— 信息不对称与市场失灵的经典论文,适用于分析 NFT 市场和 ICO 中的柠檬问题

[8] Federal Reserve Bank of San Francisco. "Forward Guidance and Market Reactions"(2024)— 前瞻性指引对市场影响的实证研究,用于分析央行话术的博弈论效应

OPC 超级个体实战指南