2840 字
14 分钟
短学期复习
2025-07-03

博弈论的分类有:

  • 非合作博弈:参与人之间没有合作,选择行动之后效用是各自的效用,与他人无关

    • 分类依据一:是否完全信息,即参与人之间是否互相知道对方的效用函数,是否知道博弈的全局信息
    • 分类依据二:静态博弈或动态博弈,即参与人的行动是一次同时完成的,还是序贯进行的
      • 在两个互相看不见的房子里进行石头剪刀布,不要求同时完成,但是行动的先后不会影响结果,因此是静态博弈
    • 四大类博弈:
      • 完全信息静态博弈(如囚徒困境)
      • 完全信息动态博弈(如价格领袖模型)
      • 不完全信息静态博弈(如拍卖)
      • 不完全信息动态博弈(如扑克牌)
  • 合作博弈:考虑参与人之间合作后产生的联合效用

    • 重点关注如何分配联合效用,有很多的概念(收益分配方式)
    • 博弈规范解释的应用(公平分配)
    • 目前广泛应用于数据估值(在下一讲中介绍)

非合作博弈#

从占优策略到纳什均衡,其实是演化的。因为不能用占优策略决定,所以选择用纳什均衡策略来达到稳定的博弈解。
纳什均衡是参与人已知他所有人使用的策略组合 sis_{-i},并做出”最佳应对”s1s_1, ui(si,si)=ui(ti,si),tiSiu_i(s_i,s_{-i}) = u_i(t_i,s_{-i}), t_i∈S_i(注意对公式的理解:SiS_i 代表参与者 ii 能作出的所有策略的选择集合,sis_{-i}ii 的选择是没有关系的,只是代表其他所有人策略组合的符号)。
(定义最佳应对的目的是确保每个参与者没有动力改变自己的策略,从而达到稳定解。)
纳什均衡的定义是每个参与者达到“最佳反应”。记为策略组合 s=(s1,s2,...,sJ)s^*=(s^*_1,s^*_2,...,s^*_J)

纳什均衡可以从离散情况和连续情况(古诺竞争,产量竞争)求解。
离散情况通常给一个双方选择的效用函数值表格,那只要选择双方都是最优反应的点就行了。(从最优反应的定义出发)

连续情况也是要求双方都是最优反应的交点,但效用函数变成连续了。那就假设参与者 2 的策略参数 q2q_2 为参与者 1 的效用函数参数,也就是我假设知道 2 的决策是 q2q_2,从而对 1 的效用函数求极值来得到合适的 q1q_1 使得 1 的效用函数最大。对于 2 也同理。所以最后联立一下两个式子就好了,这样 q1,q2q_1,q_2 的值都符合 1,2 的最优解。

伯德川竞争是价格竞争,双方为了吸引顾客都不得不把价格打到最低(市场价格最终等于边际成本)。显然对卖家不好。说明了卖家要一致协商定价才能使彼此利益最大化。

以上脉络是:
占优策略—(达不到)—> 纳什均衡,
有两个问题。第一,如果纳什均衡达不到,也是有可能的,比如表格里的 1,2 最优反应完全不重叠。第二,假如我有多个纳什均衡,我肯定不想随便选一个,但哪一个均衡选择才是最好的呢?

首先对于找不到纳什均衡:请注意上面我们讨论的纳什均衡,实际上是纯策略纳什均衡!所以我们不能纯,那就混一点。采用混合策略纳什均衡。有点像我买多支股票,正常人肯定不是 all in one 的,我多买几只,不同仓位(概率),才能让自己收益。
混合策略就用 Σi\Sigma_i 表示(参与人 ii 的),是一组针对选择策略集的概率向量。限制条件显然是所有概率在[0,1]区间,并且加和为 1。所以如果有一个向量分量为 1,其他为 0 的话,那就是纯策略了。所以纯策略是混合策略的特殊解。
Ps:用 Δ(Si)\Delta (S_i) 表示混合策略,也即 SiS_i 域上的一个小部分。和 Σi\Sigma_i 等价,不过这个表示看起来是 SiS_i 的微分,用于连续策略空间的计算。
那显然同纯策略均衡,我们要定义一个所有参与者最优反应策略构成的混合策略组合来表示均衡,所以用博弈的混合扩展来代表组合:Γ=(N,(Σi)iN,(Ui)iN)Γ=(N,(Σ_i​)_{i∈N}​,(U_i​)_{i∈N}​)
混合扩展是一个博弈,从表达式来看,意味着每个参与者 ii 都选了一个混合策略,并且有对应的收益函数 (payoff function)(又称 期望效用) Ui(σ)U_i(\sigma),其实是基于纯策略效用函数 uiu_i 计算得到的使用所有混合策略的组合得到的效用期望:所有参与者都按照各自的混合策略行动时,参与者 ii 平均能获得的收益(或效用)是多少。
Ui(σ)=E[ui(σ)]=sSj=1nσj(sj)ui(s1,s2,,sn)U_i (\sigma) = \mathbb{E}[u_i (\sigma)] = \sum_{s \in S} \prod_{j=1}^{n} \sigma_j (s_j) u_i (s_1, s_2, \dots, s_n) j=1nσj(sj)\prod_{j=1}^{n} \sigma_j (s_j) 代表该组合 (s1,s2,,sn)(s_1, s_2, \dots, s_n) 发生的概率。uiu_i 是该混合策略带来的收益。在整个博弈中,参与者 ii 能得到的总收益就是收益函数的值。

那当所有参与者的收益函数都最大时,就达到了博弈均衡。

Ui(σ)Ui(σi,σi),σiΣiU_i(\sigma^*) \ge U_i(\sigma_i, \sigma_{-i}^*), \quad \forall \sigma_i \in \Sigma_i

和纯策略纳什均衡一样类比。
求混合均衡,必须要满足对于每个参与者 ii,其不同策略选择带来的收益相同,即混合策略的无差异原则

纳什定理告诉我们,每个博弈至少有一个混合策略均衡
目前是没有多项式时间算法可以计算一般的两人博弈的混合策略纳什均衡

关于完全信息动态博弈
首先,参与人多轮交互的博弈,被称为扩展式博弈,可以形成一棵博弈树。
如果每个参与人在选择行动时,都知道他位于博弈树的哪个节点上,那么这个扩展式博弈就是完美信息博弈。取博弈树其中一个节点 x,x 及后面的所有子节点即构成一棵子树。
子博弈完美均衡,就是要在博弈树的任何一棵子树上,都实现博弈均衡。

ui(σx)ui(σi,σix)u_i(\sigma^* | x) \ge u_i(\sigma_i, \sigma_{-i}^* | x)

之前我们提过一个问题,如果均衡情况不唯一,如何选择最优均衡。这里就要用到均衡精炼(equilibrium refinements)
结论:子博弈完美均衡是纳什均衡的精炼,且存在子博弈完美均衡的纳什均衡。

  • 推论:完全混合的纳什均衡是子博弈完美均衡

想要找到完美子博弈均衡,我们可以使用逆向归纳法,从每一个最小子博弈(叶节点)除法,进行逆推递归寻找。
每个有限完美信息扩展式博弈都至少有一个子博弈完美纯策略均衡。实际上,完美子博弈均衡可能不一定是最好的解法。例如囚徒困境,按照完美子博弈均衡,双方会一直选择承认,那显然达不到双方都不承认的最优解。

子博弈完美均衡的应用是产量领导模型(斯塔克尔伯格模型)
首先这个模型符合扩展博弈,因为有领导者(先走一步)和跟随着(后手),实现了动态多轮博弈。
其次求解。我们显然是要求它的子博弈完美均衡,所以使用逆向归纳法分析。但发现假如 y 1 做出了反应,那么 y 2 也会根据它的反应变化,也就是说,y 1 需要在决策时考虑 y 2 的情况。因此我们把它叫做”双层优化问题”,即一次考虑双层变化。用式子写一下:

maxy1π1(y1,y2)=p(y1+y2)y1c1(y1)\max_{y_1} \pi_1(y_1, y_2) = p(y_1 + y_2)y_1 - c_1(y_1) s.t.y2=argmaxy2π2(y1,y2)=p(y1+y2)y2c2(y2)\text{s.t.} \quad y_2 = \arg\max_{y_2} \pi_2(y_1, y_2) = p(y_1 + y_2)y_2 - c_2(y_2)

s.t.s.t. 后面的式子表示对前面的约束)

那么显然,由于每两轮就能轮到 y 1,那么我们不如把 y 2 关于 y 1 的优化方程 y2=f2(y1)y_2^*=f_2(y_1) 对 y 2 的表示代入 y 1,从而消元得到只剩 y 1 的方程,然后求解 y 1 的最优反应 y1y_1^* 就行了。

例题(摘):
先写出厂商 1 和 2 的利润函数:

π1=(2y1y2)y1c1y1π2=(2y1y2)y2c2y2\begin{aligned} \pi_1 &= (2 - y_1 - y_2)y_1 - c_1y_1 \\ \pi_2 &= (2 - y_1 - y_2)y_2 - c_2y_2 \end{aligned}

然后先对给定 y1y_1 的情况下求厂商 2 的最优反应,解得 y2=2y1c22y_2 = \frac{2 - y_1 - c_2}{2}

然后将 y2y_2 代入厂商 1 的利润函数,求解得到最优的 y1=2+c22c12y_1^* = \frac{2 + c_2 - 2c_1}{2}

最后将 y1y_1 代入 y2y_2 的表达式,求解得到最优的 y2=2+2c13c24y_2^* = \frac{2 + 2c_1 - 3c_2}{4}

有时候,我们面临的是不完全信息的博弈,也就是在原来完全信息博弈的基础三元组上,我们把对于每个参与者自己知道、别人不知道的信息记为该参与者的类型集合 (Ti)iN, Ti=(t1,t2,...,tn)(T_i)_{i∈N},\ T_i = (t_1,t_2,...,t_n), 以及该参与者选择类型的先验概率分布 pp, pp 是给每种类型向量 tit_i 赋予一个概率。
扑克牌游戏就有对对手牌的先验概率估计,也属于不完全信息动态博弈。
因为每个参与者知道自己的类型,所以对别人的类型概率其实是后验分布概率,可以用贝叶斯公式计算:

p(titi)=pti,tip(ti)=pti,titip(ti,ti)p(t_{-i}|t_i) = {p(t_i, t_{-i})\over p(t_i)} = {p(t_i, t_{-i})\over \sum_{t'_{-i}}p(t_i,t'_{-i})}

特殊:若参与者相互独立,则

p(titi)=pti,tip(ti)=p(ti)×p(ti)p(ti)=p(ti)p(t_{-i}|t_i)={p(t_i, t_{-i})\over p(t_i)}={p(t_i)\times p(t_{-i})\over p(t_i)}=p(t_{-i})

类似于混合策略,每个参与人也对应不同类型的策略,每个策略是一个概率向量。我们记参与人 i 对应类型 tit_i 下选择纯策略的概率为 σi(ti,si)\sigma_i(t_i,s_i)

效用显然也和类型相关,记为 ui(t,s)u_i(t,s)(所有人类型组合为 t,纯策略为 s;效益和所有人类型有关,策略只和自己类型有关)
类似于混合策略,我们肯定对于每个参与者有效用函数 UiU_i,同样也是期望效益,比较形式化,此处省略。
有了以上定义,就能得到不完全信息(静态)博弈均衡/贝叶斯均衡的定义:
不完全信息博弈的策略向量 σ=(σ1,,σn)\sigma^* = (\sigma_1^*, \dots, \sigma_n^*) 是不完全信息博弈的贝叶斯均衡,如果对每个参与人 ii, 每个类型 tit_i 以及每个可能的纯策略 sis_i, 都有

Ui(σ)Ui(si,σi)U_i(\sigma^*) \ge U_i(s_i, \sigma_{-i}^*)

注意是对每个类型 tit_i 是因为要计算的期望收益基于 tit_i 的后验概率

不完全信息博弈常见模型:

  • 行业博弈(静态,离散行动空间,离散类型空间)
  • 古诺竞争(静态,连续行动空间,离散类型空间)

古诺竞争:行动空间连续的情况只考虑纯策略均衡,混合策略求解比较复杂。
这里有两道挺好的例题,我有空写个思路题解。
题目

合作博弈#

短学期复习
https://herobrine101.top/posts/短学期复习/
作者
发布于
2025-07-03
许可协议
CC BY-NC-SA 4.0