作者:张金旺 阎 岩 李 林 刘 红 华 琳 郑卫英 张 建 李冬果 作者单位:(首都医科大学生物医学工程学院 北京100069)
【摘要】 在Fudenberg 和 Tirole(1991,2002)相应的工作基础(技术性说明) 上,提出并证明连续博弈混合策略集上相似于有限博弈中混合策略中的一些基本和重要性质,同样利用预备知识中的方法说明了混合策略纳什均衡的存在性。
【关键词】 连续博弈; 混合策略; 均衡
1 序言
博弈论可定义为是对有理性的局中人之间冲突和合作的数学模型的研究。个人理性强调局中人在博弈中会自始至终以追求个人(期望)支付(或效用)最大化为目标来决策。博弈论主要研究局中人相互影响对方策略所形成或实现的策略组合,是决策理论对两个或两个以上局中人情形的推广,或者是决策论在本质上的逻辑完备。
在博弈论的形成与发展过程中,混合策略或随机策略概念的引进和应用起到了重大的作用。因为在不确定环境或具有风险的情况下,所假定的理性局中人总会追求他的支付的数学期望最大,而数学期望又完全由随机变量分布所确定。用混合策略来分析博弈是重要的手段,引入混合策略可以保证纳什均衡的存在。根据贝叶斯决策理论,用策略集上的概率分布可定量表示局中人选择策略的信念,反映局中人的隐密性。
在实际经济活动中,局中人(经济人)的策略集通常是无限的,在对无限博弈中连续博弈的均衡存在性的研究中,最早的和注重理论与实效的也是混合策略均衡存在性。关于现有的连续博弈的均衡存在性的研究可概括为:在连续博弈中有关混合策略纳什均衡的存在性的纳什均衡存在定理(Glicksgerg,1952)和连续博弈中有关纯策略纳什均衡存在定理;后者是前者的特例。在求解连续博弈的均衡中几乎采用的都是反应函数法,尽可能避开用局中人的反应集去求集映的不动点即博弈的均衡。
因此,本研究在Fudenberg 和 Tirole(1991,2002)相应的工作基础(技术性说明) 上,主要对连续博弈混合策略的性质,连续博弈的混合策略纳什均衡存在定理的证明进行了讨论。
2 连续博弈的混合策略性质、混合策略纳什均衡存在定理
2.1 连续博弈中的混合策略及其性质
在有限策略型博弈G={Si,ui }i∈N 中,混合策略是用纯策略集上的概率分布列来表示的,混合策略的变化本质上反映的是概率分布的变化。现在策略集Si(i∈N) 是不可数的无限集,局中人i以概率选择策略时,在维持隐蔽性下,这种随机选择可以看成是定义在概率空间Ωi={Si,Fi ,Pi}上的一个随机变量ξi ,其中 Fi为Si 上的σ代数,Fi的元素AiSi 是Borel可测子集,Pi 是Fi上的概率测度。且根据概率分布与分布函数的关系,用ξi 的概率分布函数Fi(si)(si∈R) 来表示。
定义1 概率空间Ωi={Si,Fi ,Pi},上任意分布函数Fi(si) 组成的集合称为策略型博弈G={Si,ui }i∈N中局中人i∈N 的混合策略集,记为Δi ;分布函数Fi∈Δi 称为局中人i的一个混合策略。即对Fi∈Δi,当且仅当A∈ Fi 时Fi(Ai)=Pi(Ai)=Pi(ξi(si)∈Ai)=∫Aidf(SI)≥0 ,Fi(Si)=1且对Fi的两两不相交的子集族{Aki }∞i),都有Fi(∪∞k=1Aki)=∞k=1Fi(Aki)。
我们在Δi 上定义距离ρ:Δi×Δi→R 为ρ(Fi,F0i)=‖Fi-F0i‖=supsi∈si|Fi(si)-F0i(si)|, Fi,F0i∈Δi, i∈N用C(Si) 表示Si上一切连续函数(这时的连续函数是有界的)的集合,它是Banach空间,其范数为‖c‖=supsi∈Si|c(si)| 。定义2 设{Fki}∞k=1是Δi 中一个混合策略序列,Fi∈Δi ,如果对c∈C(Si)都有limk→∞∫si∈Sic(si)dFki(si)=∫si∈Sic(si)dFi(si) (1)则称{Fki}∞k=1 弱收敛于Fi ,记为FkiwFi 或limk→∞Fki=Fi(w) 。由定义1有FkiwFi ;反之若FkiwFi ,则对c∈C(Si) 有(1)式成立,即这两个条件是等价的。显然,Δi中任一序列必有收敛子序列收敛到Δi 中的一个混合策略,这时Δi 是列紧的、闭集,从而它是一个紧集。利用两个分布函数的加权平均是分布函数,即对Fi(si),F0i(si)∈Δi, λ∈[0,1],必有λFi(si)+(1-λ)F0i(si)∈Δi ;可知Δi 是凸的。因此类似于性质1有:命题1 对每个i∈N ,Δi是非空的紧凸集。令F=(F1,…Fi… ,Fn) ,Fi∈Δi, i∈N,称为连续博弈G的一个混合策略组合或混合局势;且所有混合局势全体是Δ1,…,Δi,…,Δn 的直积,记为:Δ=i∈NΔi={F=(F1,…,Fi,…,Fn):Fi∈Δi, i∈N}称为G的混合策略组合集。
利用对每个i∈N ,Δi 是非空的紧凸集,类似类似于性质2 有:命题2 Δ是非空的紧凸集。 注意,Fi∈Δi(i∈N) 是局中人i 独立选择的随机策略,(s1,s2,…,sn)S 时,有ui(s1,s2,…,sn)=0 ,所以局中人i∈N 的期望支付可定义为函数vi:Δ→R ,即对F∈Δ,i∈Nvi(F)=∫s1∈S1∫s2∈S2…∫sn∈Snui(s1,s2,…,sn)dF1(s1)dF2(s2)…dFn(sn)(2)同样,分布函数Fi(si)∈Δi表示局中人i∈N 的混合策略,局中人i 的纯策略集Si 可扩充为混合策略集Δi (局中人i 采用si∈Si ,即以概率1选定si )。为方便,博弈={Δi,vi}i∈N也称为连续博弈G={Si,ui }i∈N的混合扩充博弈。类似,我们引入记号(Fi,F0i)=(F1,…,Fi-1,F0i,Fi+1,…,Fn),其中F0i∈Δi,F-1=(F1,…,Fi-1,Fi+1,…,Fn)∈Δ-ij≠iΔj。
同样有(Fi,F-i)=F ,且vi(F)=vi(Fi,F-i) 。利用{Fk=(Fk1,Fk2,…,Fkn)}∞k=1, Fk∈Δ,Fki∈Δi ,F=(F1,…,Fi,…,Fn)∈Δ ,Fi∈Δi ,则limk→∞Fk=F,(w)limk→∞Fki=Fi,(w),i∈N ;且利用(4)式就有:limk→∞vi(Fk)=limk→∞∫s1∈S1∫s2∈S2…∫sn∈Snui(s1,s2,…,sn)dFk1(s1)dFk2(s2)…dFkn(sn)=∫s1∈S2∫s2∈S2…∫sn∈Snui(s1,s2,…,sn)dFk1(s1)dFk2(s2)…dFkn(sn)=vi(F)其中在Δ上定义距离ρ:Δ×Δ→R为:ρ(F1,F2)=maxi∈N supsi∈Si|F1i(si)-F2i(si)|,F1,F2∈Δ 再利用函数极限与点列极限关系,得到类似于性质3的命题。命题3 vi(F) 是Δ上的连续函数;且vi(Fi,F-1是Fi∈Δi 的连续函数,i∈N 。从而结合命题1,可知连续博弈G={Si,ui}i∈N的混合扩充={Δi,vi}i∈N是连续博弈。此外,利用(5)式、命题3、积分的运算性质,对θ∈[0,1],以及对j∈N ,F1j ,F2j∈Δj 时,有:viθ(F1,…,θF1j+(1-θ)F2j,…,Fn)=θvi(F1,…,F1j,…,Fn)+(1-θ)(F1,…,F2j,…,Fn)即vi(F)(i∈N)有如下特性:命题4 对F∈Δ ,vi(F)(i∈N)具有n重线性性。定义3 连续博弈G={Si,ui}i∈N的混合扩充={Δi,vi}i∈N 中,对i∈N ,F∈Δ,F*i∈Δi 称为局中人i∈N在F下的最优混合策略,如果vi(F*i,F-i)={max{vi(F0i,F-i):F0i∈Δi} 且 Vi(F)={F*i∈Δi: vi(F*i,F-i)=max{vi(F0i,F-i):F0i∈Δi}称为局中人i∈N 对其他局中人混合局势F-i∈Δ-i的反应集,即Vi:ΔΔi 是反应集映;而F*=(F*1,…,F*i,…,F*n) 称为G 的一个混合策略纳什均衡或混合均衡,如果对每个i∈N ,vi(F*1,F*-i)=max{vi(Fi,F*-i):Fi∈Δi}因此,由上述定义类似命题2,可知:F*是连续博弈G 的一个混合策略纳什均衡,当且仅当F*∈V1(F*)×…×Vi(F*)×…×Vn(F*)=i∈NVi(F*)即F* 是(反应)集映V=V1×V2×…×Vn:ΔΔ的一个不动点。
利用两个分布函数的加权平均是分布函数和命题4,得到:命题5 Vi(F)(i∈N)以及i∈NVi(F*) 都是非空的凸集。从而G的混合均衡的凸组合都是混合均衡。命题7也类似于性质5,即Vi(p)(i∈N)是非空的凸集的结果。
2.2 连续博弈中混合策略纳什均衡存在定理
因为命题3至7和在预备知识中证明有限策略型博弈的纳什均衡存在定理时所应用的那些性质1至5是一致的,且概念也基本相似,命题2类似在连续博弈中成立,因此同样的证明得到了:混合策略纳什均衡存在定理 (I.Glicksberg,1952)G={Si,ui}i∈N是连续博弈,则G 至少存在一个混合策略纳什均衡。
2.3 二人常和连续博弈G={S1,S2,u1,u2}
虽然我们介绍了反应函数方程组、反应函数法来解无限博弈、连续博弈,但是对二人常和连续博弈还是可以利用由鞍点定理表明的最小最大原理来求其混合均衡,即有如下命题(以下的证明约去,可参见武康平,2001):命题6 (F*1,F*2 )是二人常和连续博弈G={S1,S2,u1,u2} 的混合策略纳什均衡,当且仅当v1 (F*1,F*2 )=maxF1∈Δ1 minF2∈Δ2v1(F1,F2) =minF2∈Δ2 maxF1∈Δ1v1(F1,F2)其中G的混合扩充是={Δ1,Δ2,V1,V2} ,(F1,F2)∈Δ1×Δ2 , v1(F1,F2)=∫s1∈S1∫s2∈S2ui(s1,s2)dF1(s1)dF2(s2) 。 此外,也有如下命题:命题7 博弈 G是二人常和连续博弈,当且仅当它的“混合扩充”是常和博弈;且混合扩充保持G 的支付总和不变。同时,期望支付函数v1(F1,F2)的鞍点也具有无差异性和可交换性。
3 结语
本研究主要讨论连续博弈中的混合策略性质和它的均衡,连续博弈G={Si,ui}i∈N 是否存在纯策略纳什均衡的问题,还在于要对它的局中人的支付函数作出其在策略集上是作者简介:姚红梅,荆楚理工学院医学院,硕士研究生,主要从事心肌保护的研究。
* 武汉大学中南医院心内科
拟凹的规定。也指出连续博弈G={Si,ui}i∈N的混合扩充={Δi,vi}i∈N是一个连续博弈,从而完全信息博弈策略型博弈的混合扩充博弈都是连续博弈。这样一来,完全信息博弈策略型博弈至少存在一个纳什均衡(或更准确的是混合策略纳什均),那么,对完全信息博弈策略型博弈的混合扩充博弈本身来说,它就至少存在一个纯策略纳什均衡。此外,完全信息的有限策略型博弈和连续博弈中混合策略上的性质实际上它们混合扩充博弈中关于策略集和(期望)支付函数的性质。
【参考文献】 1 Von Neumann J, Morgenstern O. Theory of Games and Economic Behavior. Princeton: Princeton University Press, Second Ed, 1947.
2 Weirich P. 均衡与理性(1998). 黄涛,译. 北京: 经济科学出版社,2000.
3 谢识予. 经济博弈论.第2版. 上海:复旦大学出版社,2002.
4 张维迎. 博弈论与信息经济学. 上海: 上海三联书店、上海人民出版社,1996.
5 Binmore K G. 博弈论基础,1991;经济理论的进展. [法]JJ.拉丰编,王国成,等译, 北京:中国社会科学出版社,2001.
6 Fan K. Fixedpoint and Minimax Theorem in Locally Convex Topological Linear Space.Proc. Nat. Acad. Sci. U.S.A.1952,38:121~126.
7 Fudenberg D,Tirole J. 博弈论.姚洋,校,黄涛、郭凯等,译.北京: 中国人民大学出版社,2002.
8 武康平. 高级微观经济学.北京:清华大学出版社,2001. |