外交决策学的 外交决策与博弈论
博弈论(game theory)——理性选择模式的方法论
“博弈”(game)一词在英文中的基本意思是游戏、比赛,故而也有人将博弈论译成游戏理论。在游戏、比赛中,尽管身体因素很重要,但当参赛各方的身体条件相差无几时,计谋在比赛中就成为至关重要的因素了。甚至在实力不如对手的情况下,通过适当策略的运用,最终也能取胜。众所周知的田忌赛马的故事就是证明。可见,游戏的背后是谋略之争。中文博弈的意思是弈棋,下棋本身是游戏的一种,但更强调理性推理或谋略的运用,因此将game theory译为博弈论比游戏理论更贴切、更传神。
博弈论是对于相互依存状况中行为体互动规律的研究,是以人的理性思维为前提的。相互依存是指博弈中任何一个局中人受到其他局中人行为的影响;反过来,他的行为也影响到其他局中人。由于局中人的相互依存性,博弈中一个理性的决策必定建立在预测其他局中人的反应之上。进行博弈时,一个局中人是将自己置身于其他局中人的位置,通过预测其他局中人将选择的行动来计算自己的获益函数(payoff function),并最终决定自己最理想的行动。
在20世纪50年代以前,对外交决策的研究多是采用归纳分类法(induction and typology)。研究者对历史上个人、机构和国家的决策行为进行描述,从现有事例和经验数据中寻找规律或模式,使用的是一种经验主义的方法。以18世纪以来在自然科学领域得到广泛应用的假设推理法(hypothetic-deductive)为背景,博弈论在20世纪20年代时开始成为数学研究的一个领域。1944年,美国学者纽曼(John von Neumann)和摩根斯坦(Oskar Morgenstern)发表《博弈论和经济行为》,率先将博弈论应用于社会科学,为经济学特别是微观经济学提供了解释和预测个人和家庭经济行为的方法。获诺贝尔经济学奖的纳什(John F.Nash,Jr.)在1952年建立的关于非合作博弈中的均衡理论(Nash Equilibrium,1950/1951),为博弈论在国际关系领域的应用开辟了道路(纳什均衡:给定你的策略,我的策略是我最好的策略;给定我的策略,你的策略是你的最好策略。这里“最好策略”指在所有的可能策略中,没有其他任何策略能带来比该策略更大的利益。)。1954年,美国政治科学杂志发表了第一篇有关博弈论的文章《考察权力在国会委员会系统中分配的一种方法》。
20世纪50年代以后,国际关系理论学者在博弈论中综合了心理学、统计学和社会学的一些方法,并系统地应用于国际关系特别是外交决策领域。其中主要代表著作有:托马斯·克罗姆比·谢林(Thomas C.Schelling)的《冲突策略》、拉伯泼特(Anatol Rapoport)和查马(Albert M.Chammah)的《囚徒困境:对冲突与合作的研究》、博兰姆斯(Steven J.Brams)的《超级大国的游戏:博弈论在超级大国冲突研究中的应用》、摩罗(James Morrow)的《政治科学中的博弈论》。关于博弈论,还特别应提及卡尔·多伊奇的《国际关系之分析》和莫顿·卡普兰的《国际政治的系统和过程》两本名著。与以前外交政策分析中的历史归纳法不同,博弈论是用一组假设在逻辑上将各种选择联系起来,进而推理出政策结果,是逻辑推理的方法。所以,用博弈论分析外交决策的原理是:假设——推理(演绎)——结果(决策)。在西方,博弈理论已被频繁地应用于外交政策、军备竞赛、和平与战争等重大国际问题的研究。正如基欧汉(Robert O.Keohane)在论述理性选择概念时所说:“我们不需要去研究领导人究竟在想什么,我们可以仅仅通过在办公室中进行‘思想实验’,就可能获得必要的信息。”博弈论就是一种对思维过程的数理实验。传统博弈理论在20世纪50、60年代曾经风行一时,出现多种多样的博弈模型,但基本形式有零和(zero-sum)博弈和非零和(non-zero-sum)博弈两种,参与者或两方或多方。零和博弈又称为“谁是懦夫”博弈,指参与者的正负收益相加为零,或一方所失就是他方所得,属于纯冲突型博弈;非零和博弈是指双方或各方得失不等,或者共同受益,或者共同受损,在这种博弈中合作成为可能。零和博弈只能用于最简单的冲突状态,情况稍微复杂一点就失去应用价值。在非零和博弈(例如囚徒困境)中,由于参与者运用理性推理方法可能选择相互背叛而放弃共同受益的结果,因此存在着事实上的非理性选择。从60年代后期开始,政治学科的博弈论学者们认识到,问题出在博弈参与方只有一次选择机会,无法与对手的反应进行互动,在运用了收益矩阵(payoff matrix)之后,情况更是如此。
1971年,霍华德(Nigel Howard)发表《理性的悖论》,取得了重复博弈理论的突破。随后,这一理论又得到了许多其他学者的发展和改造。在重复博弈中,博弈者最初选择的是一种行为准则,允许随后根据情况和收益做出调整。其基本原则已不再是传统博弈论中己方的利益最大化,而是将着眼点放在结果的性质,特别是结果的稳定性上。研究者考虑的不是一方对自己最大利益的追求,而是两方或多方寻找减少不确定性和解决冲突的均衡点(equilibrium)。在一次囚徒困境博弈中,双方都背叛是纳什均衡点(Nash Equilibrium Point),即占优势的战略;但在重复的博弈中,背叛行为的短期收益会被紧随其后的远期相互惩罚的代价所超过。霍华德运用现实世界中的认知现象(学习),将囚徒困境改造成一种互动游戏,运用这种战略后,最终通过合作而共同获益也属纳什均衡。采用这种战略的博弈者在一开始就采取合作战略,然后不管其对手如何应对,都坚持对背叛行为进行报复,对合作行为给与回报。当两个博弈者都使用“一报还一报”(tit-for-tat)战略时,国际合作就能实现。
一般来说,决策者在决策时容易忽视对手的选择与偏好;重复博弈由于有认知学的帮助,会强迫决策者考虑对方的观点,这对通过讨价还价赢得较好和较稳定的结果至关重要。重复博弈所建造的决策背景,可以使决策者的思维前后一致和比较全面。另一方面,我们也应该看到,现实世界并不具有完全的可重复性,因此即使是可重复的博弈也不能概括所有国际关系现象。对于经济贸易、环境、科技等交往来说,国家的反应能力较为迅速和有效,而对于武装冲突、军备控制而言,要么是不可重复的,要么国家的反应比较迟缓。
以现实主义为思想基础的理性选择模式及其对博弈论的应用,被国际关系学界视为研究外交决策的主流理论,影响也最大。与此同时,另一些学者认为,政治并不仅仅意味着理论计算,人们的理性思维总是被许多因素限制着。例如,缺乏信息就会严重阻碍人们的策略思考,此外还存在资源有限、交流不畅、缺乏复杂计算能力等问题。在实践中,理性选择模式无法深入剖析在国际关系中存在的许多“非理性”决策,使人深感理性的局限。于是,不少学者从国内政治的组织管理层次和决策者个人的心理认知层次上进行更广泛研究和探索,从而进一步推动了外交决策学的发展。
①一些美国大学政治系讲授博弈理论的课程被称为“政治学中的正式模式”(formal model in political science)。理性选择也被认作是“政治理论基础”,见:Peter C. Ordeshook, A Political Theory Primer, Routledge: Chapman and Hall Inc.,1992。
② 赫博特·亚历山大·西蒙(1916~2001),曾任美国卡耐基·米隆大学经济学教授,主要著作有:《管理行为:对管理组织决策过程的研究》(H. A. Simon, Administrative Behavior: A Study of Decision 2 Making Processes in Administrative Organization, New York: Macmillan Co.,1947.)。