鮑勇劍:互信缺失博弈中的合作策略

鮑勇劍 澎湃新聞 2021-04-02 17:06:54

系統(tǒng)越復(fù)雜,反應(yīng)的方法也要多種多樣,否則就難有效地以一報(bào)還一報(bào)。如果對方的招式不斷更新變化,我方只有畫符念咒這一招,那競爭的結(jié)果是堪憂的。

上周,緊急邀約我分析國際貿(mào)易危機(jī)的朋友倍增。隱去眾所周知的背景情況,問題大約集中在下面幾個(gè)方面:

1)對外方的言行,應(yīng)該強(qiáng)勢回應(yīng)還是悄然無息?2)放眼未來,如果嚴(yán)重缺乏互信,怎樣維持國際貿(mào)易合作?3)貿(mào)易的本質(zhì)是互惠?;ズσ苍S是例外。斗爭是否會很快結(jié)束?

我是國際貿(mào)易的門外漢。不過,仍然可以識別當(dāng)前國際貿(mào)易呈現(xiàn)出的“囚徒困境”。對于如何走出“囚徒困境”,博弈論已經(jīng)有超過30年的研究。許多時(shí)候,一個(gè)概括現(xiàn)象本質(zhì)的經(jīng)典理論有極高的實(shí)踐價(jià)值。簡而言之,即使身處嚴(yán)重缺乏互信的博弈中,如果策略得當(dāng),合作關(guān)系仍然是可能的。如果策略失當(dāng),雙方陷入長久互害關(guān)系而不能自拔,它也是可能的。

第一次世界大戰(zhàn),敵對士兵之間的合作默契

第一次世界大戰(zhàn)暴露政治決策者一系列誤判。首先,英德為代表的對立聯(lián)盟誤判奧地利公爵菲迪南德(Franz Ferdinand)刺殺事件的象征意義。其次,雙方以為象征性武力對峙可以在幾個(gè)星期內(nèi)結(jié)束。結(jié)果,第一次世界大戰(zhàn)延續(xù)了4年,傷亡4200萬人。

還有一個(gè)出乎決策者意料的現(xiàn)象,是敵我互動中的和平合作。在從法國一直延伸到比利時(shí)的500英里的壕溝坑道中,雙方士兵演繹出軍事戰(zhàn)爭歷史上罕見的現(xiàn)象:除了間歇性的突襲,士兵可以在雙方步槍射程內(nèi)正常生活,而無需懼怕對方狙擊手射殺。

歷史學(xué)家阿什沃思(Tony Ashworth)十分好奇這一現(xiàn)象。通過閱讀大量前線士兵的家書和日記,他以《壕溝戰(zhàn)爭1914-1918》(Trench War 1914-1918)一書記錄了戰(zhàn)爭中敵對雙方特殊的合作行為。

自1914年8月始,戰(zhàn)爭血腥殘酷,雙方介入一場你死我活的零和游戲。因?yàn)榕既坏囊蛩?,在某些陣地,雙方埋鍋灶飯的時(shí)間點(diǎn)剛好差不多。戰(zhàn)場出現(xiàn)奇特的寧靜。偶然形成的默契,從休戰(zhàn)吃飯延伸到起床出恭。上午8-9點(diǎn)鐘,英德士兵保持互不侵犯的狀態(tài),讓大家處理私人事務(wù)。后來,雙方都不約而同地放棄對食品補(bǔ)給線的攻擊,自己要吃飯,也讓對方有飯吃。

相互克制的默契,從一個(gè)坑道蔓延到另外一個(gè)坑道。1914年圣誕節(jié),醉醺醺的士兵甚至可以逛到對方壕溝而不擔(dān)心被射殺。意外當(dāng)然會出現(xiàn),這畢竟是戰(zhàn)爭。當(dāng)一方發(fā)動突襲時(shí),另外一方馬上予以對應(yīng)的反擊,一命抵一命。休戰(zhàn)時(shí),德國狙擊手會特意瞄準(zhǔn)英軍壕溝上方的民宅,連續(xù)射擊,直至打出一個(gè)漂亮的圓洞。雙方士兵們用類似方式展現(xiàn)報(bào)復(fù)能力和意愿。一報(bào)還一報(bào),我活也讓你活,同時(shí)睚眥必報(bào)。

按照戰(zhàn)爭的邏輯,敵對雙方形成典型的囚徒困境。相互背叛應(yīng)該是常態(tài)。但是,壕溝戰(zhàn)爭中的士兵卻表現(xiàn)出另外一面:突襲中背叛,休戰(zhàn)時(shí)合作,自己求活路,也讓對方有活路??拥朗勘g的和平合作,當(dāng)然引發(fā)指揮部的不滿。指揮官總有方法繼續(xù)戰(zhàn)爭。它是另外一個(gè)故事。但是,曠日持久的壕溝戰(zhàn)爭中,敵對士兵是怎樣達(dá)成合作默契的?在后來的100年中,它一直是研究博弈論學(xué)者的熱門話題。

超越囚徒困境

1950年,蘭德公司(Rand Corp)開始研究美國和蘇聯(lián)之間冷戰(zhàn)博弈。數(shù)學(xué)家福拉德和德雷舍(Merrill Flood and Melvin Dresher)推演出著名的“囚徒困境”(見下圖)。在一個(gè)假想的犯人與犯人之間的博弈中,如果兩人事先串通,都保持緘默,那么各被判1年。如果其中一位背叛,而另一位仍然拒絕招供,那么,背叛的犯人可以免刑,而抗供的犯人獲刑5年。如果兩位都背叛事先串供,那么各獲刑3年。關(guān)押后,因?yàn)閮晌环溉藷o法溝通,理性的首選一般更傾向于背叛。在缺乏信息和可靠承諾前提下,它是個(gè)人利益最大化的優(yōu)勢選項(xiàng)。

161734566242946900_a700xH.png

“囚徒困境”影響了一代國際關(guān)系學(xué)者。蘇美兩個(gè)超級大國競爭過程中,背叛和對抗成為大國博弈的首選和優(yōu)選。當(dāng)艾利森(Graham Allison)談?wù)摯髧鴽_突的修昔底德陷阱(Thucydides’ trap)時(shí),其背后的邏輯也是如此。

互信缺失就不可能合作嗎?怎樣才能顛倒囚徒困境下的選擇?一戰(zhàn)時(shí),敵我雙方士兵之間的自發(fā)合作只是曇花一現(xiàn),還是可以長久維持?

帶著上述問題,密歇根大學(xué)政治學(xué)家阿克賽爾羅德(Robert Axelrod)修改了囚徒困境的一個(gè)重要的,但被忽視的前提:假想敵對雙方進(jìn)入一個(gè)循環(huán)往復(fù),一直持續(xù)下去的互動過程,什么樣的選擇(合作或背叛)會勝出?這個(gè)勝出的選擇應(yīng)該具有穩(wěn)定性,應(yīng)該符合選擇者的長遠(yuǎn)利益。

為搞明白長期博弈背后的規(guī)律,阿克賽爾羅德設(shè)計(jì)了一個(gè)電腦游戲。游戲模仿囚徒困境,但不設(shè)立結(jié)束條件。換言之,游戲參加者不知道下一局是否為終局。1980年,阿克賽爾羅德向研究博弈論和相關(guān)社會科學(xué)的學(xué)者發(fā)出英雄帖,邀請他們自愿參與囚徒困境的游戲。

第一輪錦標(biāo)賽參加者都是博弈論愛好者或?qū)<?。你來我往,博?4輪,最后得分第一的是多倫多大學(xué)的一位教授。他使用的策略極其簡潔:一報(bào)還一報(bào)(Tit for Tat),即你對我好,我回報(bào)以友善;你對我惡,我就報(bào)復(fù)反擊;如此,循環(huán)往復(fù)不改變。

第二輪錦標(biāo)賽有62輪博弈。來自5個(gè)國家的參加者都已經(jīng)通曉上一輪博弈的結(jié)果,特別是獲勝策略。參加者嘗試15種不同的合作或背叛的策略組合,包括“下馬威策略”(出場就連著背叛兩局),“誘騙策略”(開局合作,然后連續(xù)背叛),“強(qiáng)盜策略”(一直背叛,從不合作),“趁機(jī)占便宜策略”(合作一次,背叛兩次,再道歉求饒)。令人驚訝的是,榜上排名前列的都是使用了“一報(bào)還一報(bào)”的策略。

阿克賽爾羅德的初始研究問題是:從自身利益出發(fā),在沒有權(quán)威干預(yù)的條件下,缺乏信任的博弈雙方能否形成合作關(guān)系?如果能,它的規(guī)律是什么?規(guī)律是否有長期的穩(wěn)定性?

兩輪電腦模擬游戲顯示:當(dāng)競爭雙方認(rèn)為會在未來反復(fù)相遇時(shí),他們有可能采納“一報(bào)還一報(bào)”的策略。它最終導(dǎo)致雙方穩(wěn)定的合作關(guān)系。而這種關(guān)系最符合各自的長遠(yuǎn)利益。

為了求證電腦模擬游戲發(fā)現(xiàn)的規(guī)律,阿克賽爾羅德找到生物進(jìn)化學(xué)家漢密爾頓(William Hamilton),請他從億萬年生物進(jìn)化的角度解釋或證偽“一報(bào)還一報(bào)”的合作規(guī)律。漢密爾頓解釋,類似的互惠原則(Reciprocity)也頻繁出現(xiàn)在生物進(jìn)化過程中。例如,海鱸(Sea bass)有兩個(gè)性器官,可公可母。如果海鱸有十次交配,受精和產(chǎn)卵過程的任務(wù),往往是對半承擔(dān),大約5次承擔(dān)母海鱸的任務(wù),5次執(zhí)行公海鱸的角色。

類似的互惠合作現(xiàn)象,在物種進(jìn)化過程中普遍存在。簡單結(jié)構(gòu)的植物和動物沒有自主的、有意識的選擇。但是,它們有與外部環(huán)境的反應(yīng)機(jī)制。長期進(jìn)化過程中,互惠反應(yīng)有利于物種生存。這個(gè)本能的策略通過基因保留下來,傳給后代。漢密爾頓教授的“親緣關(guān)系和利他合作”理論被認(rèn)為是對達(dá)爾文“物競天擇”生物進(jìn)化理論的一個(gè)重要補(bǔ)充。生物進(jìn)化,既有競爭,又有合作。合作是物種演變的主旋律。

“一報(bào)還一報(bào)”是不是也可能讓互害關(guān)系循環(huán)下去,成為無休止的宿怨?它完全是可能的。因此,博弈論學(xué)者特別倡導(dǎo)傳播“一報(bào)還一報(bào)”的互惠合作規(guī)律,教育人們認(rèn)識到它是符合自身利益的最優(yōu)策略。

缺乏互信條件下的合作策略

成為贏家,我們絕不能打左臉,送右頰。但是,只有“以牙還牙,以眼還眼”,它也不符合我們自身利益和長期目標(biāo)。實(shí)踐中,阿克賽爾羅德的“一報(bào)還一報(bào)”的策略有10項(xiàng)應(yīng)用原則??偨Y(jié)如下:

1.待人以直, 針鋒相對。你示好,我友善。你背棄,我反擊。如此循環(huán)往復(fù)。2.凸顯相互依存的宿命,打消零和游戲的念頭。躲了初一,逃不了十五。讓對方理解,這不是一次性可以了斷的博弈。3.首現(xiàn)誠意,和善開局。博弈伊始,不出濫招,不動惡念。從做好人開始。4.敢于反擊,以牙還牙?;鼐匆皶r(shí),反擊合比例。5.寬宥只能一次,了斷討巧伎倆。最多原諒對手一次,而且是在有力的報(bào)復(fù)之后。6.承諾不首先背叛,如果失誤,真誠致歉。假如因?yàn)檎`判而選擇背叛,立即解釋并補(bǔ)償。7.不耍小聰明,不占小便宜。即使發(fā)現(xiàn)對方漏洞和疏忽,堅(jiān)持第一條,待人以直。8.成全對方,超越自己。零和游戲重點(diǎn)在削弱對手。非零和游戲重點(diǎn)是自我進(jìn)步。9.結(jié)盟,成為合作的少數(shù)。即使在普遍具有敵意的競爭環(huán)境中,少數(shù)結(jié)盟者之間的合作將改變充滿敵意的環(huán)境,直至合作成為主導(dǎo)策略。10.開宗明義宣示遵守“一報(bào)還一報(bào)”的策略。當(dāng)雙方認(rèn)識到它是必要的優(yōu)選后,建立合作的過程可以加速。

在目前的國際環(huán)境下,因?yàn)榈鼐壵咭蛩兀瑖H貿(mào)易變得更加復(fù)雜。怎樣理解和管理復(fù)雜系統(tǒng)?系統(tǒng)學(xué)家阿什比(Ross Ashby)建議:遵守“必要的多樣性” 原則(Ashby’s law of requisite variety)。概言之,系統(tǒng)越復(fù)雜,反應(yīng)的方法也要多種多樣,否則就難有效地以一報(bào)還一報(bào)。如果對方的招式不斷更新變化,我方只有畫符念咒這一招,那競爭的結(jié)果是堪憂的。

長按二維碼關(guān)注我們