游戏行为举止……

您第一次遇到一个陌生人。 在互动过程中,您应该合作还是自私? 您应在多长时间内继续提供帮助? 当该人试图剥削您时,您应该怎么做? 这些是我们日常生活中面临的情况。 表示这种情况的一种简单方法是囚徒困境游戏的迭代版。

一场囚徒困境游戏可以解决4种情况:

  1. 合作中互惠互利
  2. 如果A仅在B上有缺陷,则A人剥削B人
  3. 如果只有B在A上有缺陷,则B剥削A的人
  4. 如果彼此缺憾,则几乎没有收益

与传统的零和游戏(例如国际象棋)不同,那里有绝对的获胜者,而且每个人都有相反的观点。 囚徒困境的玩家不一定要互相竞争,目标是最大程度地发挥自己的利益。 这是一个正和游戏,会引发有趣的新策略和新问题。

那么,在一个利己主义者的世界中,如果没有中央权威,我们如何激励合作?

如今,在没有中央权威的情况下进行协作的国家,朋友,行政人员和政治人物之间存在着许多互动。 我们可能理解,追求自身利益的基本问题会导致所有人的结果不佳,但是我们尝试选择能够使我们获得最高回报的决策。 这些陈述可以通过囚徒困境的简单博弈来理解。 许多现实世界中的应用都是围绕囚徒困境建模的。

与囚徒困境的单一游戏不同,我们在现实世界中的互动非常接近囚徒困境的反复循环。 根据以下陈述,制定了应对反复囚徒困境的策略。

  1. 我们彼此互动n次,其中n通常是未知数。
  2. 在每次互动过程中,我们可能会推断出前几轮的动作,但无法确定对方将做出的决定。
  3. 我们无法推断对方的未来决定。 例如:一个人可能会也可能不会回馈。
  4. 我们不确定本轮比赛的收益,因为我们不确定是否还有其他互动。
  5. 收益不是以绝对规模衡量的,而是相对的。 示例:新闻记者可以与业务人员合作发布故事,以期在业务人员获得更多媒体关注的同时获得更多内部消息。

1980年,罗伯特·阿克塞尔罗德(Robert Axelrod)发布了一次计算机竞赛的结果,他挑战了数学,经济学,心理学,游戏理论,社会学和计算机科学领域的专家,提出了自己的程序/策略,以应对一系列反复的囚徒困境。 通过循环调度方法,他允许策略随机地对战。 每种策略都不知道它将与对手对战的次数。 在举办了无数比赛之后,出现了制胜战略的新兴趋势。 他发表了这些结果,引起了这些社区的极大兴趣。 对于他的第二场比赛,有63个参赛者都知道第一场比赛的获胜策略。 在第二场比赛中,令所有人惊讶的是,同样的策略获胜。 获胜策略是一个很好的策略,称为TIT FOR TAT。

该策略始于合作,然后模仿对方的先前举动。 该策略对所有策略都非常强大,因为它可以奖励合作并惩罚背叛。

相对于其他策略,这使该策略在大多数情况下都可以得分高。 经常利用总是合作的好策略,而经常失败的不合作策略却得分不高,因为对手也至少允许得分。

如何有效地做出好的决定?

  • 零和游戏与正和游戏。 我们的系统教会我们比赛,比赛通常有一个明确的获胜者,但现实世界并非如此。 重要的是不要嫉妒他人的成功,而要专注于两个参与者的净最大正数。 重要的是要专注于是否比开始时的状况更好。 专注于最大程度地创造净总价值。
  • 不要先缺陷。 避免不必要的冲突很重要,首先要背叛我们,以建立一个卑鄙的人社会。
  • 相互合作与背叛。 过度的宽恕可能会造成巨大的损失,因为它会使不良玩家利用该系统。 叛逆应该是往复的,而不是导致另一方进一步叛逆的方式。

在某些国家,家庭争执往往世代相传,因为它们彼此背叛,同样没有任何合作迹象或途径。 一个好的方法是用较小的重量返回缺陷。 这显示了其他玩家他们将来必须付费,但也激发了他们的合作。

  • 不要太聪明。 由于其他参与者不知道您会做出什么样的决定,因此必须清楚且简单地执行操作,这一点很重要。 不像象棋这样的零和游戏,您想让其他玩家猜猜,正和游戏的目标是以某种方式显示您可能合作的迹象。 复杂的策略可能会使另一个人困惑。

激励良好行为的因素

如果再次互动的可能性很高,那么两个个人或实体很可能会合作。 通过增加互动次数,可以激励合作。 更进一步,在将来的会议中增加回报的价值,这确保了两个实体之间的长期合作心态。 当您开始设计谈判和会议时,请确保您设置了无数次会议,每个以后的会议都有较高的收益。 另一个重要因素是提高识别彼此行为的能力。 通过显示其他实体以前的互动,可以更轻松地激励合作。 无法识别过去的动作会导致混乱和随机决定。 启用相互行为系统。 不应是两个实体永远相互背叛的情况,而应以明确的标志来回覆不良行为,以确保不合作的行为必须应对未来。

社会结构会发生什么?

在基于性别,肤色,着装风格等标签的社会结构中,我们不一定会基于我们的直接个人经历而与陌生人进行不同程度的互动。 可以基于与该人相关联的标签来建立策略。 例如,一组黄色玩家允许彼此以某种方式进行交互,类似地,一组绿色玩家以某种方式进行交互。 当黄色玩家遇到绿色玩家时,他们总是叛逃。 因此,即使从未与绿色玩家进行过互动的黄色玩家第一次进行互动,他们也往往会彼此背叛。 这导致了一个自我确认的刻板印象系统。

另一个因素是声誉,为了维护某些声誉标准(例如成为一个强硬的参与者),我们可能会为了证明一个观点而背叛多个观点。 当政府对公司制定不合理的法规时,公司很可能无法满足法规并通过支付罚款来妥协。 除政府声誉外,这一结果对所有利益相关者都是不利的。 一个好的政府系统应该以最大程度的合作来建立激励机制。 只有在这种情况下,公众才能真正受益于政府的激励措施。

结论

尽管与多种策略在一对一的交互中非常有效,但TIT FOR TAT在系统或团队中可能不是最有效的。 建立良好的激励系统需要对策略部署环境有透彻的了解。 好的激励系统是高度稳定的策略,一小组采用新策略就很难轻易入侵。 良好的激励系统已针对所有变化进行了全面测试。

去中心化组织的兴起和零知识证明应用的便捷性将带来许多新的经济模型。 必须建立成功的未来激励模型,以造福集体,并在其环境中保持高度稳定。