德州扑克跟我学报道:
Modern Poker Theory
现代扑克理论
第二章 博弈论基础
核心概念
以下是本书讨论博弈论时将用到的重要概念。
博弈论(Game Theory):博弈论是研究聪明而理性的决策制定者之间斗争或合作的数学模型的整个数学和科学领域。它可以应用到经济、军事策略、心理学、生物学、计算机科学和扑克这样的纸牌游戏。
博弈(Game):博弈是指多个玩家之间的任何互相影响。博弈中的每个玩家的收益受到其他玩家决策的影响。
效用(Utility):快乐玩家从特定结果所得的整体衡量指标。高效用数字说明结果是完美的。
零和博弈(Zero-Sum Game):一个参与者的收益或损失恰好被另一参与者的损失或收益平衡局面的一种数学表示。如果参与者们的总收益累加,减去他们的总损失,结果将为零。(如果我们忽略抽水和用于锦标赛决赛桌和SNG比赛的ICM,扑克是一种零和游戏。)
策略(Strategy):玩家行为的一个完整规程,描述在整个游戏中一名玩家在每个可能决策点的每一行动。
纯粹策略(Pure Strategy):在相同决策点总是采用相同行动的一种策略。
混合策略(Mixed Strategy):在相同决策点以一定频率采用不止一种纯粹策略的策略。
占优策略(Dominant Strategy):不管其他玩家选择哪种策略,如果一种策略比一些其他策略产生更高收益,就称它为占优策略。如果不管其他玩家怎么做,一种策略赚到的收益都比一些其他策略少,这种策略是劣势的(dominated)。
假设有A、B两种不同策略。
l 不论其他玩家怎么做,如果选择B策略总是得到一个比选择A策略更好的结果,那么B策略严格统治(strictly dominate)A策略。
l 如果B策略至少有一组行动的结果比A策略优越,而所有其他行动组给B策略和A策略相同的结果,那么B策略弱统治(weakly dominate)A策略。
l 不管其他玩家怎么做,如果选择B策略总是得到一个相比选择A策略糟糕的结果,那么B策略被A策略严格统治。
l 如果B策略至少有一组行动的结果比A策略糟糕,而所有其他行动组给A策略和B策略相同的结果,那么B策略被A策略弱统治。
l 如果B策略即不统治A策略,也不被A策略统治,B策略和A策略是非传递的(intransitive)。在一些情况下选择A策略更好,在另一些情况下选择B更好,取决于对手的行动。
最大程度剥削策略
最大程度剥削策略(Maximally Exploitative Strategy,简称MES)是对于一个对手的固定策略的最有利可图回应(一系列行动)。为了计算MES,你必须知道对手的完整策略。你可以通过找出游戏每一手牌的最有利方式找到一种MES。一旦知晓最大程度剥削策略,整个游戏的价值是就是每手牌EV的 总和。
如果你为所有1326种德州扑克底牌组合的每种组合找到了最有利可图的玩法,你已经找到了MES。因为每手牌总是以最有利可图的方式游戏,为使一手牌以两种或多种不同方式游戏(混合策略),每个行动的EV必须是相同的。考虑以下简化的扑克局面。
牌例
牌局类型:单挑SNG比赛(牌手只能要么全压要么弃牌)
按钮玩家筹码量:100BB
大盲玩家筹码量:100BB
盲注:(5/10)
翻前:按钮玩家采用一种用他的所有牌全压策略。大盲玩家对抗按钮玩家的MES是什么?
利用底池赔率公式:
大盲玩家可以用对抗对手范围至少有45%胜率的所有牌跟注,因此大盲玩家对抗按钮玩家的MES是用66.21%的牌跟注,放弃33.79%的牌(底牌范围18)。
底牌范围18
每手牌的EV计算是独立的,因此所有跟注是+EV的牌都跟注,所有跟注是-EV的牌都弃牌。扑克中不存在任何为了整个策略“平衡”或为了保护一个范围而对一手牌采用不太有利可图玩法的“亏本销售”玩法。每一手牌都应该是要么有利可图,要么无利可图,应该相应地游戏。
大盲玩家MES玩法(用所有+EV牌跟注,放弃所有-EV牌)的EV)的EV是15筹码底池的13.77筹码,这相当于底池的92%(底牌范围19)。
底牌范围19:计算大盲玩家的MES策略
按钮玩家的剥削性策略(用所有牌全压)在15筹码底池的累计EV是1.2228筹码,这相当于底池的8%(底牌范围20)。
底牌范围20:按钮玩家剥削性策略的累计EV
反剥削(Counter Exploitation)
MES被用来对抗一个对手的固定策略,但一个有适应能力的对手可将他的策略调整为一种最大程度剥削你的MES的新策略,提高他的期望值。
例子
考虑之前的例子——按钮玩家采用一种用所有牌全压10BB的策略。大盲玩家的MES是用66.21%的牌跟注,放弃其他33.79%的牌。如果按钮玩家知道大盲玩家的跟注策略,他可以为最大程度剥削大盲玩家而调整他的全压策略。
我们可以通过对每手牌运用我们的EV公式找出按钮玩家的哪些牌是+EV的全压牌:
全压EV = 弃牌的EV * 大盲玩家弃牌率 + 跟注的EV * 大盲玩家跟注率
手动计算所有牌的EV可能要花费大量时间,因此我们可以使用一种全压/弃牌应用,比如holdresouces.net网站的Hold’em Resources Calculator。
二次迭代:按钮玩家的反剥削策略是用46.61%的牌全压,放弃53.39%的牌。
随后,大盲玩家也可以为找出对抗按钮玩家新策略的最好回应而改变其策略(底牌范围21)。
底牌范围21:按钮玩家的反剥削
三次迭代:大盲玩家的最好回应是用30.3%的牌跟注,并放弃69.97%的牌(底牌范围22)
底牌范围22:大盲玩家的最好回应
如果两个牌手的反制调整过程经历足够多的迭代,最终他们将达到一个两者都无法改进他们正在采用策略的均衡点。此时可以说两个牌手在最大程度相互剥削。这种情况被叫做纳什均衡(Nash Equilibrium)。
可能会发生牌手们的策略反复变换但从不收敛到一个平衡点的情况。在这种情况下,平衡点仍然可以通过对牌手们的回应做轻微调整找到。每个牌手不是在每次迭代中突然切换到最佳回应,而是往最佳回应的方向逐步调整他们的策略。
纳什均衡
在扑克领域中,GTO(Game Theory Optimal,博弈论最优)往往被当作纳什均衡的同义词。
纳什均衡是具有以下特征的一系列策略:
l 牌手是未卜先知的:每个牌手知道其他每个牌手的确切策略。
l 所有牌手同时最大程度剥削彼此。
l 没有哪个牌手能够为改善自己的期望值而单方面改变他的策略。
均衡策略在对抗一个不可剥削对手时是最大程度剥削的,因此它们继承了 最大程度剥削策略(MES)的所有特征,即:
l 单独的牌局总是用尽可能有利可图的方式游戏,因此GTO玩法从不牵涉到为了平衡的原因而不太有利可图地游戏一手牌。
l 被严格统治的策略无法成为纳什均衡的一部分,因为采用它们是不合逻辑的。
l 在纳什均衡中一手牌可以用超过一种方式游戏(混合策略)的唯一方式是多个策略选择具有相同的EV。
以下是HRC生成的前面例子的纳什均衡解决方案(底牌范围23和24)。
底牌范围23:按钮玩家的纳什均衡
底牌范围24:大盲玩家的纳什均衡
两个牌手在全压/弃牌游戏中不同迭代的价值如下(表9)。
表9:全压/弃牌游戏的迭代
在全压/弃牌例子中,如果大盲玩家知道按钮玩家在第一次迭代(用100%的范围全压),他可以通过应用用66.21%的牌跟注的最大程度剥削策略(MES)将他的EV改进到13.77。但如果大盲玩家错估了按钮玩家的玩法,或者按钮玩家误以为大盲玩家在使用二次迭代策略(用46.61%的牌全压),那么大盲玩家的EV将下降到8.48。如果大盲玩家采用用37.4%的牌跟注的GTO策略,那么不管按钮玩家怎么做,他的EV都保证是10.45。
纳什均衡或GTO策略强大的一个主要原因,是它们给了你一个可保证的最低程度EV。它们的定义方式假定你的对手知道你的策略,而且他的策略是对你所做事情的绝对最佳反应。这就是为何GTO策略是不可剥削的。任何对手获得一种相对于你的优势在数学上是不可能的,这意味着你要么不亏不盈,要么盈利。
采用纳什均衡策略的另一个好处是,你不必尝试通过卷入疯狂的级别战争(leveling wars)来欺骗你的对手。根据定义GTO策略不会为特定类型的对手采用特定的玩法。它们假定你的对手不管你如何做都将正确调整,从而它们专注于采用可靠的玩法而非经常试图了解对手的想法。
如果你采用GTO策略对抗任何并非完美针对你的策略的对手(他也采用GTO策略),你的期望值将超过纳什均衡的EV,而且随着对手的策略变糟你的EV也会上升。然而,纳什均衡策略赚到的EV不如旨在完美针对对手特定错误的策略那么多。顶级牌手采用基础健全的GTO策略,因此他们对抗厉害对手或陌生对手仍然是不可剥削的。但随着他们对对手玩法的更多了解,他们也会为利用对手的漏洞而做出剥削性调整。
天龙扑克,亚洲扑克游戏领导者!天龙扑克注册地址:http://www.tianlongqipai.com
本文由德州扑克跟我学整理发布