はじめに
ゲーム理論的最適戦略(GTO)という言葉は、ここ10年間ポーカー界で大きな支持を得ている概念です。GTOとは、エクスプロイトされない固定(fixed)戦略のことです。
では、GTO戦略とは具体的にどのようなものでしょうか?なぜ 「エクスプロイトされない 」のでしょうか?何ができるようになるのでしょうか?これらの質問に答えるために、まずはナッシュ均衡の概念を理解する必要があります。
ナッシュ均衡の定義
ナッシュ均衡とは、どのプレイヤーも自らの戦略を変更しても、これ以上多くの利益を得ることができない状態のことです。つまり、自身の戦略を公開したとしても相手は追加で利益を得られないということです。ナッシュ均衡は、経済学、ビジネスでの交渉、戦争、そしてポーカーのような有限(有限回のうちに必ずゲームが終了する)非協力ゲームの多くに応用されています。
ポーカーにおける「GTO」とは、この均衡状態を指します。GTOは、固定されており、相手に合わせて調整する必要がないエクスプロイト不可能な戦略です。ナッシュ均衡は、GTOに対して最も強く、最もエクスプロイト的な戦略ともいえます。
この記事での「自身の戦略を公開する」とは、下記のようにどのようなスポットでどのように自分のレンジをプレイしているか相手が知っていることを意味しています。
固定(fixed)戦略と動的(dynamic)戦略
GTO戦略の主な利点のひとつは、戦略が固定されていることです。つまり良いプレイをするために、曖昧で不正確な読み(リーディング)に頼る必要がありません。
「固定戦略」とは、変化しない戦略とも言い換えられます。固定戦略は、異なるボードや異なるベットサイズに対して対応を変えることはありますが、同じスポットでは常に同じようにプレイします。
一方、「動的戦略」は、状況によって毎回戦略を変えます。エクスプロイト戦略である動的戦略は、相手の弱点に合わせて戦略を変えます。そのためには相手のレンジを読み、相手の戦略に常に対応していく必要があります。
例えば、ヘッズアップで常に決まった戦略でプレイする必要があり、自身の戦略は公開されているとします。そのため相手はどのようなボードで、どのようなベットサイズに対して、どのようにプレイするのかを正確に知っています。相手はリーク(ブラフをし過ぎていたり、バリューに偏り過ぎていたり、トラップを多くしたり、チェックレンジを狭めたり)をすぐに見抜き、エクスプロイトしてきます。
ここでの最適な戦略は、様々な方法でエクスプロイトをしてくる相手に負けないようリークを最小限にすることです。バリュー過多のニットやブラフが多いマニアックにも勝てる戦略が必要となります。GTOは、的確にエクスプロイトをしてくる相手に対しての最強の固定戦略です。しかも、常に同じ戦略にも関わらず、どの人間のプレイよりも優れています。
GTO戦略はどのように計算されているのか?
GTO戦略は、ソルバーと呼ばれるソフトウェアを使って計算されています。ソルバーとは、利益を最大化するアルゴリズムのことです。あるプレイヤーに悪い戦略を取らせた場合、アルゴリズムはそのミスを最大限にエクスプロイトする戦略を見つけます。
このようなエクスプロイト的なアルゴリズム同士を対戦させると、最終的にはどちらも相手をエクスプロイトできない均衡に辿り着きます。
- AとBの2人のプレイヤーが、完全にランダムな戦略を使っている状態から始めます。
- プレイヤーAの戦略を固定し、プレイヤーBにその戦略をエクスプロイトさせます。
- プレイヤーBの新しい戦略を固定し、プレイヤーAにその戦略をエクスプロイトさせます。
- 今度はプレイヤーAの新しい戦略を固定し、プレイヤーBにその戦略をエクスプロイトさせます。
- これを均衡になるまで繰り返します。
他の方法もありますが、エクスプロイトをするというアルゴリズムを繰り返すコンセプトは、すべてのソルバーで使用されています。
均衡の計算はdEV(デルタ期待値)で測定され、「ナッシュディスタンス」とも呼ばれています。この指標は、現在のソリューションがどれだけエクスプロイトされる可能性があるかを示します。「デルタ」とは、最もエクスプロイト的な戦略と現在の戦略との距離です。この数値が低いほど、そのソリューションはエクスプロイトされる可能性が低く、均衡に近いことを意味しています。
実際には、均衡に近づくにつれて計算が難しくなり、dEVが0になることはほとんどありません。GTO Wizardのソリューションでは、人間の精度をはるかに超えるポットの約0.2%から0.3%の精度で解かれています。
GTO vs エクスプロイト
GTOとエクスプロイトは密接な関係にあります。GTOはバランスを取ることを目的とし、エクスプロイトはミスを利用することを目的としています。
相手がどれくらいGTOから乖離しているのかを知らないと、相手を「アグレッシブすぎる」「パッシブすぎる」「バリューに偏っている」と判断するのはできません。何と比較してパッシブすぎるのか?GTOは基準となる見方を教えてくれます。デフォルトの戦略がどのようなものであるべきかを理解すれば、相手のミスをより正確に見極めることができます。
また、エクスプロイトの基本原理を理解せずに、最もエクスプロイトされにくい戦略の背後にある根本的な理由を理解することはできません。均衡はとても脆く、GTOはエクスプロイトされない絶妙なバランスで成り立っています。一方のプレイヤーがパッシブであれば、もう一方のプレイヤーは強いハンドをチェックレンジに残すことをやめ、一方のプレイヤーがコールを多くすれば、もう一方はブラフをしなくなります。一方のプレイヤーがフォールドを多くすれば、もう一方のプレイヤーはブラフを多くするようになります。この原則は、GTOソリューションを解釈する上で最も重要なことです。
GTOとエクスプロイト、どちらも利益をもたらします。GTOのスタイルは、相手がGTO戦略では決して取るべきでない行動を取るたびに、(調整することなく)受動的に利益を得ることができ、エクスプロイトは、ミスに乗じてGTO以上の利益を得る可能性がありますが、逆にエクスプロイトされるリスクも同時に負います。
GTOはどこを目指しているのか?
GTOの最終目標は、エクスプロイトされない戦略を生み出すことです。ラベルの付け合い、メタゲーム、読み合いを必要としません。GTO戦略は強力なエクスプロイト戦略に対して、利益を最大化するように設計されています。常に戦略を調整してエクスプロイトしてくる相手に対抗できる最強の固定戦略です。つまり、GTOはバランスを取ることを目指しています。
翻訳:Ayumu