ダイナミックサイジングとは、それぞれの局面で最もEVの高いベットサイズで自動的に戦略を簡単にする画期的で新しいポーカーアルゴリズムのことです!ダイナミックサイジングは、機械学習アルゴリズム(詳しくはこちらの記事)を使って最適なサイズを探します。このアルゴリズムはどの程度正確なのでしょうか?どれくらいの頻度で最適なサイズになるのでしょうか?またその性能をどうやって測れば良いのでしょうか?それを判断するためにテストを行いました。
パフォーマンス概要
- ダイナミックサイジングは、純粋戦略と比較して、リバーのEVのうち99.95%を得られる。
- ダイナミックサイジングは、95%の確率でほぼ最適な(EVロスが0.25%未満)ベットサイズを見つける。
- ダイナミックサイジングは、どの固定サイジング戦略よりも優れている。
- ダイナミックサイジングは、混合戦略と比較しても、リバーのEVのうち99.7%を得られる。
- ダイナミックサイジングは、時間と収束を考慮すると、実際にはより複雑な戦略よりも優れている。
- ダイナミック戦略は、複雑な戦略よりも研究しやすく、実行しやすく、ノイズが少ない。
検証方法
セルフプレイで戦わせ100BBのヘッズアップを何百回もシュミレーションし、500個のリバースポットの精度を調べました。リバーのサンプリングにセルフプレイを使う利点は、より一般的なスポットがデータにより多く反映されるためです。パフォーマンスを測定するために、両プレイヤーが8つのベットサイズと5つのレイズサイズを持つ複雑な戦略をプレイした場合の期待値(EV)を測定することから始めました。次に、一方のプレイヤーに単純化した1サイズの戦略を与え、再度解析してEVロスを測定しました。この方法を両方とも別々に繰り返しました。リバーはCFRを用いてポットの0.05%の精度で解きました。ドンクベットスポットはOOPの計算から除外しています。
ダイナミックサイジングアルゴリズムは、単一のベストサイズ戦略と比較して、リバーでのEV損失は平均わずかポット0.05%しかありません。
8つの異なるサイズを持つ複雑なリバー戦略をプレイした場合と比べても、平均EV損失は0.30%であり、固定されたシングルサイズ戦略よりも優れています!
- シングルベストサイズは、ベストベットサイズ戦略をプレイした場合の効果。
- コンプレックスストラテジーは、8つのベットサイズでコンプレックスストラテジーをプレイした場合のパフォーマンスを示す。
- いずれの場合も、複雑なエクスプロイトを仕掛けてくる相手と対戦しており、こちらの単純化を最大限エクスプロイトしてくる。
ダイナミックパフォーマンス:複雑な戦略との比較
最初のテストでは、シングルサイズのダイナミック戦略が、より複雑な戦略と比較してどの程度のパフォーマンスを示すかを確認しました。8つのサイズを1つにまとめると、常にベストのサイズを選んだとしても、理論上のEV損失が発生します。
次のグラフは、ダイナミックアルゴリズムが、より複雑な戦略でプレイした場合と比較して、どれだけの頻度(縦ȕ)で異なるEV損失(横Ȗ)かを示しています。
ダイナミックシングルサイズ戦略では、平均してリバーEVの99.7%を獲得できることがわかりました。EVロスはポットの0.1%から0.5%の範囲であることが多く、ポットの1%を超えることはほとんどありません。
ダイナミックパフォーマンス:シングルサイズ戦略との比較
最も公平なパフォーマンステストは、我々が選択しうる最良のシングルサイズに対するEVロスを測定することです。
次のグラフは、ダイナミックアルゴリズムが、最適なシングルサイズ戦略でプレイした場合と比較して、どれだけの頻度(縦⇅)で異なるEV損失(横⇆)かを示しています。
ダイナミックアルゴリズムは、78%の確率で最適なリバーベットサイズを選択し、約95%の確率でEV0.25%以下の最適に近いベットサイズを選択しました。
ダイナミックサイジングは、多くのサイズが同じような結果になるスポットでは、ぶれやすくなりました。また、一つのサイズが明らかに正しいシナリオでは、ダイナミックサイジングが最適なベットサイズを選択する可能性が最も高くなりました。
最適なリバーサイズとは
リバーでのベット戦略を1つのサイズに単純化するとしたら、どのサイズが最適か?
我々は、一つのサイズに絞ったリバー戦略をとった場合のEVロスを測定しました。ここでも、単純化をエクスプロイトしようと全力を尽くしてくる複雑な相手とプレイした場合の相対的な損失です。次の図は、リバーで1つの固定ベットサイズを使用した場合のEV損失を表示しています。ボジションでフィルターをかけられます。
ここでの各データのポイントは、ベットサイズまたはリバーでのチェックを使用した場合のEVロスを表しています。例えば、ベット100%は、リバーでポットサイズのベットまたはチェックを使った場合のEV損失を測定したことを意味します。最適な固定リバーベットサイズは、IPで約75%~100%、OOPで約50%になっています。固定サイズのEV損失が、複雑な8サイズ戦略をプレイするのに比べて比較的低くなっています!このデータは、リバーでOOPは50%とIP75%でプレイするだけで、かなり強力な固定ベットサイズ戦略を取れることを表しています。
このことは、なぜOOPがIPよりも小さなベットサイズを好むのかに関わってきます。一つの説明としては、IPはベットするとアクションを再度することになるので、ベットサイズを大きくしてよりポラライズした戦略を使うべきだというものです。一方、OOPはそれがないためブロックベットするインセンティブが高く、チェックのEVが低いため、コールされたときに少し不利なハンドでもバリューベットすることができます。ただ、これは別の記事で解説します!
Slumbotに対するベンチマーク
Slumbotと対戦したとき、15万ハンドのトライアルで最も成績が良かったのは、1サイズのダイナミックサイジングを使ったものでした。理論的には、複雑な戦略の方が単純な戦略よりも優れているはずですが、アクションに7秒の制限があることで、単純なアプローチの方が高い精度で戦うことができました。
Slumbotとの対戦のグラフを見てみましょう。どちらの場合も、Ruse(現在はGTO Wizard AI)がSlumbotを大きく上回りましたが、Dynamicアルゴリズムの方が勝率が50%高く、試合中の変動も少なくなりました。
Complex Strategy vs Slumbot:
- 勝率:13.1 bb/100
- 70%信頼区間:8.8~17.3bb/100
- 95%信頼区間:4.5 から 21.6 bb/100
結論
ポーカープレイヤーは戦略を単純化することでEVを失うのではないかと心配するかもしれませんが、経験上その逆が正しいとはっきり言えます。単純化された戦略は、学習効率と勝率を向上させます。ゲームに不必要な複雑さを排除し、最も重要なことに集中することで、精度と自信の両方が向上します。
ベンチマークを振り返ってみましょう。
Complex Strategy vs Slumbot:
- ダイナミックサイジングは、純粋戦略と比較して、リバーのEVのうち99.95%を得られる。
- ダイナミックサイジングは、95%の確率でほぼ最適な(EVロスが0.25%未満)ベットサイズを見つける。
- ダイナミックサイジングは、どの固定サイジング戦略よりも優れている。
- ダイナミックサイジングは、混合戦略と比較しても、リバーのEVのうち99.7%を得られる。
- ダイナミックサイジングは、時間と収束を考慮すると、実際にはより複雑な戦略よりも優れている。
- ダイナミック戦略は、複雑な戦略よりも研究しやすく、実行しやすく、ノイズが少ない。
簡単にするためすべてのテストはEVロスが最も大きくなるリバーで行われました。ダイナミックサイジングアルゴリズムは、それより前のストリートではさらに優れた性能を発揮するはずです!
シンプルな戦略をうまくプレイすれば、複雑な戦略を下手にプレイする場合より成績が必ず良くなります。
ダイナミックサイジングアルゴリズムの仕組みについて詳しく知りたい方は、こちらの記事をご覧ください。