2022年ケベック出身のカナダ人プログラマーチーム、Philippe BeardselとMarc-Antoine Provostは、最先端のポーカーソルバー、Ruse AIを開発しました。Ruse AIはAIがもつスピードと従来のソルバーがもつパワーを併せ持っています。
RuseがSlumbotに勝つ:Ruseは超人的なポーカーボットです。Annual Computer Poker Competition(ACPC)のチャンピオンであるSlumbotを破り、19.4BB/100という脅威のウィンレートを記録しました。
2023年、GTO WizardはRuse AIを買収しました。Ruseの革新的な技術がGTO WizardのAIの強化に役立っています。
AIポーカーボットの評価
この快挙を理解するために、AIポーカーツールの対応範囲と、その有効性の評価方法を掘り下げてみましょう。
GTOソルバーは、ナッシュ均衡に近づけようとします。均衡戦略を取れば、相手の戦略に関係なく、期待値では絶対負けることはありません。Nash Distanceは、「エクスプロイトされる可能性」とも呼ばれ、その戦略がナッシュ均衡にどれだけ近いかを測定します。制約がなければ、ノーリミットホールデムのヘッズアップは10の160乗の可能性があり、宇宙の原子の数である10の82乗よりも多くなります。規模が非常に大きいため、プリフロップからすべてのベットサイズを考慮しながらNash Distanceを計算することは不可能です。この計算を単純化するよりも、ポーカーボット同士を対戦させて、パフォーマンスを測る方が効率的です。
Slumbot
フリーの研究者であるEric Jacksonによって開発されたSlumbotは、Annual Computer Poker Competition(ACPC)のチャンピオンです。アルバータ大学とカーネギーメロン大学によって設立され、2006年から2018年まで毎年開催されたACPCは、コンピュータポーカーボットを分析し評価するためのオープンで国際的な場となりました。
ソルバーのように、Slumbotはナッシュ均衡の近似値に従ってプレイしようとします。戦略を適応させたり、対戦相手のミスを利用したりすることはありません。このポーカーボットは、PioSolverのような市販のソルバーで使用されているのと同じCFRアルゴリズムを使用しています。200BBのヘッズアップノーリミットホールデムを極めたSlumbotは、似たようなカードの組み合わせを戦略的に等価であるとみなし、ベットを抽象化、つまりベットサイズを制限して解を求めます。
戦略の計算には、2TBのRAMで約25万時間をかけています。プレイの際は、大量の事前に計算したソリューションを元にプレイし、相手の取ったアクションとベットサイズを制限下の1つ以上のベットサイズにマッピングします。
GTO Wizard AI
最新のゲーム理論と人工知能を利用し、ナッシュ均衡に収束する全面的なアプローチのポーカーツール、GTO Wizard AI(Ruse)を開発しました。
Slumbotや従来のポーカーボットとは異なり、GTO Wizard AIはプレイ前に完全な戦略を計算して保存することはありません。その代わり、深い強化学習により、プレイ中に起こる特定の状況を思考し、数秒でリアルタイムに解析します。
人間と同様に、GTO Wizard AIもポーカー知識と直感を訓練する必要がありますが、人間が手を加えることなく、AIと何億ものハンドをプレイすることでそれを身につけました。GTO Wizard AIは、ランダムなプレイから始まり、対戦を繰り返しながらどのプレイが最も期待値が高くなるかを徐々に学習しました。GTO Wizard AIは、様々なシナリオを経験することで、様々なゲームの深さに対する最適戦略を学習し、あらゆるスタックサイズを解析できる包括的なポーカーツールになっています。ニューラルネットワークを使用しているため、GTO Wizard AIはアクションを決めるそれぞれの要素をわずか数秒で処理することができ、非常に素早く動作します。
結果
分散の影響を軽減するため、GTO Wizard AIはACPCのルールを守りながらSlumbotと150,000ハンドプレイしました。このルールでは、1ハンドあたりの平均時間を7秒に制限し、各ハンド終了後にスタックサイズを200BBにリセットします。GTO Wizard AIは、どのようなスタックサイズでも解析できるように設計されたポーカーボットであるにもかかわらず、ACPCの制約を受けながら、Slumbotに対してSlumbotが専門とするフォーマットで過去最高の勝率、19.4BB/100という驚異的な勝率を記録しました。この試合の賭け金が$50/$100で、1時間に200ハンドをプレイした場合(複数のテーブルをオンラインでプレイする場合の比較的標準的なレート)、GTO Wizard AIは1ハンドあたり$19.4、1時間あたり約$3880を獲得したことになります。
SlumbotのAPIは公開されているので、他の研究者も自分のポーカーツールの基準としてSlumbotを利用することができます。
GTO Wizard AIや他のトップレベルのボットとSlumbotの対戦結果:
- 2017年にアルバータ大学が開発し、人間のトップHUNLプレイヤーに勝利したAIポーカーボット、DeepStack。
- 元ハイステークスポーカープレイヤーBryan Pellegrinoが共同開発し、プロHUNLプレイヤーDoug PolkがDaniel Negreanuへの挑戦に備えて使用したトップAIポーカーボットSupremus。
- 2020年にNoam Brownらによって開発された全面的なアプローチのポーカーボットであり、これまでのポーカーAIよりも少ないドメイン知識で、HUNLで超人的なパフォーマンスを達成したReBeL。
トレーニングの新時代
ポーカーテクノロジー産業は、人工知能によって大きな変革期を迎えています。以前は何時間も計算する必要があったソリューションが、今では数秒で高い精度で計算できるようになっています。
次世代のポーカー学習ツール、GTO Wizard AIを使えば相対的に有利に立ち回ることができるでしょう。