世界最速の人工知能ソルバーであるGTO Wizard AI(旧称Ruse)を使うことで、これまで考えられなかったポーカーの勉強方法を確立することができます。
人間を超越する
ここ10年の間に新しいAI技術が登場し、HUNLでコンピュータープログラムが人間のトッププレイヤーに勝つことができるようになりました。このプログラムは、人間に勝つことはできたものの、ゲーム理論的最適戦略(GTO)を生み出すには程遠かったです。
GTO Wizard AIは、最大200BBまで、ベットサイズがどれだけあっても、1ストリート平均3秒で最適な戦略を生み出します。これまでに開発された最も強力な抽象化ベースのポーカーAI、Slumbotと150,000ハンド以上対戦した結果、19.4BB/100で勝ち、より優れたAIであることを証明しています。GTO Wizard AIの技術的進歩を知るために、まず従来のポーカーソルバーがどのように動作するのかについて紹介していきます。
従来のソルバーの仕組み
PioSolverのような従来のポーカーソルバーは、Counterfactual Regret Minimization (CFR)と呼ばれる近似均衡探索アルゴリズムを使用しています。CFRは、1回の反復を完了させるのに、ゲーム中のあらゆるハンドの組み合わせの可能な限り全ての戦略の期待値を計算します。このようなアルゴリズムが繰り返される度に生成される戦略は、相手の戦略に関係なく、期待値で負けないことが保証されるナッシュ均衡に近づいていきます。このプロセスは、一般に「解く」と呼ばれるものです。
フロップだけを解く場合でも、CFRはターンとリバーの全てのパターンを探ることになります。いくつかのベットサイズを考慮する場合、プリフロップからゲームを解くことは、このような手法では不可能です。通常、このような制約を回避するために、後のストリートでのベットサイズの数を減らしたり、似たようなハンド同士をまとめたり、プリフロップのソリューションにフロップのサブセットを使ったりして、ゲームを大幅に抽象化しています。
AIによる解き方
GTO Wizard AIは、ソリューションの計算において根本的に異なる方法をとっています。ゲームツリー全体を通して推論するのではなく、一度に1つのストリートだけを考えます。この仕組みにより、驚くほど速く解くことができるようになっています。
GTO Wizard AIは、ニューラルネットワークから学習した期待値を使用して、後のストリートの計算を不要にしています。これはGTO Wizard AIの直感と考えることができます。つまり、どのような状況においてもAIはハンドの価値を理解しています。
人間の直感と似ているGTO Wizard AIのようなコンピュータープログラムは、セルフプレイと呼ばれる技術によって自分自身を訓練することができます。無作為にプレイするとこから始まり、何億ものハンドを自分自身の優れたバージョンと対戦することで、最終的には優れた戦略を生み出すことができます。
GTO Wizard AIは、自分自身でトレーニングすることで、ハンドが終わるごとに反実仮想推論を行い、以前の戦略を見直し、より期待値の高いアクションを考えます。次に同じようなシナリオに遭遇したときには、より高い確率で期待値を最大化するような決断を下せるようになります。GTO Wizard AIは、学習過程で遭遇した非常に多様な状況を経験することで、様々なスタックに対する最適な戦略を理解し、様々なスタックサイズでのゲームを解くことができるAIとなっています。
GTO Wizard AIのメンバー
Ruseの共同設立者であり、世界最大級のAI研究所であるMilaのPhilippe BeardsellとMarc-Antoine Provostによって設立されたGTO Wizard AIチームは、不完全情報ゲームの領域における非常に複雑な課題の解決に専念する非常に優秀な人材で構成されています。ポーカーAIの科学的文献で発表されたこと以上のものを目指し、チームの研究は不完全情報ゲームにおけるマルチエージェント強化学習に焦点を当てています。
GTO Wizard AIのチームは現在、以下の課題に注力しています。
- あらゆるレーキ形式のカスタムソリューション
- あらゆるICMストラクチャーを解く
- あらゆるPKOのバウンティを解く
- プリフロップとポストフロップのマルチウェイ(3人以上)のカスタムソリューション
- カスタムPLOソリューション
- ソルバーの出力を人間の言語に翻訳し、学習プロセスを簡略化する
- よりプレイヤーのレベルに近く、学習しやすいソリューションを作る
これはGTO WizardのAIチームが取り組む機能の概要を示すもので、人工知能によって実現可能であるほんの一部を示すものに過ぎません。科学者とエンジニアからなるチームで世界最高のポーカートレーニングエコシステムを設計しようとしています。
発明と卓越性に取り組むことに焦点を当てているGTO Wizard AIチームはポーカーAIの世界に革命を起こしています。私たちは知識欲に駆られ、大きな影響を与えたいと考えている人を求めています。是非、私たちのチームで働きたいという方は、hello(at)gtowizard(dot)comまでご連絡ください。応募書類にはしっかりと目を通し確認させていただきます。
ポーカーの学習方法を変え、これまでにない優れたプロダクトを生み出しましょう!