SlideShare a Scribd company logo
1 of 44
Download to read offline
多⼈数不完全情報ゲームにおけるAI
~ポーカーと⿇雀を例として~
株式会社サイバーエージェント
アドテク本部 AI Lab
阿部拳之
2019/08/20
⾃⼰紹介
■ 名前
– 阿部 拳之(あべ けんし)
– @bakanaouji(ばかなおうじ)
■ 経歴
– 東京⼯業⼤学総合理⼯学研究科知能システム科学専攻(〜2017年)
■ 強化学習×進化計算をメインに研究
– 株式会社ハル研究所(2017年〜2018年)
■ ゲームプログラマー
– 株式会社サイバーエージェント アドテク本部 AILab(2018年〜)
■ 強化学習・機械学習×⿇雀AIについて研究
本⽇の主題
■ ⿇雀AIの研究を進めていくうちに,多⼈数不完全情報ゲーム(ポーカーを中⼼
に)が着々と攻略されていることを知った
■ そこで,本⽇は「多⼈数不完全情報ゲームにおけるAIの発展」についてサーベ
イした内容について共有したいと思います
Summary
1. ポーカーAIの実例
– ⼆⼈零和不完全情報ゲームの攻略
– 三⼈以上のプレイヤが存在する不完全情報ゲームへの挑戦
2. ⿇雀AIの実例
– 主流のアプローチの紹介
※本⽇の発表は強化学習ではなく,ゲーム理論寄りのアプローチの話がほとんどに
なります
ポーカーAIの実例
⼆⼈零和不完全情報
ゲームの攻略
多⼈数不完全情報ゲームに対するア
プローチ
■ そもそも,多⼈数不完全情報ゲームにおける,最適な戦略(政策)とは︖︖
■ 強化学習的な観点で考えると...
– 期待利得を最⼤化 : 𝐸"[∑%&'
(
𝛾%
𝑅%]
– ⼀⼈プレイヤ
■ 利得関数や状態遷移確率が固定の場合,期待利得は戦略のみに依存
– 多⼈数
■ 利得が相⼿のプレイヤの戦略にも依存
■ 相⼿が取ってくる戦略はわからないので,どうやって最適であることを
定義する︖︖
⼆⼈零和不完全情報ゲームにおける
最適な戦略
■ ナッシュ均衡
– どのプレイヤも⾃分の戦略を変更することによって,より⾼い利得を得るこ
とができないような戦略の組み合わせ
■ 直感的には,それぞれのプレイヤが⾃分だけ戦略を変えることのメリッ
トがない状況
– 各プレイヤ𝑖の戦略を𝜎.,利得を𝑢.とすると,ナッシュ均衡戦略の組み合わせ
𝜎∗は以下の式を満たす
∀𝑖, 𝑢. 𝜎.
∗
, 𝜎3.
∗
= max
89
:∈<9
𝑢.(𝜎.
>
, 𝜎3.
∗
)
■ ⼆⼈零和不完全情報ゲームでは,ナッシュ均衡戦略を最適戦略とすることが多い
𝑢@ 𝜎@
∗
, 𝜎A
∗
= max
8B
:∈<B
𝑢@(𝜎@
>
, 𝜎A
∗
) , 𝑢A 𝜎@
∗
, 𝜎A
∗
= max
8C
:∈<C
𝑢A(𝜎@
∗
, 𝜎A
>
)
なんでナッシュ均衡戦略に従うこと
が良い︖︖
■ 相⼿の戦略𝜎Aがわかっている場合・・・
– 𝜎Aに対する最適応答𝐵𝑅 𝜎A に従えば,⾃分の利得をナッシュ均衡に従った場
合の利得以上にできる
𝐵𝑅 𝜎A = argmax
8B
:∈<B
𝑢(𝜎@
>
, 𝜎A)
→ナッシュ均衡でなく最適応答に従ったほうが良いのでは︖︖
なんでナッシュ均衡戦略に従うこと
が良い︖︖
■ 相⼿の戦略𝜎Aがわかっている場合・・・
– 𝜎Aに対する最適応答𝐵𝑅 𝜎A に従えば,⾃分の利得をナッシュ均衡に従った場
合の利得以上にできる
𝐵𝑅 𝜎A = argmax
8B
:∈<B
𝑢(𝜎@
>
, 𝜎A)
→ナッシュ均衡でなく最適応答に従ったほうが良いのでは︖︖
■ しかし,実際には相⼿の戦略はわかっていないことが多い
– 相⼿が実際には𝜎Aに従ってこなかった場合,⾃分の利得が𝑢@ 𝜎@
∗
, 𝜎A
∗
より少な
くなる可能性がある
■ ナッシュ均衡に従った場合・・・
– 相⼿の戦略に関係なく⾃分の利得を𝑢@ 𝜎@
∗
, 𝜎A
∗
以上にすることができる
→利得の損失を最⼩限に抑えられる
→対称性があるゲームの場合は負けない戦略
ナッシュ均衡戦略の計算
■ ゲームの状態数が⼤きい場合,厳密なナッシュ均衡戦略の計算は難しい...
– ポーカーで⾔うと・・・
– Heads up Limit Texas Hold’em : 約10@I
– Heads up No-limit Texas Hold’em : 約10@J'
■ できる限りナッシュ均衡戦略に近い戦略を求める
– 代表的なアルゴリズム︓Counterfactual Regret Minimization (CFR)
Counterfactual Regret Minimization
■ 基本的な流れ
– 「この⼿を取ったほうが良かった」という後悔 (regret) を元に戦略を更新す
ることで,(平均)戦略をナッシュ均衡へ近づけていく
■ Counterfactual Regret
𝑟.
%
𝐼, 𝑎 = 𝜋3.
8O
𝐼 (𝑢. 𝜎P→R
%
, 𝐼 − 𝑢. 𝜎%, 𝐼 )
– 「現在の戦略𝜎%を情報集合𝐼において⾏動𝑎を取るように変更したら,どれ
だけ利得が増えるのか」を定式化
A
B B B
グー チョキ
パー 情報集合𝐼
Regret Minimization in Games with Incomplete Information (2008)
https://papers.nips.cc/paper/3306-regret-minimization-in-games-with-incomplete-information
Counterfactual Regret Minimization
■ 基本的な流れ
– 「この⼿を取ったほうが良かった」という後悔 (regret) を元に戦略を更新す
ることで,(平均)戦略をナッシュ均衡へ近づけていく
■ Counterfactual Regret
𝑟.
%
𝐼, 𝑎 = 𝜋3.
8O
𝐼 (𝑢. 𝜎P→R
%
, 𝐼 − 𝑢. 𝜎%, 𝐼 )
– 「現在の戦略𝜎%を情報集合𝐼において⾏動𝑎を取るように変更したら,どれ
だけ利得が増えるのか」を定式化
A
B B B
グー チョキ
パー
グーを出すようにしたら,
どれくらい得かな...
Counterfactual Regret Minimization
■ Cumulative Counterfactual Regret
𝑅.
(
𝐼, 𝑎 = T
%&@
(
𝑟.
%
(𝐼, 𝑎)
■ Cumulative Counterfactual Regretに基づいて,戦略を更新
𝜎.
(U@
𝐼, 𝑎 =
max(𝑅.
(
𝐼, 𝑎 , 0)
∑R∈V(P) max(𝑅.
(
𝐼, 𝑎 , 0)
, 𝑖𝑓 T
R∈V(P)
max(𝑅.
(
𝐼, 𝑎 , 0) > 0
1
|𝐴 𝐼 |
, 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒
■ 𝑡 = 1, ⋯ , 𝑇までの戦略𝜎.
%
を平均化した戦略がナッシュ均衡戦略へと収束
– ただし,⼆⼈零和不完全情報ゲームのみ保証
– 三⼈以上では収束性の証明はされていない
Counterfactual Regret Minimization
■ アルゴリズム概要
1. ある情報集合𝐼に対して,以下の2つの価値を計算
今の戦略の期待利得︓ 𝑢. 𝜎%, 𝐼
”𝐼において⾏動𝑎を取るように変えた戦略”の期待
利得︓𝑢. 𝜎P→R
%
, 𝐼
2. 𝑢. 𝜎%, 𝐼 , 𝑢. 𝜎P→R
%
, 𝐼 を元に,regretを計算
3. Regretを元に,戦略を更新
A
B B B
今の戦略の期待利得 : 𝑢. 𝜎%
, 𝐼
𝑎 𝑏 𝑐
Counterfactual Regret Minimization
■ アルゴリズム概要
1. ある情報集合𝐼に対して,以下の2つの価値を計算
今の戦略の期待利得︓ 𝑢. 𝜎%, 𝐼
”𝐼において⾏動𝑎を取るように変えた戦略”の期待
利得︓𝑢. 𝜎P→R
%
, 𝐼
2. 𝑢. 𝜎%, 𝐼 , 𝑢. 𝜎P→R
%
, 𝐼 を元に,regretを計算
3. Regretを元に,戦略を更新
A
B B B
今の戦略の期待利得 : 𝑢. 𝜎%
, 𝐼
𝑎 𝑏 𝑐
𝑅.
(
𝐼, 𝑎 = 2 𝑅.
(
𝐼, 𝑏 = 0 𝑅.
(
𝐼, 𝑐 = 1
Counterfactual Regret Minimization
■ アルゴリズム概要
1. ある情報集合𝐼に対して,以下の2つの価値を計算
今の戦略の期待利得︓ 𝑢. 𝜎%, 𝐼
”𝐼において⾏動𝑎を取るように変えた戦略”の期待
利得︓𝑢. 𝜎P→R
%
, 𝐼
2. 𝑢. 𝜎%, 𝐼 , 𝑢. 𝜎P→R
%
, 𝐼 を元に,regretを計算
3. Regretを元に,戦略を更新
A
B B B
今の戦略の期待利得 : 𝑢. 𝜎%
, 𝐼
𝑎 𝑏 𝑐
𝑅.
(
𝐼, 𝑎 = 2 𝑅.
(
𝐼, 𝑏 = 0 𝑅.
(
𝐼, 𝑐 = 1
𝜎.
(U@
(𝐼)を(2/3, 0, 1/3)に更新
Counterfactual Regret Minimization
■ さらに⾼速化したアルゴリズムCFR+によって,10@I
程度の情報集合数を持つ
ゲームにおいて収束できるように
■ Heads up Limit Texas Hold’em(情報集合数︓約10@I)はほぼ攻略︕︕
■ しかしHeads up No-limit Texas Hold’em(情報集合数︓約10@J')はまだまだ遠
い...
→戦略ベクトルをPCに保持できるような容量ですらないので,そもそも戦略を
求めようとすることが現実的ではない
→ゲームを抽象化 (abstraction) して,情報集合数を現実的なサイズまで減らす
Solving Heads-up Limit Texas Hold’em (2015)
https://poker.cs.ualberta.ca/publications/2015-ijcai-cfrplus.pdf
Abstraction
■ ゲームを抽象化することによって情報集合数を削減
■ Domainに関する知識を使って設計するのが基本
■ ポーカーにおけるabstractionの例
– ベッドできる⾦額を制限する(action abstraction)
– 同じような強さの⼿札は同⼀のグループとして扱う(information
abstraction)
1. Abstractionを⽤いてゲームを抽象化
2. CFRなどで抽象化したゲームのナッシュ均衡戦略を計算
3. 実際のプレイ時に抽象化ゲームのナッシュ均衡戦略を⽤いる
というのが主流に
Abstraction
■ ただし,当然抽象化しすぎると元のゲームと剥離しすぎてしまう
■ 直感的には,抽象化をしないほど元のゲームにおけるナッシュ均衡戦略と近い
戦略が得られそう
■ ⼀⽅で,抽象化しないと状態集合数を減らせない
→どうする︖︖
Libratus
■ Heads up No-limit Texas Hold’emにおいて初めてプロに圧勝し,話題となった
■ Abstractionによって抽象化したゲームにおける戦略を実際のプレイ中に改善
■ 戦略改善の流れ
1. 予めAbstractionによって抽象化したゲームのナッシュ均衡戦略を計算して
おく
2. 実際のプレイ中に抽象度を細かくしたSubgameにおける戦略を計算,その
戦略に従って⾏動
Superhuman AI for heads-up no-limit poker- Libratus beats top professionals (2018)
https://science.sciencemag.org/content/359/6374/418.abstract
Subgame Solving
■ 完全情報ゲーム
– 任意の意思決定点での最適な戦略を得るには,それ以下のSubgameのみを
解けば良い
– 例︓モンテカルロ⽊探索
– Subgameのみで解けるとゲーム⽊の状態数が少ない
→状態数が少なくなるとAbstractionの必要がなくなるので,嬉しい
→不完全情報ゲームでも同じことをしたい︕︕
■ 不完全情報ゲーム
– ⾃分がどの意思決定点にいるのか,ということが不確定
– 最適な戦略が到達しなかった他のサブゲームの利得に依存することがある
– Subgameを独⽴で解けば良いというものではない...
→この問題を解決するのがSubgame solving
A
B B B
今このノードにいることが完全にわかっている場合,
それ以降のSubgameを解けば良い
Subgame Solving
■ 完全情報ゲーム
– 任意の意思決定点での最適な戦略を得るには,それ以下のSubgameのみを
解けば良い
– 例︓モンテカルロ⽊探索
– Subgameのみで解けるとゲーム⽊の状態数が少ない
→状態数が少なくなるとAbstractionの必要がなくなるので,嬉しい
→不完全情報ゲームでも同じことをしたい︕︕
■ 不完全情報ゲーム
– ⾃分がどの意思決定点にいるのか,ということが不確定
– 最適な戦略が到達しなかった他のサブゲームの利得に依存することがある
– Subgameを独⽴で解けば良いというものではない...
→この問題を解決するのがSubgame solving
A
B B B
どこにいるかわからない・・・
LibratusにおけるSubgame Solving
■ Subgame solvingによって得た戦略が元の戦略よりも改善することが保証
– 抽象化したゲームにおけるナッシュ均衡戦略よりも良い戦略が得られる
■ アルゴリズム
– Subgameから”opt out”する⾏動を追加したaugmented subgameを⽣成
■ “opt out”に対する利得はreach marginと呼ばれる値によって決定
– Augmented subgameにおけるナッシュ均衡戦略をCFRなどで計算
どのタイミングでSubgame solvingし
なおすか︖︖
■ 3回⽬のベッティングラウンド到達時や,残りのゲームのサイズが⼩さ
い意思決定点に到達時
– 抽象度を低くして,戦略を計算しなおす
■ 相⼿がabstractionの範囲外の⾏動を取ってきたとき
– 例︓抽象化したゲームではベッド額を$100または$200に制限して
いたのに,相⼿が実際のプレイで$150ベッドしてきた
– 従来のアプローチでは$100か$200として丸めこんだ値として扱う
ことが主流 (action translation)
– Libratusでは,範囲外の⾏動を相⼿が取ってくるたびに,その⾏動を
含むSubgameを⽣成,それを解いて戦略を計算しなおす
Safe and Nested Subgame Solving for Imperfect-Information Games (2017)
https://arxiv.org/abs/1705.02955
Libratusの結果
■ プロ vs Libratus
– プロ相⼿に⾼い勝率
-200
-100
0
100
200
300
400
0 30000 60000
mbb/game
Games pl
Cumulative mbb/g
-100
-50
0
50
100
150
200
250
300
0 30000 60000 90000 120000
mbbx106
Games played
Cumulative mbb
Fig. 3. Libratus performance against top humans. Shown are the results of the 2017 Brains vs. Artificial Intelligence: U
RESEARCH | RESEARCH ARTICLE
Libratusまとめ
1. 予めAbstractionによって抽象化したゲームのナッシュ均衡戦略を計算しておく
2. 実際のプレイ中に,今の意思決定点からSubgameを⽣成
3. Subgameの抽象度を低くしていくことで,より実際のゲームに対するナッシュ
均衡に近い戦略を計算
三⼈以上のプレイヤが存
在する不完全情報ゲーム
への挑戦
三⼈以上の零和不完全情報ゲームの
難しさ
■ ⼆⼈零和ゲーム
– CFRにおける平均戦略がナッシュ均衡戦略に収束する保証がある
– ナッシュ均衡戦略に従っていれば⾃分の損失を最⼩限に抑えることができ
る
■ 三⼈以上の零和ゲーム
– CFRにおける平均戦略がナッシュ均衡戦略に収束する保証がない
– ナッシュ均衡戦略に従うことが良いことなのかすら怪しい
三⼈以上の零和不完全情報ゲームの
難しさ
< 𝜎@@
∗
, 𝜎A@
∗
>
< 𝜎@A
∗
, 𝜎AA
∗
>
< 𝜎@@
∗
, 𝜎AA
∗
>
ナッシュ均衡その1
ナッシュ均衡その2
これもナッシュ均衡
■ ナッシュ均衡は戦略の組み合わせであり,その組み
合わせはいくつか存在
■ ⼆⼈零和ゲーム
– 各プレイヤが独⽴にナッシュ均衡戦略を選択し
たとしても,両プレイヤの戦略の組み合わせは
ナッシュ均衡となる
■ 三⼈以上の零和ゲーム
– 各プレイヤが独⽴にナッシュ均衡戦略を選択し
た場合,全プレイヤの戦略の組み合わせはナッ
シュ均衡ではない可能性がある
– ナッシュ均衡戦略に従っているのに戦略を変え
たほうがメリットがある可能性がある
→ナッシュ均衡戦略でも負ける可能性が・・・
三⼈以上の零和不完全情報ゲームの
難しさ
■ ナッシュ均衡は戦略の組み合わせであり,その組み
合わせはいくつか存在
■ ⼆⼈零和ゲーム
– 各プレイヤが独⽴にナッシュ均衡戦略を選択し
たとしても,両プレイヤの戦略の組み合わせは
ナッシュ均衡となる
■ 三⼈以上の零和ゲーム
– 各プレイヤが独⽴にナッシュ均衡戦略を選択し
た場合,全プレイヤの戦略の組み合わせはナッ
シュ均衡ではない可能性がある
– ナッシュ均衡戦略に従っているのに戦略を変え
たほうがメリットがある可能性がある
→ナッシュ均衡戦略でも負ける可能性が・・・
< 𝜎@@
∗
, 𝜎A@
∗
, 𝜎i@
∗
>
< 𝜎@A
∗
, 𝜎AA
∗
, 𝜎iA
∗
>
< 𝜎@@
∗
, 𝜎AA
∗
, 𝜎ii
∗
>
ナッシュ均衡その1
ナッシュ均衡その2
< 𝜎@i
∗
, 𝜎Ai
∗
, 𝜎ii
∗
>
ナッシュ均衡その3
ナッシュ均衡︖︖
三⼈以上の零和不完全情報ゲームの
難しさ
■ 三⼈以上の零和ゲーム
– CFRがナッシュ均衡に収束するかも保証されていない
– そもそもナッシュ均衡戦略に従うのがいいのかすらも怪しい
→では,どんな戦略に従うのが良いのか︖︖
■ 実⽤的には,三⼈以上の零和ゲーム(主にポーカー)にCFRを適⽤するだけで
ある程度強い戦略はできるらしい
– この実験的な事実を利⽤したのが2019年登場のPluribus
Pluribus
■ 6⼈プレイヤのHeads up No-limit Texas Hold’emでプロを超えた
■ 基本的な考え⽅
– 最初にある程度の戦略をCFRによって計算しておき,それを実際のプレイ中
に改善していけばよいのでは︖
→やりたいことはLibratusとほぼ⼀緒
■ やってることもLibratusと似ている
1. 予めCFRによってある程度の強さの戦略を計算しておく
2. 実際のプレイ中にSubgameに対してCFRを適⽤し,戦略を逐⼀計算
■ Libratusとの主な差分
– プレイヤの数が増えて状態数も膨⼤な数になるので,実際のプレイ中に戦
略を計算することが厳しい
– 深さ制限探索で探索するノード数を減少
Superhuman AI for multiplayer poker (2019)
https://science.sciencemag.org/content/early/2019/07/10/science.aay2400
Depth Limited Search
1. ある深さのノード(葉ノード)に到達するまでは通常
と同様に探索
2. 葉ノードに到達したらノードのvalueを推定
– Monte Carlo Rolloutによって推定
– 予め計算しておいたk = 4個の戦略の中から戦略を
選択,葉ノード以降はその戦略に従って⾏動
■ 単純なblueprint戦略
■ 降りることに特化したblueprint戦略
■ コールすることに特化したblueprint戦略
■ レイズすることに特化したblueprint戦略
– ノードのvalueが戦略に依存したものであることを
近似的に表現
Fig. 4. Real-time search in Pluribus. The subgame sh
nodes indicates that the player to act does not know w
information subgame. Right: The transformed subga
strategy. An initial chance node reaches each root nod
reached in the previously-computed strategy profile (o
time in the hand that real-time search is conducted). T
which each player still in the hand chooses among k
chooses. For simplicity, 2k = in the figure. In Pluribu
selection of a continuation strategy for that player f
terminal node (whose value is estimated by rolling
continuation strategies the players chose).
Fig. 4. Real-time search in Pluribus. The subgame shows just two players for simplicity. A dashed line between
nodes indicates that the player to act does not know which of the two nodes she is in. Left: The original imperfect-
information subgame. Right: The transformed subgame that is searched in real time to determine a player’s
Pluribusの結果
■ 5⼈のプロ vs Pluribus
– プロ相⼿に⾼い勝率︖︖
– (実際には負けているケースもある)
⿇雀AIの実例
⿇雀AIの研究
■ ポーカーと違い,⽇本くらいでしか研究が⾏われていない
– ⿇雀が世界的に⾒るとメジャーでなく,国ごとにルールが微妙に違
うのが原因︖︖
■ 主なアプローチ
– 教師あり学習
– プレイ中のシミュレーションによる⼿の決定
– 最近では,MDPとして定式化してvalueが⾼い⼿を選択する⼿法も
■ 強化学習やゲーム理論によるアプローチはほとんど存在しない
– POMDPかつマルチエージェントなので,学習が⾮常に難しい...
教師あり学習×⿇雀AI
■ 捨て牌選択などを牌譜データから教師あり学習させるのが主流
■ 最近では,CNNをモデルとして⽤いることによって上級者との捨
て牌の⼀致率が68%程度まで向上
• この局⾯では何捨てる︖︖
• ポンする・しない︖︖
• チーする・しない︖︖
Building a computer mahjong player based on monte carlo simulation and
opponent models (2015)
https://ieeexplore.ieee.org/document/7317929
Supervised Learning of Imperfect Information Data in the Game of Mahjong via
Deep Convolutional Neural Networks (2018)
https://ipsj.ixsq.nii.ac.jp/ej/index.php?active_action=repository_view_main_it
em_detail&page_id=13&block_id=8&item_id=192052&item_no=1
教師あり学習×⿇雀AI
■ 天鳳の上位陣の⼿を模倣するように学習
■ 天鳳から牌譜データをスクレイピング
→学習⽤データとして加⼯処理
→教師あり学習
牌譜データ
加⼯
学習⽤データ
スクレイピング 学習
プレイ中のシミュレーションによる
捨て牌選択
■ “Building a computer mahjong player based on monte carlo simulation and opponent
models (2015)”にて提案
■ 捨て牌選択における各⾏動に対する得点をモンテカルロシミュレーションに
よって推定
– 各牌を捨てる⾏動
– 降りる⾏動(絶対放銃しないと仮定)TABLE VI. EVALUATION OF SCORE PREDICTION
Player Mean square error
Prediction model 0.37
-Revealed Melds 0.38
-Revealed fan value 0.38
Expert player 0.40
A. Game records for training
DLJ ŚĂŶĚ
⁹⁹⁹ sŝƌƚƵĂů ĨŽůĚ
Fig. 1. Overview of Monte Carlo moves
Building a computer mahjong player based on monte carlo simulation and
opponent models (2015)
https://ieeexplore.ieee.org/document/7317929
プレイ中のシミュレーションによる
捨て牌選択
■ シミュレーション中の挙動
– ⾃分の⼿番
■ 各牌を捨てた局⾯からシミュレーション
■ 降りる⾏動に対しての場合,⼭から牌を
へらすだけで牌は捨てない
– 相⼿の⼿番
■ 具体的な⼿牌は持たずに学習済みのモデ
ルに基づいて遷移を決定
– 聴牌状態へ移⾏する確率分布
– 降り状態へ移⾏する確率分布
– ツモ・ロン上がりする確率分布
■ 捨て牌は⼭からのツモをそのまま捨てる
ining
a player has won in the game records,
mple by using the score and creating
ting the information available to the
number of states is about 5.92 × 107
.
g scores
re of a hand basically increases ex-
o the fan7
value of the hand. We
regression model that predicts the
actual score in the training data.
es used in the model. Examples of the
Fig. 1. Overview of Monte Carlo mov
プレイ中のシミュレーションによる
捨て牌選択
■ シミュレーション中の挙動
– ⾃分の⼿番
■ 各牌を捨てた局⾯からシミュレーション
■ 降りる⾏動に対しての場合,⼭から牌を
へらすだけで牌は捨てない
– 相⼿の⼿番
■ 具体的な⼿牌は持たずに学習済みのモデ
ルに基づいて遷移を決定
– 聴牌状態へ移⾏する確率分布
– 降り状態へ移⾏する確率分布
– ツモ・ロン上がりする確率分布
■ 捨て牌は⼭からのツモをそのまま捨てる
he game records,
ore and creating
available to the
bout 5.92 × 107
.
ly increases ex-
the hand. We
hat predicts the
e training data.
Examples of the
d melds and the
Fig. 1. Overview of Monte Carlo moves
MDPとしての定式化
■ “Method for constructing artificial intelligence player with abstraction to markov
decision processes in multiplayer game of mahjong (2019)”にて提案
■ ⿇雀を抽象化したゲームをMDPとして定式化
– 降りる戦略や,聴牌に向かう戦略をプレイヤが取ったときのダイナミクス
をそれぞれ定式化
– MDP内の状態遷移確率は実際のデータを元にlogistic regressionでモデル化
■ MDPから導出した価値関数から,どの⾏動を取るべきかを決定
Method for constructing artificial intelligence player with abstraction to markov
decision processes in multiplayer game of mahjong (2019)
https://arxiv.org/abs/1904.07491
まとめ
■ 多⼈数不完全情報ゲームはかなりの速度で攻略されてきている
■ ゲーム理論を元にしたアプローチが現状では強い
– しかしAbstractionなどでドメイン知識を多く使っている
■ 多⼈数不完全情報ゲームでは強化学習は⽬⽴った成果がない
– POMDPや相⼿の戦略の流動性をどう対処するかが鍵

More Related Content

What's hot

「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究についてMasahiro Suzuki
 
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門ryosuke-kojima
 
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリングmlm_kansai
 
強化学習その2
強化学習その2強化学習その2
強化学習その2nishio
 
高速な倍精度指数関数expの実装
高速な倍精度指数関数expの実装高速な倍精度指数関数expの実装
高速な倍精度指数関数expの実装MITSUNARI Shigeo
 
混合整数ブラックボックス最適化に向けたCMA-ESの改良 / Optuna Meetup #2
混合整数ブラックボックス最適化に向けたCMA-ESの改良 / Optuna Meetup #2混合整数ブラックボックス最適化に向けたCMA-ESの改良 / Optuna Meetup #2
混合整数ブラックボックス最適化に向けたCMA-ESの改良 / Optuna Meetup #2RHamano
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)Kota Matsui
 
Kaggleのテクニック
KaggleのテクニックKaggleのテクニック
KaggleのテクニックYasunori Ozaki
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用Yasunori Ozaki
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門joisino
 
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-sleepy_yoshi
 
組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画までShunji Umetani
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用Ryo Iwaki
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習Eiji Uchibe
 
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?hoxo_m
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理Taiji Suzuki
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明Satoshi Hara
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心Shota Imai
 
最小カットを使って「燃やす埋める問題」を解く
最小カットを使って「燃やす埋める問題」を解く最小カットを使って「燃やす埋める問題」を解く
最小カットを使って「燃やす埋める問題」を解くshindannin
 

What's hot (20)

「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門
 
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
 
強化学習その2
強化学習その2強化学習その2
強化学習その2
 
高速な倍精度指数関数expの実装
高速な倍精度指数関数expの実装高速な倍精度指数関数expの実装
高速な倍精度指数関数expの実装
 
混合整数ブラックボックス最適化に向けたCMA-ESの改良 / Optuna Meetup #2
混合整数ブラックボックス最適化に向けたCMA-ESの改良 / Optuna Meetup #2混合整数ブラックボックス最適化に向けたCMA-ESの改良 / Optuna Meetup #2
混合整数ブラックボックス最適化に向けたCMA-ESの改良 / Optuna Meetup #2
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
Kaggleのテクニック
KaggleのテクニックKaggleのテクニック
Kaggleのテクニック
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-
 
組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
 
最小カットを使って「燃やす埋める問題」を解く
最小カットを使って「燃やす埋める問題」を解く最小カットを使って「燃やす埋める問題」を解く
最小カットを使って「燃やす埋める問題」を解く
 

More from Kenshi Abe

二人零和マルコフゲームにおけるオフ方策評価
二人零和マルコフゲームにおけるオフ方策評価二人零和マルコフゲームにおけるオフ方策評価
二人零和マルコフゲームにおけるオフ方策評価Kenshi Abe
 
Optimization Approaches for Counterfactual Risk Minimization with Continuous ...
Optimization Approaches for Counterfactual Risk Minimization with Continuous ...Optimization Approaches for Counterfactual Risk Minimization with Continuous ...
Optimization Approaches for Counterfactual Risk Minimization with Continuous ...Kenshi Abe
 
Deep Counterfactual Regret Minimization
Deep Counterfactual Regret MinimizationDeep Counterfactual Regret Minimization
Deep Counterfactual Regret MinimizationKenshi Abe
 
Competitive Multi-agent Inverse Reinforcement Learning with Sub-optimal Demon...
Competitive Multi-agent Inverse Reinforcement Learning with Sub-optimal Demon...Competitive Multi-agent Inverse Reinforcement Learning with Sub-optimal Demon...
Competitive Multi-agent Inverse Reinforcement Learning with Sub-optimal Demon...Kenshi Abe
 
Deep Q-learning from Demonstrations
Deep Q-learning from DemonstrationsDeep Q-learning from Demonstrations
Deep Q-learning from DemonstrationsKenshi Abe
 
Multi-agent Reinforcement Learning in Sequential Social Dilemmas
Multi-agent Reinforcement Learning in Sequential Social DilemmasMulti-agent Reinforcement Learning in Sequential Social Dilemmas
Multi-agent Reinforcement Learning in Sequential Social DilemmasKenshi Abe
 
Evolved policy gradients
Evolved policy gradientsEvolved policy gradients
Evolved policy gradientsKenshi Abe
 

More from Kenshi Abe (7)

二人零和マルコフゲームにおけるオフ方策評価
二人零和マルコフゲームにおけるオフ方策評価二人零和マルコフゲームにおけるオフ方策評価
二人零和マルコフゲームにおけるオフ方策評価
 
Optimization Approaches for Counterfactual Risk Minimization with Continuous ...
Optimization Approaches for Counterfactual Risk Minimization with Continuous ...Optimization Approaches for Counterfactual Risk Minimization with Continuous ...
Optimization Approaches for Counterfactual Risk Minimization with Continuous ...
 
Deep Counterfactual Regret Minimization
Deep Counterfactual Regret MinimizationDeep Counterfactual Regret Minimization
Deep Counterfactual Regret Minimization
 
Competitive Multi-agent Inverse Reinforcement Learning with Sub-optimal Demon...
Competitive Multi-agent Inverse Reinforcement Learning with Sub-optimal Demon...Competitive Multi-agent Inverse Reinforcement Learning with Sub-optimal Demon...
Competitive Multi-agent Inverse Reinforcement Learning with Sub-optimal Demon...
 
Deep Q-learning from Demonstrations
Deep Q-learning from DemonstrationsDeep Q-learning from Demonstrations
Deep Q-learning from Demonstrations
 
Multi-agent Reinforcement Learning in Sequential Social Dilemmas
Multi-agent Reinforcement Learning in Sequential Social DilemmasMulti-agent Reinforcement Learning in Sequential Social Dilemmas
Multi-agent Reinforcement Learning in Sequential Social Dilemmas
 
Evolved policy gradients
Evolved policy gradientsEvolved policy gradients
Evolved policy gradients
 

多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~