2015年02月26日 12時30分ソフトウェア

ゲームを自ら学んで人間以上に上達できる人工知能「DQN」が人間を脅かす日はいつくるのか？

By PhOtOnQuAnTiQuE

人間の脳が学習する仕組みを再現するディープラーニングの研究が進んだことで、コンピューターによる人工知能(AI)の技術が飛躍的な進化を遂げています。Googleが500億円で買収したといわれているイギリスのベンチャー企業「DeepMind」が開発したエージェントプログラム「DQN(Deep Q-Network)」は一度プログラムを起動させるとあとは人間が手を加えなくても「スペースインベーダー」や「ブロック崩し」といったゲームを一人で勝手に練習し、ハイスコアをたたき出す方法を学習できるレベルに達しており、今後のAI開発をさらに加速させるブレークスルーになると考えられています。

Google DeepMind
http://deepmind.com/

Human-level control through deep reinforcement learning : Nature : Nature Publishing Group
http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html

DeepMindが開発しているDQNがスペースインベーダーをプレイしているムービーがこちら。人間によるプレイとは少し異なる動きを見せることはあるものの、トーチカで身を守りながらインベーダーや上部を横切るUFOを撃墜して着実にステージをクリアする様子を見ることができます。

DeepMindではDQNに49種類のゲームを与えてプレイ方法を学習させたところ、最終的に29種類のゲームで人間よりも高いスコアをたたき出すことに成功したとのこと。以下のムービーでは、最初はゲームのルールすらわかっていなかったようなDQNが100回、200回とプレイを重ねるうちに「ポイントをゲットするためには、どのように動けばいいのか」を学習している様子がわかります。

Mnih Supplementary Data video 2 R3 - YouTube

プレイ回数が600回に達した頃には、ブロックの端を重点的に狙って壁に穴を開け、上部のスペースにポン(ボール)を送り込んで大量得点をゲットする技(トンネル)を会得。最終的にDQNは人間の13倍という高い得点をゲットすることに成功しているそうです。

DeepMindでは、DQNの学習プログラムに強化学習(RL: Reinforcement Learning)と呼ばれる手法を取り入れ、学習の効率をアップさせているとのこと。RLとは、ある環境下にいるエージェントが一連の行動を通じて報酬が最も多く得られるような方策を学習するというもので、これはまさにゲームでハイスコアを狙うために人間があらゆる方策を試すことと同じ方法といえます。

このように、コンピューターによる人工知能の開発は加速度的に進化を続けており、将来的には人間の脳が完全に再現される時代が来ても不思議ではないと思えるほどに達しているといえそう。テスラやスペースXを創ったイーロン・マスク氏が「人工知能の進化には注意が必要」と語っているように、将来は人間を超える能力をコンピューターが手にしてしまうリスクを考えておくことが必要になってくるのかもしれません。

一方で、DeepMindの創業者であるデミス・ハサビス氏は「まだ脅威に達するには10年以上の時間が必要」と語っています。まだ先の話であるとはいえ、DQNを「ドキュン」と呼んで笑っていられるのも今だけなのかもしれません。

Inside DeepMind - YouTube