AI

【5分講義・深層強化学習#2】DQN手法を用いたAlphaGOその後の進化

以前の記事では、深層強化学習、そしてその代表的な手法であるDQNについて紹介しました。

【5分講義・深層強化学習#1】深層強化学習そしてDQN手法、何が強いのか

深層強化学習以前のゲームAIは、以下を使ったものが主流でした。

  • 探索木
  • 「相手がこう打ったらこう打つべきだ」に従うルールベースAI
  • ディープラーニングを使わない従来の強化学習

深層強化学習が実用化に伴い、ディープラーニングを従来の探索木手法や画像認識技術と組み合わせることが可能になりました。強化学習の応用の幅を広げています。DQNは、Atariゲームやその後に囲碁AIでも著しい成果を残しています。
DQNを活用したデビュー実績は、2013年にAtari社のブロック崩しゲームで人間のスコアを超え、反響を引き起こしたことです。その後は囲碁AIにおいても継続的に成果を出しています。そして今では、DQNをはじめとする深層強化学習の手法は、難易度の高いゲーム以外に、自動運転、ロボティクスにも活用されはじめています。

囲碁AIのAlphaGo

深層強化学習(DQN)の囲碁AIにおける最初の大きな実績は、2015年に世界トップの棋士(イ・セドル九段)を打ち倒したAlphaGo(アルファ碁)です。AlphaGoはDeepMind社によって開発されました。打つ手の探索にモンテカルロ木探索法を使用し、碁盤の状況認識にCNNを使用します。盤面情報を符号化したデータを入力して勝率を計算します。人間がプレイした棋譜データを学習データに使用し、教師あり学習を行っています。

アルゴリズムの改善を経て、 2017年10月に、AlphaGoの強化版AlphaGo Zero(アルファ碁ゼロ)が同じくDeepMindから発表されました。AlphaGo Zeroの最大の特徴は、完全自己対局(self-play)で学習していることです。つまり、過去の棋譜を学習することなく、最初から自分自身と戦うことで得られたデータのみ使って深層強化学習を行います。初期状態ではランダムな動きしかとれないけれど、場数を踏んでいくうちに「勝てる行動パターン」を習得し、どんどん「賢く」なっていきます。

完全自己対局が可能になったことがAIの研究分野に大きなインパクトを与えました。なぜなら、伝統的な知識の蓄積やそのバイアスに依存することなく、完全にゼロベースから学習を進めた方が良い場合もある、ということを広く知らせたからです。

AlphaGo Zeroは、AlphaGoで必要だった教師データが必要でなくなり、それでいてAlphaGoよりも強くなれました!

自己対戦のみで学習できるもう1つのAlphaGoの発展版として、Alpha Zero(アルファ・ゼロ)もあります。こちらは 、囲碁に限らず、将棋やチェスなどの分野でも、過去に開発された人間を超えるゲームAIに勝てる性能を示しています。だから名前に「囲碁」の「Go」がつかないわけですね。

さらに、2019年にAlpha Star(アルファ・スター)が開発されました。名前の由来は、「スタークラフト」というゲームにおいてトップマスターを打倒できたことから来ています。Alpha Starは、ResNet、LSTM、トランスフォーマーなど、本体は画像認識や自然言語処理のためだった手法を組み合わせて学習を行います。

ここまで読んでいただきありがとうございました。それでは、次回またお会いしましょう。

記事担当:ヤン・ジャクリン(分析官・講師)

(追記)後続の記事では、DQNについてずっと後に開発され、計算の効率も性能も従来のアルゴリズムに優れるA3Cという深層強化学習のアルゴリズムについて書いています。

【5分講義・深層強化学習#3】今ホットなA3Cアルゴリズム

【5分講義・深層強化学習#4】A3Cの手法の中身と性能を理解

yan
データ分析官・データサイエンス講座の講師