未来を創る、テックコミュニティー

代表勉強通信〜碁と経営とDeep RL

草場代表
2020/07/05

こんばんは。代表の草場です。

コロナの関数を見ていると、第二波のカーブがきれいに描かれようとしていますね。感染症は必ず第二波がくるのか?スペイン風邪の場合は、第三波まで来たそうです(文春オンラインの記事)。文春さんの感染症の日本史、おもろいです。

さて、こういう事態での意思決定の仕方など、最近気にしてます。昨日書いたプリズンブレイクで出てきたゲーム理論しかり、ナッシュ均衡しかり、意思決定に関して使えるスキル(?)がたくさんあります。出てきた当初からずーーーっと気にしてるのが、DeepMindのAlphaGoです。YouTubeでドキュメンタリーも公開されています。後半、李世乭さんの負ける時の表情、忘れられないです。おススメです。ここで使われているDeep Reinforce Learning(Deep RL)はものすごく可能あるので、ずっと注視して勉強してますが、そろそろ真面目にやろうと思います。

ということで、まずは囲碁の勉強(そうここから笑)をするために「みんなの囲碁」をダウンロード。遊んでます。面白さはまだわからず。

そして、「Deep Learning and the Game of Go」を読み始めました。基礎的な囲碁の基盤作りから始めて、AlphaGoをどう作り上げるか、解説してあります。囲碁データの最も一般的なデータフォーマットは、スマートゲームフォーマット(SGF)というものだそうです。 SGFでは、ほとんどすべての一般的な囲碁サーバーから過去の対局記録を取得できます。 囲碁の手を予測するためのディープニューラルネットワークを強化するために、囲碁サーバーから多くのSGFファイルをダウンロードし、スマートな方法でエンコードし、このデータを使ってニューラルネットワークを訓練する方法も学べます。具体的で面白いです。引き続き、読み通します。

明日も囲碁活。

 

 

 

 

 

 

この記事を書いた人
草場代表
エディター