代表勉強通信〜碁と経営とDeep RL
こんばんは。代表の草場です。
コロナの関数を見ていると、第二波のカーブがきれいに描かれようとしていますね。感染症は必ず第二波がくるのか?スペイン風邪の場合は、第三波まで来たそうです(文春オンラインの記事)。文春さんの感染症の日本史、おもろいです。
さて、こういう事態での意思決定の仕方など、最近気にしてます。昨日書いたプリズンブレイクで出てきたゲーム理論しかり、ナッシュ均衡しかり、意思決定に関して使えるスキル(?)がたくさんあります。出てきた当初からずーーーっと気にしてるのが、DeepMindのAlphaGoです。YouTubeでドキュメンタリーも公開されています。後半、李世乭さんの負ける時の表情、忘れられないです。おススメです。ここで使われているDeep Reinforce Learning(Deep RL)はものすごく可能あるので、ずっと注視して勉強してますが、そろそろ真面目にやろうと思います。
ということで、まずは囲碁の勉強(そうここから笑)をするために「みんなの囲碁」をダウンロード。遊んでます。面白さはまだわからず。
そして、「Deep Learning and the Game of Go」を読み始めました。基礎的な囲碁の基盤作りから始めて、AlphaGoをどう作り上げるか、解説してあります。囲碁データの最も一般的なデータフォーマットは、スマートゲームフォーマット(SGF)というものだそうです。 SGFでは、ほとんどすべての一般的な囲碁サーバーから過去の対局記録を取得できます。 囲碁の手を予測するためのディープニューラルネットワークを強化するために、囲碁サーバーから多くのSGFファイルをダウンロードし、スマートな方法でエンコードし、このデータを使ってニューラルネットワークを訓練する方法も学べます。具体的で面白いです。引き続き、読み通します。
明日も囲碁活。
EVENTS