代表勉強通信〜碁と経営とDeep RL

草場代表

2020/07/05

こんばんは。代表の草場です。

コロナの関数を見ていると、第二波のカーブがきれいに描かれようとしていますね。感染症は必ず第二波がくるのか？スペイン風邪の場合は、第三波まで来たそうです（文春オンラインの記事）。文春さんの感染症の日本史、おもろいです。

さて、こういう事態での意思決定の仕方など、最近気にしてます。昨日書いたプリズンブレイクで出てきたゲーム理論しかり、ナッシュ均衡しかり、意思決定に関して使えるスキル（？）がたくさんあります。出てきた当初からずーーーっと気にしてるのが、DeepMindのAlphaGoです。YouTubeでドキュメンタリーも公開されています。後半、李世乭さんの負ける時の表情、忘れられないです。おススメです。ここで使われているDeep Reinforce Learning（Deep RL）はものすごく可能あるので、ずっと注視して勉強してますが、そろそろ真面目にやろうと思います。

ということで、まずは囲碁の勉強（そうここから笑）をするために「みんなの囲碁」をダウンロード。遊んでます。面白さはまだわからず。

そして、「Deep Learning and the Game of Go」を読み始めました。基礎的な囲碁の基盤作りから始めて、AlphaGoをどう作り上げるか、解説してあります。囲碁データの最も一般的なデータフォーマットは、スマートゲームフォーマット(SGF)というものだそうです。 SGFでは、ほとんどすべての一般的な囲碁サーバーから過去の対局記録を取得できます。囲碁の手を予測するためのディープニューラルネットワークを強化するために、囲碁サーバーから多くのSGFファイルをダウンロードし、スマートな方法でエンコードし、このデータを使ってニューラルネットワークを訓練する方法も学べます。具体的で面白いです。引き続き、読み通します。

明日も囲碁活。

この記事を書いた人

草場代表

エディター

EVENTS