未来を創る、テックコミュニティー

6/19 代表勉強通信~再び「Building Machine Learning Powered Applications」①

草場代表
2020/06/19

こんばんは。代表の草場です。

昨日、新規案件のミーティングをしている最中、箕輪さんってすごいなという話になりました。PMができるというか、ミーティングの進め方もすごくわかりやすいし、着地点が明確。いろいろ勉強させてもらおう。スタディメーターも新展開予定です!乞うご期待。

GPT-2で、画像生成まで来ましたね(この記事参考)。素敵やん。

Building Machine Learning Powered Applications: Going from Idea to Product 1st Edition」が詰まっていたところ、GitHubのノートブックを読むことで解決しつつあります。
dataset_exploration.ipynbにて、DataDumpから取ってきたWritersコミュニティーのPosts.xmlをいじり倒します。一般的なやり方かなと思います。質問に対しての評価をもとに図にしていますが、そのコードの

handles = [
    Rectangle((0, 0), 1, 1, color=c, ec="k") for c in ["orange", "purple"]
]

はよくわからず。

tabular_data_vectorization.ipynbにて、日付の取り扱いとか、ワンホットエンコーディングとか。

vectorizing_text.ipynbにて、TF-IDFspaCyを使って単語のベクトルかを行っています。scikit learnて、ほんとすごいなー。

exploring_data_to_generate_features.ipynbにて、より重要な特報を解析。クラスタリングとか次元削減とか使いながら。クラスタリングに関しては、clustering_data.ipynbがより細かく書かれています。

これらを見ながら、4章の内容が納得できました。ここから、モデルの構築→変更の反復に入ります。説明可能なAI、「LIME」を使う時が来ました。

ちなみに、、自然言語処理、ちゃんとやらなきゃーということで、オライリー本調べたら、以下は評価高いのでご参考に。
Applied Natural Language Processing with Python
Natural Language Processing in Action
Natural Language Processing with Python and spaCy
Practical Natural Language Processing
Natural Language Processing with Spark NLP

明日もML。

この記事を書いた人
草場代表
エディター