6/19 代表勉強通信~再び「Building Machine Learning Powered Applications」①
こんばんは。代表の草場です。
昨日、新規案件のミーティングをしている最中、箕輪さんってすごいなという話になりました。PMができるというか、ミーティングの進め方もすごくわかりやすいし、着地点が明確。いろいろ勉強させてもらおう。スタディメーターも新展開予定です!乞うご期待。
GPT-2で、画像生成まで来ましたね(この記事参考)。素敵やん。
「Building Machine Learning Powered Applications: Going from Idea to Product 1st Edition」が詰まっていたところ、GitHubのノートブックを読むことで解決しつつあります。
dataset_exploration.ipynbにて、DataDumpから取ってきたWritersコミュニティーのPosts.xmlをいじり倒します。一般的なやり方かなと思います。質問に対しての評価をもとに図にしていますが、そのコードの
handles = [ Rectangle((0, 0), 1, 1, color=c, ec="k") for c in ["orange", "purple"] ]
はよくわからず。
tabular_data_vectorization.ipynbにて、日付の取り扱いとか、ワンホットエンコーディングとか。
vectorizing_text.ipynbにて、TF-IDF、spaCyを使って単語のベクトルかを行っています。scikit learnて、ほんとすごいなー。
exploring_data_to_generate_features.ipynbにて、より重要な特報を解析。クラスタリングとか次元削減とか使いながら。クラスタリングに関しては、clustering_data.ipynbがより細かく書かれています。
これらを見ながら、4章の内容が納得できました。ここから、モデルの構築→変更の反復に入ります。説明可能なAI、「LIME」を使う時が来ました。
ちなみに、、自然言語処理、ちゃんとやらなきゃーということで、オライリー本調べたら、以下は評価高いのでご参考に。
「Applied Natural Language Processing with Python」
「Natural Language Processing in Action」
「Natural Language Processing with Python and spaCy」
「Practical Natural Language Processing」
「Natural Language Processing with Spark NLP」
明日もML。
EVENTS