BLOG

シンラボメンバーのあれこれ

  1. HOME
  2. ブログ
  3. 代表通信
  4. 6/19 代表勉強通信~再び「Building Machine Learning Powered Applications」①

6/19 代表勉強通信~再び「Building Machine Learning Powered Applications」①

こんばんは。代表の草場です。

昨日、新規案件のミーティングをしている最中、箕輪さんってすごいなという話になりました。PMができるというか、ミーティングの進め方もすごくわかりやすいし、着地点が明確。いろいろ勉強させてもらおう。スタディメーターも新展開予定です!乞うご期待。

GPT-2で、画像生成まで来ましたね(この記事参考)。素敵やん。

Building Machine Learning Powered Applications: Going from Idea to Product 1st Edition」が詰まっていたところ、GitHubのノートブックを読むことで解決しつつあります。
dataset_exploration.ipynbにて、DataDumpから取ってきたWritersコミュニティーのPosts.xmlをいじり倒します。一般的なやり方かなと思います。質問に対しての評価をもとに図にしていますが、そのコードの

handles = [
    Rectangle((0, 0), 1, 1, color=c, ec="k") for c in ["orange", "purple"]
]

はよくわからず。

tabular_data_vectorization.ipynbにて、日付の取り扱いとか、ワンホットエンコーディングとか。

vectorizing_text.ipynbにて、TF-IDFspaCyを使って単語のベクトルかを行っています。scikit learnて、ほんとすごいなー。

exploring_data_to_generate_features.ipynbにて、より重要な特報を解析。クラスタリングとか次元削減とか使いながら。クラスタリングに関しては、clustering_data.ipynbがより細かく書かれています。

これらを見ながら、4章の内容が納得できました。ここから、モデルの構築→変更の反復に入ります。説明可能なAI、「LIME」を使う時が来ました。

ちなみに、、自然言語処理、ちゃんとやらなきゃーということで、オライリー本調べたら、以下は評価高いのでご参考に。
Applied Natural Language Processing with Python
Natural Language Processing in Action
Natural Language Processing with Python and spaCy
Practical Natural Language Processing
Natural Language Processing with Spark NLP

明日もML。

関連記事