未来を創る、テックコミュニティー

5/12 代表勉強通信~NPOとNLP(自然言語処理)

草場代表
2020/05/12

こんばんは。代表の草場です。

How the Social Sector Can Use Natural Language Processing」という記事があります。ソーシャルセクターがNLPをどう使うかをテーマに、DataKindの方が書いた記事です。DataKindはデータサイエンスを使って社会課題を解決しているNPOです。自分の備忘録として、簡単にまとめます。

記事では、
「様々な組織が、文書化されたテキストを収集しているものの、その情報量に圧倒さている。自然言語処理(NLP)を使うと、データセットの中からこれまで見えなかったパターンを発見することができるだけでなく、特定のタスクを自動化することができ、人が価値の高い、仕事をに集中できる。」
と、NLPの有用性を語っています。まだ全然NLPを組織的に使えていないので焦ります。DataKindが立ち上げた、証拠に基づいた意思決定を行うためのリソース発見の支援をする証拠合成ツールColandrをまず使ってみようと思います。

この記事では、6つのNLP技術が紹介されています。
1 前処理と用語の頻度に関して
2 品詞タグ付け
3 指名されたエンティティの認識
4 トピック・モデリング
5 テキストの自動要約
6 分類
それぞれの技術に関する学習ツールは様々あります。特に自動要約に関しては昨年大きく発展しました。

記事の一つのハイライトはEthic(倫理、でいいかな?)です。
「助けようとしている人たちを傷つけたり、すでに疎外されているグループを犠牲にして ミッションを達成はしないこと。」
これは社会課題を解決する上で、とても重要なポイントです。何のための解決か?インクルーシブな取り組みが求められます。このEthic(倫理)に関して、データプライバシーの保護とバイアスに関して書かれています。

バイアスに関しては特に重要だなと個人的に感じています。
「テキストのスタイルパターンはNLPアルゴリズムに有害なバイアスを与える危険性がある。民族性や性別などの入力がなくても、アルゴリズムは地域の方言を拾ってしまい、特定の話し方をする人に不利な働きをすることになりかねない。」
「高速で信頼性の高い意思決定を行うアルゴリズムが提示されると、プロセス全体を自動化したいという誘惑に駆られる。これは特に危険。言語にはニュアンスがあり、アルゴリズムは間抜けなので、モデルが非常に高い精度を持っていても、特定の地域の方言など、特定のケースでは系統的な失敗があるかもしれない。」

NLP、取り扱い注意です。最近では説明可能なAI(ShapLIME)を使って、なぜそのような結論に達したかを解析する流れはきています。NLPを使わない場合でも、普段自分が文章を読む際もバイアスがかかっているのではないか?と考えさせられます。

本格的にNLP使ったプロジェクト立ち上げようと思います。

DataKindと連携したいな。

以上。

 

この記事を書いた人
草場代表
エディター