5/12 代表勉強通信～NPOとNLP（自然言語処理）

草場代表

2020/05/12

こんばんは。代表の草場です。

「How the Social Sector Can Use Natural Language Processing」という記事があります。ソーシャルセクターがNLPをどう使うかをテーマに、DataKindの方が書いた記事です。DataKindはデータサイエンスを使って社会課題を解決しているNPOです。自分の備忘録として、簡単にまとめます。

記事では、
「様々な組織が、文書化されたテキストを収集しているものの、その情報量に圧倒さている。自然言語処理（NLP）を使うと、データセットの中からこれまで見えなかったパターンを発見することができるだけでなく、特定のタスクを自動化することができ、人が価値の高い、仕事をに集中できる。」
と、NLPの有用性を語っています。まだ全然NLPを組織的に使えていないので焦ります。DataKindが立ち上げた、証拠に基づいた意思決定を行うためのリソース発見の支援をする証拠合成ツールColandrをまず使ってみようと思います。

この記事では、6つのNLP技術が紹介されています。
1　前処理と用語の頻度に関して
2　品詞タグ付け
3　指名されたエンティティの認識
4　トピック・モデリング
5　テキストの自動要約
6　分類
それぞれの技術に関する学習ツールは様々あります。特に自動要約に関しては昨年大きく発展しました。

記事の一つのハイライトはEthic（倫理、でいいかな？）です。
「助けようとしている人たちを傷つけたり、すでに疎外されているグループを犠牲にしてミッションを達成はしないこと。」
これは社会課題を解決する上で、とても重要なポイントです。何のための解決か？インクルーシブな取り組みが求められます。このEthic（倫理）に関して、データプライバシーの保護とバイアスに関して書かれています。

バイアスに関しては特に重要だなと個人的に感じています。
「テキストのスタイルパターンはNLPアルゴリズムに有害なバイアスを与える危険性がある。民族性や性別などの入力がなくても、アルゴリズムは地域の方言を拾ってしまい、特定の話し方をする人に不利な働きをすることになりかねない。」
「高速で信頼性の高い意思決定を行うアルゴリズムが提示されると、プロセス全体を自動化したいという誘惑に駆られる。これは特に危険。言語にはニュアンスがあり、アルゴリズムは間抜けなので、モデルが非常に高い精度を持っていても、特定の地域の方言など、特定のケースでは系統的な失敗があるかもしれない。」

NLP、取り扱い注意です。最近では説明可能なAI(ShapやLIME）を使って、なぜそのような結論に達したかを解析する流れはきています。NLPを使わない場合でも、普段自分が文章を読む際もバイアスがかかっているのではないか？と考えさせられます。

本格的にNLP使ったプロジェクト立ち上げようと思います。

DataKindと連携したいな。

以上。

この記事を書いた人

草場代表

エディター

EVENTS