代表通信～キャプショニング自動生成

草場代表

2020/07/17

こんばんは。代表の草場です。

本日は2年くらい付き合いのあるStartup Ladyの代表の鈴木さんと久々食事に行きました。相変わらず精力的に活動されており、大変勉強になりました。学生時代に通われていたアメリカの大学のことを詳しく聞かせてもらいました。なんと、50ヵ国から人が集まる大学だそうです。多様性という観点で話を聞かせてもらいましたが、自然と大学のころに多様性が当たり前の環境にいらっしゃって、うらやましいなと思いました。今後も連携できれば！

さて、「ビジュアルアテンションを用いた画像キャプショニング」で遊んでいます。が、、データが重すぎる。。以下のような写真から、キャプションを自動的に生成するモデルです。

上記だと、”a surfer riding on a wave”というキャプションが生成されます。MS-COCO データセットをダウンロードし、Inception V3 を使って画像のサブセットを前処理し、キャッシュします。その後、エンコーダー・デコーダーモデルを訓練し、訓練したモデルを使って新しい画像のキャプションを生成します。訓練用のMS-COCOデータセットが13GBととても重く、ダウンロードするときに何回も止まってしまいました。。

InceptionV3 を使った画像の前処理→InceptionV3 を初期化し Imagenet で学習済みの重みをロード→InceptionV3 から抽出した特徴量のキャッシング

と進むんですが、InceptionV3 から抽出した特徴量のキャッシングでまた止まりました。原因究明中ですが、ストレスですね！

明日も転移学習。

この記事を書いた人

草場代表

エディター

EVENTS