6/18 代表勉強通信～最強データセットCOCOについて

草場代表

2020/06/18

こんばんは。代表の草場です。

Reactがうっすらとわかり始め、機械学習を用いた製品開発のことはまだまだ分からない状態です。引き続き、「Building Machine Learning Powered Applications: Going from Idea to Product 1st Edition」
「Learning React: A Hands-On Guide to Building Web Applications Using React and Redux, Second edition」
「Deep Learning for Coders with fastai and PyTorch」
を読書します。

キャプションから写真を生成するImage generationをやりたいなーとずっと思っていまして、ついにやることにしました。Made with MLが主催している、DS Incubator Summer 2020というのがあるので、参加することにしました。そこでまず、データセットそして有名なCOCOを調べています（今更感）。論文が出たのが2015年なので、もう五年前です。
COCOは、大規模な物体検出、セグメンテーション、キャプションのデータセットです。COCOにはいかが含まれています。
Object segmentation
Recognition in context
Superpixel stuff segmentation
330K images (>200K labeled)
1.5 million object instances
80 object categories
91 stuff categories
5 captions per image
250,000 people with keypoints

COCO　Exploreというのがあって、ここでデータ検索できます。「2017 train/val browser (123,287 images, 886,284 instances). Crowd labels not shown.」とのこと。APIもたくさんです。

2015年の論文を読むと、「これまでの物体認識データは、画像の分類、物体の境界箱の定位、意味的な画素レベルのセグメンテーションに焦点を当てていたが、本研究では個々の物体インスタンスのセグメンテーションに焦点を当てている。本研究では、一般的な物体の複雑な日常風景を自然な文脈で表現した画像からなる大規模で豊かなラベルのデータセットを紹介する。」とのことでした。

例えば、Bedで調べてみると以下写真がでます。

ふむ。上の写真だと、ぬいぐるみもありますね。