未来を創る、テックコミュニティー

代表通信~「Generating Multiple Objects at Spatially Distinct Locations」

草場代表
2020/08/08

こんばんは。代表の草場です。

Text-to-Imageが頭から離れず、いろいろと調べています。「Generating Multiple Objects at Spatially Distinct Locations」という論文があります。アブストラクトをまとめると、

「画像キャプションなどの自然言語記述に基づいて現実的な画像を高解像度で生成することが可能になった。Conditional GANでは,ラベルや自然言語記述を用いて画像生成処理を制御することが可能である.
しかし、画像のレイアウト、すなわち、画像のどこに特定のオブジェクトを配置すべきかを細かく制御することは、困難である。これは特に、異なる空間的位置に複数の異なるオブジェクトを含む画像の場合に当てはまる。
生成器と識別器の両方にオブジェクト経路を追加することで、画像内の任意の多数のオブジェクトの位置を制御することができる新しいアプローチを開発した。
このアプローチでは、必要なのは境界ボックスと目的のオブジェクトのそれぞれのラベルだけである。オブジェクト経路は、個々のオブジェクトのみに焦点を当て、バウンディングボックスで指定された位置で反復的に適用される。グローバル経路は、画像の背景と一般的な画像レイアウトに焦点を当てる。
Multi-MNIST、CLEVR、MS-COCOのデータセットで実験を行った結果、オブジェクト経路を用いることで、画像内のオブジェクトの位置を制御することができ、複数のオブジェクトを様々な位置に配置した複雑なシーンをモデル化できることがわかった。」

生成器と識別器の両方にオブジェクト経路を追加すること、がカギですね。コード動かしてみよう。

明日もText-to-Image。

この記事を書いた人
草場代表
エディター