代表通信~「Generating Multiple Objects at Spatially Distinct Locations」
草場代表
2020/08/08

こんばんは。代表の草場です。
Text-to-Imageが頭から離れず、いろいろと調べています。「Generating Multiple Objects at Spatially Distinct Locations」という論文があります。アブストラクトをまとめると、
「画像キャプションなどの自然言語記述に基づいて現実的な画像を高解像度で生成することが可能になった。Conditional GANでは,ラベルや自然言語記述を用いて画像生成処理を制御することが可能である.
しかし、画像のレイアウト、すなわち、画像のどこに特定のオブジェクトを配置すべきかを細かく制御することは、困難である。これは特に、異なる空間的位置に複数の異なるオブジェクトを含む画像の場合に当てはまる。
生成器と識別器の両方にオブジェクト経路を追加することで、画像内の任意の多数のオブジェクトの位置を制御することができる新しいアプローチを開発した。
このアプローチでは、必要なのは境界ボックスと目的のオブジェクトのそれぞれのラベルだけである。オブジェクト経路は、個々のオブジェクトのみに焦点を当て、バウンディングボックスで指定された位置で反復的に適用される。グローバル経路は、画像の背景と一般的な画像レイアウトに焦点を当てる。
Multi-MNIST、CLEVR、MS-COCOのデータセットで実験を行った結果、オブジェクト経路を用いることで、画像内のオブジェクトの位置を制御することができ、複数のオブジェクトを様々な位置に配置した複雑なシーンをモデル化できることがわかった。」
生成器と識別器の両方にオブジェクト経路を追加すること、がカギですね。コード動かしてみよう。
明日もText-to-Image。
この記事を書いた人
草場代表
エディター
EVENTS
07/13(月)20:00~ 【初心者向け】GASで学ぶWebアプリ – 複雑な動作も実現できるJavaScriptの基礎を学ぼう
2026/07/13 (月) 20:00 ~ 21:00
無料
オンライン
07/06(月)20:00~ 【初心者向け】AI駆動開発を学ぶ – AIと話すだけで、あなたのWebページを作ってみよう
2026/07/06 (月) 20:00 ~ 21:00
無料
オンライン
06/15(月)20:00~ 【初心者向け】GASで学ぶWebアプリ – GASを使って簡単な掲示板サイトを作ってみよう
2026/06/15 (月) 20:00 ~ 21:00
無料
オンライン
【05/22(金)20:00~】【初心者向け】今日から使える生成AI活用講座 〜「何ができるか分からない」を「これなら使える」へ〜
2026/05/22 (金) 20:00 ~ 21:00
1,000円
オンライン
【04/28(火)20:00~】【初心者向け】言葉と指差しだけでアプリ開発!?Google最新AIで「自分だけの旅行ガイド」を作ろうハンズオン
2026/04/28 (火) 20:00 ~ 21:00
無料
オンライン