未来を創る、テックコミュニティー

【最新技術紹介】畳み込み無し??TransGANの論文紹介

草場代表
2021/04/18

こんにちは。草場です。

エクスポネンシャルテクノロジーの一つ、AIはとてもとても発展が早いです。特に、Transformer関連は毎日毎日論文が出ています。Transformerに関しては、Qiitaの「深層学習界の大前提Transformerの論文解説!」がわかりやすいです。

DeepLearing.AIのIssue 87 April 14, 2021に、「Image Generation Transformed」というニュースがありました。

何が新しいか?:テキサス大学オースティン校とMIT-IBMワトソンAIラボのYifan Jiang氏と共同研究者は、畳み込みを一切使用しないトランスフォーマーベースのGANであるTransGANを発表しました。

なんと畳み込み無し?原論文は以下。

TransGAN: Two Transformers Can Make One Strong GAN

概要は以下です。もちろん、コードも公開されてます。ほんと素晴らしい文化。

概要
近年、Transformerへの関心が高まっており、分類、検出、セグメンテーションなどのコンピュータビジョンタスクにおいて、Transformerが強力な「ユニバーサル」モデルとなる可能性が示唆されている。
しかし、Transformerはどこまで進化できるのだろうか。例えば、生成的逆問題ネットワーク(GAN)のような、より困難なビジョンタスクを扱う準備はできているのだろうか?このような好奇心に駆られて、我々は、純粋な変換器ベースのアーキテクチャのみを用いて、GANを構築する最初のパイロット研究を行いました。TransGANと名付けられた我々のVanillaGANアーキテクチャは、メモリに優しい変換器ベースの生成器と、同じく変換器ベースのパッチレベルの識別器で構成されている。
また、TransGANは、(標準的なGANよりも)データ増強、生成器のマルチタスク共学習戦略、自然な画像の近傍平滑性を強調する局所的に初期化された自己注意(Self Attention)の効果が顕著であることを実証した。
これらの知見を得たTransGANは、より大きなモデルや高解像度の画像データセットに対して、効果的にスケールアップすることができる。具体的には、我々の最良のアーキテクチャは、畳み込みバックボーンに基づく現在の最先端のGANと比較して、非常に競争力のある性能を達成している。
具体的には、STL-10において、TransGANはISスコア10.10、FIDスコア25.32を達成しました。また、Cifar-10ではISスコアが8.64、FIDスコアが11.89、CelebA 64×64ではFIDスコアが12.23と、それぞれ競争力のあるスコアに達している。
最後に、TransGANの現在の限界と将来の可能性について議論して終わる。

細かく読んでみます。

この記事を書いた人
草場代表
エディター