GANは、画像を生成することができるAIを活用した技術です。AIは、画像や音声を認識することができます。しかし、GANの技術が登場することによって、認識だけではなく生成をも可能にしました。GANは、AIの研究者からも「機械学習において、ここ10年で最も面白いアイディア」だと評価されています。それでは、GANとはどのような技術なのでしょうか。今回は、GANの仕組みを解説した上で、メリットやデメリット、ビジネスでの活用例を紹介します。今後、会社でも応用可能な技術でもありますので、ぜひ参考にしてください。
GANとは
GANとは、Generative Adversarial Networkの略称です。日本語では、「敵対的生成ネットワーク」と訳されています。GANは生成モデルであり、訓練データを学習してから学習したデータと似たような新しいデータを生成することができます。GANの技術を用いれば、存在しない人の顔の画像を生成することすらも可能です。
GANの仕組み
画像を生成することができるGANは、どのような仕組みを持っているのでしょうか。ここからは、GANの仕組みを解説します。
画像生成器と画像識別器
GANは、画像生成器(Generator)と画像識別機(Discriminator)という、二つのニューラルネットワークで構成されています。画像生成器は、入力されたノイズ画像を訓練用に入力した画像と似たようなデータを生成しようとします。画像識別器は、画像生成器が生成した偽物のデータを本物であるかを識別します。
二つのニューラルネットワークの競合
GANの仕組みは、画像生成器と画像識別器とを競合させることで学習を進めます。この競合による学習を通して、GANは本物に近い偽物のデータを生成することができます。例えるなら、画像生成器は偽物を作る詐欺師で、画像識別機は偽物を見破る警察のような役割を担っています。この競合関係があるために、GANの日本語名は「敵対的生成ネットワーク」と呼ばれます。
GANでできること
GANは、さまざまな場面で応用することが可能です。すでに、身近な生活でも応用されている例があります。ここからはGANを利用してできることを紹介します。
粗い画質から品質の高い画像の生成
GANは質が低く粗い画像から、品質が高くきめの細かい画像の生成も可能です。過去に撮影した写真は、現在の技術よりも劣るため画像は粗いです。しかし、GANの技術を活用することで質を高められます。また、ピントがボケてしまっている画像も、解像度を上げて鮮明にすることも可能です。
テキストから画像を生成
GANは画像だけではなく、テキストや文章を入力することで画像を生成できます。既に、テキストや文章からの画像生成アプリは一般に公開されています。例えば、「飛んでいる鳥」や「夕日」などの単語をテキストとして入力すると、そのテキストに対応して夕日の中を飛んでいる鳥が画像として出力されます。
別の画像を生成
GANを活用すると、入力したデータから別の画像を生成できます。有名な例ですが、馬の画像からシマウマを生成することも可能です。入力したデータは馬の画像に対して、生成されたデータは馬の身体にシマ模様を入れて馬をシマウマのようにできます。GANは、動物だけではなく、人間の顔や身体にも応用して活用されています。
画像のスタイルを変換させる
GANを活用すると、画像のスタイルを変換して生成することができます。例えば、物との画像として山や海などの景色画像を入力します。その後、これまでの画家が用いたスタイル、例えばゴッホ風やフェルメール風、日本の浮世絵風に変換して出力できます。画像データさえあれば、簡単に芸術家と似たような画像を作れます。
別の動画を生成
GANを活用すれば、入力したデータとは別の動画を生成することができます。映画やテレビ番組などの動画に出ている有名人の顔だけを、別人に変えることが可能です。また、画像データを入力して、画像データの人物と別人の表情や身体の動きをシンクロさせることも可能です。表情をシンクロさせるアプリは、一般にも公開されてSNSやショート動画で人気が出ています。
GANのメリット
GANを活用することには、メリットとデメリットの両面があります。活用する際には、メリットとデメリットの両面を把握してから使用してください。まずは、GANのメリット面を紹介します。
高画質の画像を生成できる
GANは、高画質の画像を生成することができる点がメリットの一つです。GANの技術が発明される前は、VAE(変分エンコーダ)という技術が画像生成に使われていました。しかし、VAEでは、高品質なデータを生成することができませんでした。GANによってこれまでの技術よりも質の高い画像を生成することが出来るようになりました。
新しい画像データを生成できる
GANの活用によって、全くの新しい画像データを生成することができるのもメリットです。入力したデータを変換して新規画像データを作るだけではなく、テキストによる指示で新しい画像を生成することもできます。著作権に触れることなく、新しいコンテンツに使用することができる画像を作れます。
技術の組み合わせによって応用できる
GANは他の技術を組み合わせて、あらゆる場面に応用することができます。自然言語処理の技術と組み合わせると、画像ラベルからの演算をおこなうことも可能です。例えば、「首輪をつけた犬」の画像を生成したい時には、「首輪をつけた猫-(マイナス)猫+(プラス)犬」という演算を用います。すると、予定していた「首輪をつけた犬」の画像を生成できます。
GANのデメリット
GANは、メリット面がある一方でデメリットも存在しています。ここからは、GANのデメリットを紹介します。
犯罪に使用される可能性がある
GANの技術は、悪意のある人によって詐欺や嘘の情報を意図的に流すなど、犯罪に使用される可能性があるのがデメリットです。一国の大統領や首相の演説は、世界中に大きな影響を与えます。昨今では、大統領演説をディープフェイクで加工して、情報をかく乱させる犯罪が発生しています。
生成されたデータは人間による評価が必要
GANのデメリットは、生成されたデータの評価をするのが人間であるということです。GANは人工知能の一つではありますが、生成されたデータの良し悪しや指示通りの結果になっているのか判断することはできません。生成されたデータを見て判断や評価するのは、人間です。すべての工程を自動化できない部分がデメリットです。
GANの学習は不安定
GANの学習が不安定なのは、デメリットの一つです。GANは、画像生成器と画像識別器のバランスで画像を生成する仕組みを持っています。このバランスが崩れてしまうと、入力したデータとほとんど変わらないデータが生成されてしまう「モード崩壊」が起こります。また、一定の学習段階を超えてしまって「勾配消失問題」を起こして、クオリティの向上が認められない状態になります。
GANの応用研究
GANが開発された当時は、粗い画像しか生成することができませんでした。しかし、その後は研究と開発が進み、技術や生成能力も向上しています。ここからは、GANの応用研究を紹介します。
DCGAN
DCGANは、GANで生成した鮮明ではない画像を鮮明に修正する技術です。解像度の高い画像を生成することができて、GANのネットワークが深く複雑な場合でも動作が安定しています。DCGANは、きめが細かく解像度の高い画像を生成するのに有効です。
CycleGAN
CycleGANは、2つの異なる画像のドメインを学習して、新たに画像を生成する技術です。CycleGANは、他の技術とは異なり大量の画像データを必要としません。2つの画像があれば、画像の生成が可能です。先に述べた馬の画像からシマウマの画像を生成する、といった例です。
StyleGAN
StyleGANは、画像の生成をする度に段階的に画像の鮮明度を向上させていく技術です。人間が見ても、本物の写真と区別がつかないような画像を生成することができます。StyleGANの技術は年々精度が向上していて、人間の髪の毛やほくろなどの細かい部分も生成画像に含められます。
GANのビジネスでの活用事例
GANはビジネスでも活用されています。ここからは、GANを活用したビジネス事例を紹介します。
Vue.ai MadStreetDen
MadStreetDen社が開発した「Vue.ai」は、GANを活用してファッションモデルに自由に服を着せることができるサービスです。消費者が欲しい服をファッションモデルに自由に着させることによって、自身が着用した時のイメージをしやすくなります。ECサイトを利用して服やアクセサリーを購入する機会が増えた現在、消費者にとって便利な機能になることが期待されています。
創薬で活用 InsilicoMedicine
アメリカのバイオベンチャーInsilico社は、新しい薬の候補となる分子をGANと強化学習を用いて特定することに成功しています。創薬には、多大な時間がかかってしまいます。試薬が開発される前段階の候補分子の特定が、GANによって迅速におこなうことができるようになりました。これまではこの段階だけでも2~3年かかっていましたが、Insilico社の研究開発によって21日間に短縮されました。
極予測AI人間 サイバーエージェント
サイバーエージェントが開発した「極予測AI人間」は、GANの技術を応用して広告動画などで使用する人物のモデルを生成するサービスです。動画広告や画像広告に必要なモデルは、本物の人間に頼らなければならず、スケジューリングやオファーなども含めて時間もコストもかかります。「極予測AI人間」は、架空の人物モデルを企業の要望に合わせて生成できます。広告を出したい企業にとっては、広告にかかる費用や時間を削減できます。
アニメキャラの生成 Preferred Networks
Preferred Networksは、GANの技術を応用してアニメキャラの生成をおこなうサービスアプリ「Crypko」を提供しています。アプリのユーザーが、作りたいアニメキャラの属性をテキストで入力するだけで新しいアニメキャラを生成します。また、2種類のアニメキャラを融合させることでも、新しいキャラの生成が可能です。GANは、アニメや映画などの映像コンテンツへの活用も期待されます。
まとめ
GANは機械学習により入力されたデータをもとに、画像生成ができる技術です。ただし、GANが作り出す画像の精度を向上させるためには、質が良く大量のデータを入力しなければいけません。Web上には大量の画像データがあり、画像データを収集するのに適していますが、膨大なデータから目的とする画像を生成するためにデータを収集・選択するのは骨の折れる作業です。スクレイピングなら短時間で大量の目的としている画像データを収集できます。スクレイピングを活用して、迅速に質の良い画像を収集したい場合は、PigDataのスクレイピング代行をご検討ください。