絵を描くAIの基本原理は「画像を文章としてと捉え」「距離を測って学習する」｜教養としての生成AI｜清水亮

プログラマーの清水亮さんとアニメプロデューサー・石井朋彦さんによる対談講座「生成AIと人間の才能の可能性～感動の境界線はどこにある？～」が11月19日（日）に開催されます。当日を迎える前に、清水さんの著書『教養としての生成AI』より「生成AI」を理解するためのポイントをご紹介。石井さんとのトークは、「生成AIの本質」をさらに掘り下げることになるでしょう。どうぞお見逃しなく。

画像を「文章」としてとらえる

生成系AIは、ディープラーニングによって画像生成の分野でも進歩を遂げています。事前に大量の訓練画像を使用して、その画像の特徴を学習し、その特徴をもとに新しい画像を生成します。

画像を生成するAIは、GANの登場と同時期に生まれました。最初は手書き数字やごくシンプルな画像を生成するのが精一杯でした。

それがGPUの高性能化・大容量化にともなって、写真のようにリアルな画像を生成できるようになったのです。

しかし、GANには特有のいろいろな弱点があります。たとえば、顔ならば顔、動物ならば動物というように、ジャンルを固定しないとうまく学習できないのです。

もっと巨大なモデルを使うことでこれを解決したのが、BigGANと呼ばれるAIです。BigGANが開発されたことで、生成系AIは新たな局面を迎えました。

さらに、それまで自然言語処理にしか使われていなかったTransformerを画像に応用した、Image GPTです。Image GPTは、画像を一種の「文章」としてとらえて処理します。左上から右下へ向かって、どんなパーツがあるかという「画像の言葉」を作るのです。

Transformerが得意とするのは、あるシークエンスから別のシークエンスへの変換（seq2seq）ですから、画像をシークエンスとしてとらえて、上半分の画像を学習させ、下半分の画像をAIに想像させるというのがImage GPTです。

BigGANによる生成結果　出典：Brock, A., Donahue, J., & Simonyan, K. (2018). Large scale GAN training for high fidelity natural image synthesis. arXiv preprint arXiv:1809.11096.

「距離が測れる」ものは学習可能である

さらにImage GPTの約半年後、2021年の1月にOpenAIはDALL·EとCLIPという2つのAIを発表します。DALL·Eは言葉から画像を生成するAIで、CLIPはDALL·Eのいわば副産物的に生まれたAIでした。

ちなみにDALL·Eの語源は画家のサルバドール・ダリ（Dali）とディズニー&ピクサー映画の『ウォーリー』（WALL·E）の合成語なので、「ダーリー」と伸ばすのが正しい読み方だと思います。

言葉から画像を生成する試みはDALL·E以前から何度も行われてきました。しかし、DALL·Eほどの規模と美しさで生成できることはなく、人々に大きなインパクトを与えました。

DALL·Eは言葉を与えると、Image GPTに似た仕組みで画像を生成するAIです。一方、CLIPは、DALL·Eから一要素だけを抜き出したようなAIで、画像と文章をベクトル化し、相関性を比較するために利用されます。CLIPは最初に普及した、画像と文章のどちらにも対応したマルチモーダルのAIです。

CLIPを使うと、文章と画像を同じ特徴空間で扱うことができるようになります。こうすることで、画像検索などをより柔軟に行えるようになりました。

word2vecのところ（「第3章　言葉を『ベクトル化』するword2vec」～）で、「ベクトル化すると距離が測れる」と説明しましたが、CLIPを使うと、言葉と言葉同士の距離や、画像と画像同士の距離だけでなく、言葉と画像の距離も測ることができます。

AIにとって、「距離を測ることができる」というのはとても重要です。距離が測れるということは、学習可能であることを意味するからです。

従来はAIに猫の写真を見せて「これは犬だ」と判定しても、「間違ってるね」だけで終わってしまいました。しかし、何がどのくらい間違っているかという「距離」がわかれば、「こんなふうに変化させたら近づくだろうか」「それともこっちの方が近いだろうか」という試行錯誤ができます。専門用語でこれを「探索」または「最適化」と呼びます。

たとえばBigGANは、ランダムなベクトルを与えると1枚の絵を描きます。その絵が実際に何に見えるかは、それまでは人間が判断するしかありませんでした。

ところが、CLIPを間に挟むことで「こんな絵が見たい」というキーフレーズと比較して距離を測り、「ベクトルをもっとこっちに動かせば猫っぽくなるよ」と教えてあげることができます。

こうして、絵を描くAIができあがるのです。

清水亮×石井朋彦「生成AIと人間の才能の可能性～感動の境界線はどこにある？～」

日時：11月19日（日）14:00～15:30　
場所：幻冬舎本社／オンライン

人間が一から作った文章や映像、画像が訴えてくる感動の源を生成AIの現在と比較しながら、「表現するヒト」の存在価値を、「才能」や技術や芸の「継承」という側面とともに考える機会にしたいと思います。詳しくは、幻冬舎大学のページをご覧ください。

教養としての生成AIの記事をもっと読む

{　この記事をシェアする　}

教養としての生成AI

バックナンバー

選択してください

清水亮

1976年、新潟県長岡市生まれ。Uber Eats配達員。6歳の頃からプログラミングを始める。1998年にドワンゴに参画し、2003年に独立。2004年に情報処理推進機構（IPA）より「天才プログラマー／スーパークリエータ」に認定。以後、10社の会社設立に関わる。近年はディープラーニングを活用した人工知能の開発を専門に行い、2022年よりパーソナルAIサービスMemeplexを開始。著書に『検索から生成へ』（MdN）、『教養としての生成AI』（幻冬舎新書）、『よくわかる人工知能』（KADOKAWA）、『教養としてのプログラミング講座』（中公新書ラクレ）などがある。