1. Home
  2. 社会・教養
  3. 教養としての生成AI
  4. 絵を描くAIの基本原理は「画像を文章とし...

教養としての生成AI

2023.11.12 公開 ツイート

絵を描くAIの基本原理は「画像を文章としてと捉え」「距離を測って学習する」 清水亮

プログラマーの清水亮さんとアニメプロデューサー・石井朋彦さんによる対談講座「生成AIと人間の才能の可能性~感動の境界線はどこにある?~」が11月19日(日)に開催されます。当日を迎える前に、清水さんの著書『教養としての生成AI』より「生成AI」を理解するためのポイントをご紹介。石井さんとのトークは、「生成AIの本質」をさらに掘り下げることになるでしょう。どうぞお見逃しなく。

画像を「文章」としてとらえる

生成系AIは、ディープラーニングによって画像生成の分野でも進歩を遂げています。事前に大量の訓練画像を使用して、その画像の特徴を学習し、その特徴をもとに新しい画像を生成します。

画像を生成するAIは、GANの登場と同時期に生まれました。最初は手書き数字やごくシンプルな画像を生成するのが精一杯でした。

最初期のGANによる画像生成。筆者による実験結果

それがGPUの高性能化・大容量化にともなって、写真のようにリアルな画像を生成できるようになったのです。

しかし、GANには特有のいろいろな弱点があります。たとえば、顔ならば顔、動物ならば動物というように、ジャンルを固定しないとうまく学習できないのです。

もっと巨大なモデルを使うことでこれを解決したのが、BigGANと呼ばれるAIです。BigGANが開発されたことで、生成系AIは新たな局面を迎えました。

さらに、それまで自然言語処理にしか使われていなかったTransformerを画像に応用した、Image GPTです。Image GPTは、画像を一種の「文章」としてとらえて処理します。左上から右下へ向かって、どんなパーツがあるかという「画像の言葉」を作るのです。

Transformerが得意とするのは、あるシークエンスから別のシークエンスへの変換(seq2seq)ですから、画像をシークエンスとしてとらえて、上半分の画像を学習させ、下半分の画像をAIに想像させるというのがImage GPTです。

StyleGANで生成された人物の画像。筆者による実験
BigGANによる生成結果 出典:Brock, A., Donahue, J., & Simonyan, K. (2018). Large scale GAN training for high fidelity natural image synthesis. arXiv preprint arXiv:1809.11096.

「距離が測れる」ものは学習可能である

さらにImage GPTの約半年後、2021年の1月にOpenAIはDALL·EとCLIPという2つのAIを発表します。DALL·Eは言葉から画像を生成するAIで、CLIPはDALL·Eのいわば副産物的に生まれたAIでした。

ちなみにDALL·Eの語源は画家のサルバドール・ダリ(Dali)とディズニー&ピクサー映画の『ウォーリー』(WALL·E)の合成語なので、「ダーリー」と伸ばすのが正しい読み方だと思います。

言葉から画像を生成する試みはDALL·E以前から何度も行われてきました。しかし、DALL·Eほどの規模と美しさで生成できることはなく、人々に大きなインパクトを与えました。

DALL·Eは言葉を与えると、Image GPTに似た仕組みで画像を生成するAIです。一方、CLIPは、DALL·Eから一要素だけを抜き出したようなAIで、画像と文章をベクトル化し、相関性を比較するために利用されます。CLIPは最初に普及した、画像と文章のどちらにも対応したマルチモーダルのAIです。

CLIPを使うと、文章と画像を同じ特徴空間で扱うことができるようになります。こうすることで、画像検索などをより柔軟に行えるようになりました。

word2vecのところ(「第3章 言葉を『ベクトル化』するword2vec」~)で、「ベクトル化すると距離が測れる」と説明しましたが、CLIPを使うと、言葉と言葉同士の距離や、画像と画像同士の距離だけでなく、言葉と画像の距離も測ることができます。

AIにとって、「距離を測ることができる」というのはとても重要です。距離が測れるということは、学習可能であることを意味するからです。

従来はAIに猫の写真を見せて「これは犬だ」と判定しても、「間違ってるね」だけで終わってしまいました。しかし、何がどのくらい間違っているかという「距離」がわかれば、「こんなふうに変化させたら近づくだろうか」「それともこっちの方が近いだろうか」という試行錯誤ができます。専門用語でこれを「探索」または「最適化」と呼びます。

たとえばBigGANは、ランダムなベクトルを与えると1枚の絵を描きます。その絵が実際に何に見えるかは、それまでは人間が判断するしかありませんでした。

ところが、CLIPを間に挟むことで「こんな絵が見たい」というキーフレーズと比較して距離を測り、「ベクトルをもっとこっちに動かせば猫っぽくなるよ」と教えてあげることができます。

こうして、絵を描くAIができあがるのです。

 

清水亮×石井朋彦「生成AIと人間の才能の可能性~感動の境界線はどこにある?~」

日時:11月19日(日)14:00~15:30 
場所:幻冬舎本社/オンライン

人間が一から作った文章や映像、画像が訴えてくる感動の源を生成AIの現在と比較しながら、「表現するヒト」の存在価値を、「才能」や技術や芸の「継承」という側面とともに考える機会にしたいと思います。詳しくは、幻冬舎大学のページをご覧ください。

関連書籍

清水亮『教養としての生成AI』

2022年、文章生成AI「ChatGPT」や画像生成AI「Stable Diffusion」など、一般ユーザーも気軽に使える生成AIサービスが次々と現れて世界に衝撃を与えた。すでに「一億総AI活用時代」が到来した様相だ。「人間の仕事が奪われる」などとメディアは煽るが、その特性を正しく知って使えば、生活やビジネスの効率が大幅に上がるのは確実である。本書は最新のAI研究からその歴史、仕事への活かし方、AI時代に人間が鍛えるべき能力まで、人工知能研究の第一人者が解説。「AIを使う人間」と「AIに使われる人間」の分かれ目がここにある!

{ この記事をシェアする }

教養としての生成AI

バックナンバー

清水亮

1976年、新潟県長岡市生まれ。Uber Eats配達員。6歳の頃からプログラミングを始める。1998年にドワンゴに参画し、2003年に独立。2004年に情報処理推進機構(IPA)より「天才プログラマー/スーパークリエータ」に認定。以後、10社の会社設立に関わる。近年はディープラーニングを活用した人工知能の開発を専門に行い、2022年よりパーソナルAIサービスMemeplexを開始。著書に『検索から生成へ』(MdN)、『教養としての生成AI』(幻冬舎新書)、『よくわかる人工知能』(KADOKAWA)、『教養としてのプログラミング講座』(中公新書ラクレ)などがある。

この記事を読んだ人へのおすすめ

幻冬舎plusでできること

  • 日々更新する多彩な連載が読める!

    日々更新する
    多彩な連載が読める!

  • 専用アプリなしで電子書籍が読める!

    専用アプリなしで
    電子書籍が読める!

  • おトクなポイントが貯まる・使える!

    おトクなポイントが
    貯まる・使える!

  • 会員限定イベントに参加できる!

    会員限定イベントに
    参加できる!

  • プレゼント抽選に応募できる!

    プレゼント抽選に
    応募できる!

無料!
会員登録はこちらから
無料会員特典について詳しくはこちら
PAGETOP