
Cinefootage Visuals/iStock
言葉では伝わりにくいことを画像で伝えるために、画像生成AIの勉強をしている。テキストで入力すると、それに沿った画像をAIが合成してくれる(はずだ)。画像を作るとことは、ある種のプロフェッショナルな仕事だと思っていたが、画像を作成するAIを利用すると文章から画像を作成してくれるというので、チャレンジしている。
ChatGPTなどのチャット型AIは大きく取り上げられているが、画像を作成するAIもStable diffusion、DALL・E2、Midjourneyなどが一般向けにサービスを提供している。前2者を使いつつ学習しているのだが、なかなか難しい。どのような形で文章を入力するのかによってかなり画像が異なってくるし、得られた画像を編集することも可能だ。面白いが、思ったような画像が簡単にできるわけではない。
上図は、Stable Diffusionというプログラムを用いて作成したものである。文章を入力後に出力された画像をさらに編集しようと試みた結果、ホラーのような画像になってしまった。右側の女性の腰から下が消え、ベッドの下から足が出ている。一目すると診察室の風景がなんとなく上手に描画されているのだが、よく見るとギョとするような画像になっている。
2冊も解説書を買ってきて、本を読みながら試行錯誤しているのだが、私の指示が悪いのか、まだまだ、プログラムそのものに限界があるのかわからないのだが、あるレベル以上の画像生成はできそうになってきた。下の図は失敗作の一つで、カップルと入力したにもかかわらず、新婚さん+一人追加の図になった。海の高さが左右でずれているのもご愛敬か?