今話題の画像生成AI「Stable Diffusion」と自動翻訳「DeepL」を組み合わせて遊んでみた
公開日
2022年8月28日
更新日
2022年8月28日
みなさんこんにちは。和からの数学講師の川原です。2022年8月23日に、世界を改変するほどの大きな出来事がありました。その大きな出来事とは、画像生成AIであるstable diffusionが一般に無料公開されたことです。遊んでみた感想を先にお伝えすると、「stable diffusionはかなりすごい」です。何がどうすごいのか、今回はそのstable diffusionで遊んでみた使用感をお伝えします。
この記事の主な内容
1.Stable diffusionとは
Stable diffusionとは「馬に乗る宇宙飛行士」とか「山が見える風景」といったテキストを入力すると、そのテキスト通りの画像を自動で生成してくれる画像生成AIです。この高性能なAIがイギリスのStability AIによって無料公開されました。早速どのようなことができるのかと動かしてみましたので、その使用感について語っていきます。Stable diffusionはローカル環境で動かすこともできるのですが、Nvidia製のGPUが必要だったりといろいろ制限もあるので、今回はGoogle Colaboratory上で動かしてみました。(google colab上で環境構築する手順は後半に参考ページを紹介します)
2.画像生成
Google colab上で設定が終わりました。ユーザーがすることは「生成したい画像の状況を英語テキストで渡す」だけです。例えば「森の中でボールで遊ぶ猫(cat playing with a ball in the forest)」と入力して画像を生成してみました。
その結果がこちらです。
機械で生成したとは思えないほどの綺麗な画像ですね。「森の中」「ボール」「猫」といった言葉が認識されて画像に反映されています。またstable diffusionのすごいところは、詳細な画像の指示を追加することで、画像のタッチなどを変えることもできるという点です。
「森の中でボールで遊ぶ猫、日本のアニメスタイル(cat playing with a ball in the forest, japanese anime style)」と入力すると下の画像が生成されました。
「森の中でボールで遊ぶ猫、絵画風(cat playing with a ball in the forest, painting style)」と入力すると下の画像が生成されました。
ちゃんとスタイルも反映されていることが分かります。ということでいろいろな画像を生成してみました。
雲に覆われた都市写真
広大な山々
日本の寺
星雲
画像を生成すればするほどstable diffusionの高性能さに驚きます。ちなみに画像生成はランダムなので、同じテキストでも生成するたびに画像は異なるものが生成されます。
Stable diffusionはとても面白いのですが、渡すテキストは英語でなければいけません。英語が苦手な方には、画像を生成することより、その英語テキストを生成することの方が大変です。そこでその英語テキスト生成にもディープラーニングを使いましょう。それがDeepLです。
3.DeepLとは?
DeepLとはディープラーニングの手法を用いた自動翻訳AIです。こちらに日本語を入れると自動で英語を生成してくれます。
こちらを使えば生成したい画像のイメージを日本語で考え、それをDeepLで英語に翻訳し、stable diffusionで画像生成すれば英語が苦手であってもstable diffusionを存分に楽しむことができます。
これだけで1日中遊べそうです。(実際に筆者は1日中遊びました)
4. 背後にあるのは機械学習
今回紹介したstable diffusionもDeepLもディープラーニングという機械学習モデルの元に成り立っています。ディープラーニングは約10年前に画像認識の分野で大きな成果を上げてから注目されましたが、今では画像の生成や自然言語処理ができるようになるほど、日々進化を続けています。機械学習などデータサイエンスの分野に興味を持った方はこの機会に学習を始めてみませんか?
【参考】Stable diffusionインストール手順
Hugging Face Stable Diffusion with 🧨 Diffusers(英文)
Gigazine 画像生成AI「Stable Diffusion」を低スペックPCでも無料かつ待ち時間なしで使う方法まとめ