Stable DiffusionとAutomatic1111を使ったローカルAI画像生成の分かりやすいガイド

Table of Contents

Stable DiffusionとAutomatic1111を使ったローカルAI画像生成の分かりやすいガイド

ハンズオンMicrosoft の Copilot+ AI PC の発売により、ローカルで実行され、落書きをアートに変えることができる、MS ペイントに組み込まれた画像ジェネレーターなど、機械学習で強化された機能が多数導入されました。

唯一の問題は、これらの機能のロックを解除するには、新品のCopilot+ AI搭載PCが必要だということです。まあ、Microsoft Cocreateのロックを解除するには、ですが。少しでも最新のグラフィックカード、あるいはそれなりの統合型グラフィックカードをお持ちであれば、(おそらく)AI画像生成をローカルマシンで試すために必要なものはすべて揃っているはずです。

約2年前に登場して以来、Stability AIのStable Diffusionモデルは、その非常にコンパクトなサイズ、比較的寛容なライセンス、そしてアクセスの容易さから、ローカル画像生成の頼みの綱となっています。MidjourneyやOpenAIのDall-eといった多くのプロプライエタリモデルとは異なり、このモデルはダウンロードして自分で実行できます。

このため、過去数年間にわたって、安定拡散から得られたモデルをあらゆる種類のハードウェアに展開しやすくするために設計されたアプリケーションやサービスが多数登場しました。

このチュートリアルでは、拡散モデルが実際にどのように機能するかを説明し、ローカルマシン上で拡散モデルを実行するための人気の高いアプリの 1 つを紹介します。

前提条件:

Automatic1111のStable Diffusion Web UIは幅広いハードウェアで動作し、弊社の他のハンズオンAIチュートリアルソフトウェアと比べてリソース消費もそれほど多くありません。必要なものは以下のとおりです。

  • このガイドでは、Windows または Linux PC (Ubuntu 24.04 と Windows 11 を使用しています) あるいは Apple Silicon Mac が必要です。
  • 4GB以上のvRAMを搭載した、互換性のあるNvidiaまたはAMDグラフィックカード。比較的新しいNvidia製グラフィックカード、またはほとんどの7000シリーズRadeonグラフィックカード(一部のハイエンド6000シリーズカードも動作する可能性があります)であれば問題なく動作するはずです。NvidiaのTesla P4、RTX 3060 12G、RTX 6000 Ada Generation、そしてAMDのRX 7900 XTでテストしました。
  • 特定の GPU 用の最新のグラフィック ドライバー。

拡散モデルの基礎

拡散モデルの展開と実行に進む前に、実際にどのように機能するかを大まかに見てみる価値があるでしょう。

簡単に言えば、拡散モデルはランダムノイズを取り込んで、一連のノイズ除去手順を経て、特定のプロンプトを表す認識可能な画像または音声サンプルに到達するようにトレーニングされています。

これらのモデルの学習プロセスも、少なくとも概念的には極めて単純です。ラベル付けされた画像、グラフィック、あるいは音声サンプル(多くの場合インターネットからコピーしたもの)の膨大なカタログをインポートし、ノイズのレベルを徐々に上げていきます。数百万、あるいは数十億ものサンプルを学習することで、モデルはこのプロセスを逆順に実行し、純粋なノイズから認識可能な画像へと変化させます。

このプロセスでは、データとそのラベルの両方が関連するベクトルに変換されます。これらのベクトルは推論の際のガイドとして機能します。「草原で遊んでいる子犬」をモデルに求めると、モデルはこの情報を用いて、ノイズ除去プロセスの各ステップを導き、望ましい結果へと導きます。

念のため言っておきますが、これはかなり単純化した説明ですが、拡散モデルがどのように画像を生成するのか、その基本的な概要を示しています。実際には、実際にはもっと多くのことが起こっています。この特定のAIモデルについてさらに詳しく知りたい方は、ComputerphileのStable Diffusionの解説記事をご覧ください。

Automatic1111を使い始める

おそらく、拡散モデルをローカルで実行するための最も人気のあるツールは、Automatic1111 の Stable Diffusion Web UI です。

Automatic1111のStable Diffusion WebUIは、AI生成画像を調整するための豊富なツールへのアクセスを提供します。

Automatic1111のStable Diffusion WebUIは、AI生成画像を調整するための豊富なツールへのアクセスを提供します - 画像をクリックすると拡大します

名前の通り、このアプリはAI生成画像を作成するための、分かりやすいセルフホスト型のWeb GUIを提供します。Windows、Linux、macOSに対応しており、NVIDIA、AMD、Intel、Apple Siliconで動作しますが、いくつか注意点があり、後ほど詳しく説明します。

実際のインストールは OS とハードウェアによって異なりますので、ご自身のセットアップに関連するセクションに進んでください。

注:このガイドをわかりやすくするために、次の 4 つのセクションに分割しました。

  1. Linuxへの導入とインストール
  2. WindowsとMacOSで実行する
  3. 安定拡散Web UIの使用
  4. 統合と結論

Intel グラフィックスサポート

本稿執筆時点では、Automatic1111のStable Diffusion Web UIはIntelグラフィックスをネイティブサポートしていません。ただし、WindowsとLinuxの両方でIntelグラフィックスをサポートするOpenVINOフォークがあります。残念ながら、この方法はテストできなかったため、状況によって結果が異なる可能性があります。プロジェクトの詳細については、こちらをご覧ください。

LinuxにAutomatic1111をインストールする - AMDとNvidia

まずは、Automatic1111 Stable Diffusion Web UI(以下、A1111と略します)をUbuntu 24.04システムで起動して実行してみましょう。この手順はAMDとNvidiaの両方のGPUで動作するはずです。

異なる種類の Linux を実行している場合は、ディストリビューション固有のデプロイメントに関する詳細情報を得るために、A1111 GitHub リポジトリを確認することをお勧めします。

始める前に、いくつかの依存関係、つまりパッケージをインストールする必要がありgitますsoftware-properties-common

sudo apt install git ソフトウェアプロパティ共通 -y

Python 3.10も入手する必要があります。良くも悪くも、Ubuntu 24.04のリポジトリにはこのリリースが含まれていないため、必要なパッケージを取得する前にDeadsnakes PPAを追加する必要があります。

sudo add-apt-repository ppa:deadsnakes/ppa -y
sudo apt install python3.10-venv -y

注: 私たちのテストでは、AMD GPU を動作させるにはいくつかの追加パッケージと再起動が必要であることがわかりました。

#AMD GPUのみ
sudo apt install libamd-comgr2 libhsa-runtime64-1 librccl1 librocalution0 librocblas0 librocfft0 librocm-smi64-1 librocsolver0 librocsparse0 rocm-device-libs-17 rocm-smi rocminfo hipcc libhiprand1 libhiprtc-builtins5 radeontop
# AMD GPUのみ
sudo usermod -aG レンダリング、ビデオ $USER
# AMD GPUのみ
sudo 再起動

依存関係が整理されたので、 を使用して A1111 Web UI をプルダウンできるようになりましたgit

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui && cdsteady-diffusion-webui
python3.10 -m venv venv

最後に、以下を実行して Web UI を起動できます。

./webui.sh

スクリプトは、特定のシステムに関連するパッケージのダウンロードを開始し、Stable Diffusion 1.5 モデル ファイルの取得も開始します。

AMD GPUでStable Diffusion Web UIの読み込みに失敗した場合は、 を変更する必要がある可能性がありますwebui-user.sh。これは、A1111に同梱されているROCmのバージョンにおけるデバイスサポートに関連しているようです。私たちの理解では、アプリがROCm 6以降に移行すれば、この問題は解決されるはずです。

#AMD GPU OMLY
echo "エクスポート HSA_OVERRIDE_GFX_VERSION=11.0.0" >> ~/stable-diffusion-webui/webui-user.sh

それでも問題が解決しない場合は、「役立つフラグ」セクションで追加のヒントを確認してください。

次のセクションでは、Windows と macOS で A1111 を実行する方法について詳しく説明します。

Discover More