【ローカルAI】Stability Matrix + ComfyUIで始める!最新モデル「SD3.5」画像生成の完全ガイド

AI・テクノロジー

AI画像生成の世界で大きな話題となっている最新モデル「Stable Diffusion 3.5(SD3.5)」。今回は、この最新モデルをお使いのパソコンのローカル環境に導入する方法を解説します。

直感的に生成AI環境を管理できるツール「Stability Matrix」を使い、WebUIよりも動作が軽い「ComfyUI」でSD3.5の圧倒的な描写力を引き出す手順を、初心者向けに分かりやすく解説していきます。


1. なぜこの組み合わせ?SD3.5×ComfyUIのメリット

今回紹介する「Stability Matrix + ComfyUI + SD3.5」という組み合わせには、初心者からヘビーユーザーまでおすすめしたい明確な理由があります。

  • SD3.5の凄さ:プロンプト理解力と「文字入れ」の進化 SD3.5(Large)は、従来のモデルに比べてプロンプト(呪文)の指示を正しく理解する能力が大幅に向上しました。さらに、これまでは崩れがちだった「画像の中に狙ったアルファベットを描き込む(Text Rendering)」という処理も、正確にこなせます。
  • なぜComfyUIなのか:低VRAMでもサクサク動く軽快さ SD3.5は非常に高精細な画像が作れる反面、モデルのデータ容量が大きくPCへの負荷も高めです。しかし、ノードを繋いで処理を作る「ComfyUI」は、一般的なWebUIに比べて動作が軽く、ビデオメモリ(VRAM)の消費を抑えられるため、重いSD3.5をローカルで動かすのに最適な環境と言えます。
  • Stability Matrixの恩恵:クリック一つで環境が完成 Pythonのインストールや複雑なコマンド入力、エラーへの対処といった「ローカルAI導入の最大の壁」をすべて解決してくれるのがStability Matrixです。クリックだけでComfyUIがインストールでき、モデルの管理もすべて画面上で完結します。

2. 【準備】Stability MatrixでComfyUIとSD3.5の環境を作る

それでは、さっそく環境を構築していきましょう。手順はわずか3ステップです。

ステップ1: Stability Matrixの配置と起動

まずはStability Matrixの公式GitHubや配布サイトから、最新のZipファイルをダウンロードします。

ダウンロードが完了したら、Cドライブの直下など(例:C:\StabilityMatrix)にフォルダを作成し、その中にZipファイルの中身を解凍してください。

解凍されたフォルダ内にあるStabilityMatrix.exeをダブルクリックして起動すれば、初期セットアップ画面が開きます。

⚠️ 注意ポイント 「ダウンロード」フォルダやデスクトップ上でそのまま解凍して起動すると、後から生成される画像やモデル(数十GB〜数百GB)でCドライブの容量が圧迫されたり、パス(保存場所)のエラーが起きたりする原因になります。必ずあらかじめ決めた専用のフォルダに配置してから起動しましょう。

ステップ2: ComfyUIパッケージの追加

Stability Matrixが起動したら、左メニューの「Packages」タブを開きます。 「Add Package」から「ComfyUI」を選択してインストールボタンを押してください。これだけで、必要なシステムが自動でダウンロードされます。

ステップ3: SD3.5モデルと必須CLIPモデルの導入(手動配置が確実!)

SD3.5をComfyUIで正常に動かすするには、メインのモデルファイルに加えて、プロンプトを理解するための「CLIPモデル(テキストエンコーダー)」が必須になります。

Stability Matrixの検索機能ではヒットしないケースが多いため、開発元である stabilityai/stable-diffusion-3.5-large(Hugging Face) から直接ファイルをダウンロードして指定のフォルダに入れる方法が一番確実です。

上記の公式リンク(Files and versionsタブ)から必要なファイルをダウンロードし、Stability Matrixのフォルダ内へ配置しましょう。

1. ダウンロードするファイル

  • メインモデル(リポジトリの直下にあります)
    • sd3.5_large.safetensors (最高クオリティのベースモデル)
    • SD3.5L_example_workflow.json (公式のワークフロー設定ファイル)
  • 必須CLIPモデル(「text_encoders」フォルダの中に入っています)
    • text_encoders フォルダを開き、中にある以下の3つのファイルをダウンロードします。
      1. clip_l.safetensors
      2. clip_g.safetensors
      3. t5xxl_fp16.safetensors(※グラフィックボードのVRAMが12GB以下のミドルクラス環境であれば、より軽量で動作が安定する t5xxl_fp8_e4m3fn.safetensors のダウンロードを強くおすすめします!)

2. 正しいフォルダへの配置場所

※Stability Matrixのバージョンや環境によって、フォルダ名が2パターン存在します。ご自身の StabilityMatrix/Data/Models/ の中身を確認して、該当するフォルダへ配置してください。

  • メインモデルの入れ場所: StabilityMatrix/Data/Models/StableDiffusion/ (※フォルダがない場合は StabilityMatrix/Data/Models/Checkpoints/ の中へ) 👉 ここに sd3.5_large.safetensors を入れます。
  • CLIPモデルの入れ場所:StabilityMatrix/Data/Models/TextEncoder/ (※フォルダがない場合は StabilityMatrix/Data/Models/Clip/ の中へ) 👉 ここにダウンロードした3つのファイルをすべて入れます。
    1. clip_l.safetensors
    2. clip_g.safetensors
    3. t5xxl_fp16.safetensors (または t5xxl_fp8_e4m3fn.safetensors

💡 フォルダが見当たらない場合の対処法 もし上記のフォルダがどちらも見当たらない場合は、StabilityMatrix/Data/Models/ フォルダの中に、手動で StableDiffusionTextEncoder という名前のフォルダを新規作成してファイルを入れれば、問題なく認識されます。

ファイルが配置できたら、Stability MatrixからComfyUIを起動(または再起動)すれば、自動的にモデルが認識されて使えるようになります。


3. ComfyUIで実践!SD3.5の基本画像生成ワークフロー

環境が整ったら、ComfyUIを起動してみましょう。 ComfyUIの画面は一見複雑に見えますが、「これさえ読み込めば動く」という公式の基本ワークフローファイルを読み込ませれば一瞬でセットアップが完了します。

🎁 公式ワークフローファイルの読み込み方法

ステップ3でメインモデルと一緒にダウンロードした SD3.5L_example_workflow.json を使用します。

  1. 起動したComfyUIの画面の右側メニューにある「開く」ボタンからこのjsonファイルを選択するか、画面内にjsonファイルをそのままドラッグ&ドロップします。
  1. これだけで、自動的にSD3.5用の最適なノード配置が一瞬で画面上に再現されます!

(※ここにjsonファイルを読み込ませた後のComfyUI全体ワークフローのスクリーンショットを挿入)

基本ノードの役割解説

読み込まれたワークフロー(ノード)は、左から右へとデータが流れることで画像を作っています。各ノードの英語名と、日本語での役割は以下の通りです。

  1. Load Checkpoint(チェックポイントの読み込み) ダウンロードしたメインモデル sd3.5_large.safetensors を指定し、AI의ベースとなる脳みそを切り替えるノードです。
  2. TripleCLIPLoader(3つのCLIPの読み込み) 準備した3つのCLIPモデル(clip_lclip_gt5xxl)をそれぞれ指定し、私たちが入力するプロンプトをAIが正しく解釈できるように翻訳・下準備をするノードです。
  3. CLIP Text Encode / Prompt(プロンプト入力) 英語で生成したい内容(ポジティブプロンプト)と、除外したい内容(ネガティブプロンプト)を入力する枠です。
  4. Empty Latent Image(空の潜在画像) 生成したい画像のサイズ(縦横の解像度)や、一度に何枚作るかを指定します。SD3.5 Largeは「1024×1024」などの高解像度での生成が推奨されています。
  5. KSampler & VAE Decode(サンプラーとデコード処理) AIがプロンプトを元にノイズから画像へと計算(清書)を行い、最終的に人間の目に見える綺麗な画像データとして出力(Save Image)するメイン処理ノードです。まずは公式推奨設定のまま動かしてみましょう。

4. 実際に生成してみた!プロンプトと出力結果

実際にSD3.5で画像を生成してみました。

作例1: 精密なディテールのアニメ・イラスト

まずは定番のアニメ調イラストに挑戦です。髪の毛の細かい描写、服の質感、背景の光の当たり方が非常に美しく表現されました。

  • 完全なプロンプト:
    Plaintextmasterpiece, best quality, 1girl, anime style, a beautiful Japanese high school girl with long black hair, smiling gently, sitting by the window in a classroom, soft warm sunlight streaming through the window, cherry blossom petals floating in the air, highly detailed, 8k, vibrant colors
  • ネガティブプロンプト:
    Plaintextlow quality, bad quality, deformed, bad anatomy, worst quality

作例2: まるで写真!リアルな実写風景と「文字入れ」の検証

続いて、SD3.5の目玉機能である「文字入れ(Text Rendering)」の実写検証です。プロンプトで指示した通り、看板の文字が破綻せずにクッキリと描画されているのが分かります。

  • 完全なプロンプト:
    PlaintextA cinematic photorealistic shot of a cozy stylish café on a rainy day in Tokyo. Hanging on the wooden front door is a rustic sign that clearly says "OPEN" in clean, well-defined capital letters. Soft warm indoor lights reflection on the wet asphalt outside, raindrops on the window glass, hyper-detailed, 8k resolution, professional photography, dslr
  • ネガティブプロンプト:
    Plaintextlow quality, bad quality, text errors, misspelled, blurry, painting, illustration, drawing

前の世代のモデルだとアルファベットの綴りが崩れてパズルの一部のようになってしまうことが多かったのですが、SD3.5は一発できれいにダブルクォーテーションで囲んだ通りの「OPEN」を高い精度で描き込んでくれました。これだけでも進化を実感できます!


5. 【超重要】生成に時間がかかりすぎる場合の爆速化テクニック

SD3.5 Largeは非常に高画質な画像が作れる反面、ベースモデルの容量が約20GB近くあり、普通に動かすと1枚の生成にメモリ不足でフリーズするほど時間がかかります。

もし「生成が遅すぎる!」と感じたら、以下の対策を強くおすすめします。画質をほぼ落とさずに、生成速度を数倍〜十数倍に爆速化できます。

  • 対策1:CLIPモデルの t5xxl を「fp8版」にする プロンプトの翻訳を担当する t5xxl_fp16 はファイル単体で約10GB近くあり、これが速度低下の大きな原因になります。これを軽量化された t5xxl_fp8_e4m3fn.safetensors に差し替えるだけで、大幅に生成時間を短縮でき、VRAMの消費も劇的に抑えられます。
  • 対策2:メインモデルを「GGUF版」や「fp8版」にする Hugging Face等で有志が配布している、軽量化(量子化)されたSD3.5 Largeモデル(GGUF形式やfp8形式)を使用する手法です。モデルのサイズが数GB〜10GB程度まで小さくなるため、グラフィックボードへの読み込み速度が跳ね上がります。VRAMが8GB〜12GBの環境では、この軽量版モデルを使うのが現在のトレンドであり「必須の設定」と言えます。

6. つまずきやすいポイントと解決策(トラブルシューティング)

最後に、初めてローカル環境で動かす際によくあるエラーとその対策をまとめました。

Q. VRAM不足(Out of Memory)でエラーが出る

A. 上述の軽量化モデルを導入するか、ComfyUIの起動引数を調整しましょう。 グラフィックボードのメモリが足りない場合は、ステップ3で解説した t5xxl_fp8 への変更や、メインモデルのGGUF版への切り替えが最も効果的です。また、Stability Matrixのパッケージ設定から、ComfyUIの起動引数に --lowvram を追加するのも有効な手段です。

Q. 生成された画像がモザイクのようになる・形が極端に崩れる

A. ステップ数とCFGスケール、サンプラーの設定を再確認してください。 SD3.5は、これまでのモデル(SD1.5やSDXL)と適切な設定値が異なります。公式のjsonを読み込んでいれば自動で最適化されますが、手動で変更する場合は以下の「基本の推奨値」に合わせてみてください。

  • Steps(ステップ数): 20〜40の間(まずは20〜30がおすすめ)
  • CFG Scale: 3.5〜4.5付近(高すぎると画像が完全に焼き付いて壊れます)
  • Sampler: euler / Scheduler: normal

まとめ

Stability MatrixとComfyUIを組み合わせれば、これまでは敷居の高かった最新モデル「SD3.5」の導入も、簡単かつ軽量に行うことができます。

コメント

タイトルとURLをコピーしました