クラウドの画像生成サービスは便利ですが、枚数を作るほど課金が膨らみます。今回はミドルクラスGPU(RTX 5060 Ti 16GB)+メモリ32GBのWindows PCで、画像生成も動画生成もローカルで回す環境を実際に構築したので、ハマりどころ含めて設定をまとめます。月額課金ゼロで無制限に生成できるのがローカルの最大のコスパです。
構成の全体像
| 役割 | 採用ツール/モデル | メモ |
|---|---|---|
| 生成基盤 | ComfyUI(Windows portable版) | API経由でスクリプトから自動実行 |
| 画像生成 | Z-Image Turbo(bf16) | 少ステップで高速。日常の量産用 |
| 画像編集 | Qwen系編集モデル(GGUF Q5量子化) | 量子化でVRAM 16GBに収める |
| 動画生成 | Wan 2.2 I2V | 画像→動画。これもローカルで動く |
| 文章生成 | Ollama + Gemma系12B | 7.2GB。プロンプト作成を自動化 |
最重要設定:VRAM管理
16GB VRAMで画像・動画モデルを切り替えながら使うと、何も設定しないとOOM(メモリ不足)で頻繁に落ちます。効いたのはComfyUIの起動オプションでした。
python_embeded\python.exe -s ComfyUI\main.py --enable-dynamic-vram --reserve-vram 2
--enable-dynamic-vram:モデルの載せ替えを動的に管理。動画モデルのような大物でも自動でやりくりしてくれる--reserve-vram 2:2GBをOS/ブラウザ用に確保。これを入れてから画面ごと固まる事故がなくなった
量子化モデルの使いどころ
フルサイズだとVRAMに乗らないモデルは、GGUF量子化版(Q5前後)を選ぶのがポイントです。体感では:
- Q8:品質はほぼフル精度。サイズはまだ大きい
- Q5:品質低下がほぼ分からないのにサイズは約半分。16GB VRAMの現実解
- Q4以下:細部(手指・文字)の破綻が増えてくる
LLMとの同居問題
プロンプト生成用のローカルLLM(Ollama)を同じマシンで動かす場合、コンテキスト長の設定が重要でした。12BモデルでもデフォルトのままだとComfyUIとVRAMを取り合います。num_ctxを4096に絞ることで、画像生成モデルと12B LLMの同時常駐が16GB VRAM+32GB RAMで成立しています。
自動化:Webアプリ+監視で「放置できる」環境に
ここまでをFlaskの簡易Webアプリにまとめ、スマホから生成を指示できるようにしました(Cloudflare Quick Tunnelで外出先からもアクセス可能)。さらに、サーバーやComfyUIが落ちたときのためにWindowsのタスクスケジューラで5分ごとの死活監視+自動再起動を仕込んであります。ローカル運用は「落ちたら手で再起動」が一番のストレスなので、ここまでやって初めて実用になりました。
まとめ:このクラスのGPUで十分戦える
- RTX 5060 Ti 16GBクラスでも、設定しだいで画像+動画+LLMのフルローカル環境が動く
- 鍵は「dynamic VRAM+reserve-vram」「Q5量子化」「LLMのnum_ctx制限」の3点
- クラウド課金と違い、量産するほどコスパが良くなる
次回は、この環境での生成速度の実測値と電気代の試算を記事にする予定です。


コメント