【ComfyUI】神クオリティ、Ideogram 4.0の導入と使い方

文字崩れのない完璧なポスターやデザインが作れることで話題の「Ideogram 4.0」を、ComfyUIの導入と、その仕組みを解説します。

パソコン初心者や非エンジニアの方でも、Aエージェント（Codex、Claude Code、 Antigravity等）に指示を丸投げするだけで、PC環境を一切汚さずにComfyUIの環境構築からAI動画生成までを数分で終わらせる方法をご紹介します。

Ideogram 4.0とは

Ideogram初のオープンウェイトモデルであり、ComfyUIのようなローカル環境で利用することが可能です。

高いレイアウトと文字の制御: 画像を描く前に構図や構造を理解するアプローチが採用されており、文字の配置やデザインの実務を想定した出力フォーマットに強みを持っています。
バウンディングボックス対応: 開発プラットフォームである「ComfyUI」と連携させることで、領域指定（バウンディングボックス）を用いた正確な配置指示が可能です。

Ideogram 4.0導入手順

Ideogram 4.0の公式ワークフローを正常に動作させるには、ComfyUIが最新の状態（v0.24.0以降）である必要があります。

ComfyUIのバージョンアップ

ポータブル版（Portable）を使用している場合は、ComfyUIのメインフォルダ内にある update_comfyui.bat を実行します。
これにより、Ideogram 4.0のカスタムノードや各種機能に対応した最新バージョンへ自動的にアップデートされます。

公式テンプレートの読み込み

ComfyUIを起動後、画面左メニューのテンプレートから 「Ideogram v4: Text to Image」 をクリック。商用利用したい場合はAPIで生成した画像をご使用ください。
画面上に「Text to Image (Ideogram v4)」のワークフローが展開されます。

必要なファイルをダウンロード

テンプレートを読み込んだ初期状態では、画面に「Missing Models」という不足モデルの警告が表示されますので、それを開いて必要なファイルをダウンロード。

ファイル名	保存先フォルダ	役割
qwen3vl_8b_fp8_scaled.safetensors	`models/text_encoders/`	入力された指示（プロンプト）を読み解く頭脳。
ideogram4_fp8_scaled.safetensors	`models/diffusion_models/`	（ポジティブ）文字やデザインを実際に組み立てて描くメインモデル。
ideogram4_unconditional_fp8_scaled.safetensors	`models/diffusion_models/`	（ネガティブ）余計なノイズを消し、純粋に画質を美しく整える専用モデル。
flux2-vae.safetensors	`models/vae/`	計算されたデータを、目で見られる「画像」に変換するファイル。

ダウンロードがすべて完了したら、一度そのまま「Run」をクリックしてください。初期値として埋め込まれているスケートボーダーのポスター画像が一発で正常に生成されれば、ローカル環境の構築はすべて完了です。

使い方

「Text to Image (Ideogram v4)」ノードと「Save Image」ノードをctrl + Bでバイパス化
「Ideogram4 Caption Prompt Template」ノードに自然文でプロンプトを入力して「Run」
「Preview as Text」ノードに出力されたテキストをChatGPT等にコピペして「JSON形式のプロンプトを作って」と指示
出力されたJSON形式のプロンプトを「Text to Image (Ideogram v4)」ノードに貼り付ける
バイパスを解除して「Run」→画像出力

2つのモデルを同時に走らせる「デュアル構造」

通常の画像生成AI（FLUXやSDXLなど）は、1つのモデルファイル（脳みそ）の中で「プロンプト通りの計算」と「画質を高める計算（ネガティブ）」を同時に行います。

しかしIdeogram 4.0は、役割ごとにモデルが2つに完全分離されています。

ポジティブ（指示の組み立て） ideogram4_fp8_scaled.safetensors
ネガティブ（画質の補正） ideogram4_unconditional_fp8_scaled.safetensors

この2つの独立したモデルファイルを同時に読み込み、「DualModelGuider」というノードで強力にハイブリッド合成しています。これが、他のモデルを圧倒する「文字が崩れない」デザイン力の秘密です。

Text to Image (Ideogram v4)

実際に画像を出力するメインのノードです。このノードの prompt 欄に入力されている、{ } で囲まれたデザイン指示書のようなデータ形式が「構造化されたJSON形式」です。背景、オブジェクト、配置する場所の数値（座標：bbox）、カラーコードなどが完璧にデータ化されているため、AIが迷わず狙い通りの画像を生成できます。