ComfyUIのWork FlowメニューのBrowse Templateで一番最初にでてくるImage Generationについて。

ComfyUIノードの動きを人間が絵を描く流れに例える

人間の作業工程対応するノード 役 割

1.アイデアを思いつく:Text Prompt

「こんな絵にしたい」という発想を文字にする。2のノードに入力された文字列自体

2.頭の中で構図を組み立てる:CLIP Text Encode

言葉を意味のパーツ(トークン)に変換して、頭の中にイメージが浮かぶ状態。人間語を機械語(意味ベクトル)に変換。入力が黄色い線、出力が橙色の1が入力されたノード(Positive Prompt,Negative Prompt)

3.画材を選ぶ(ペン、紙、スタイルなど):Load Checkpoint

使用するモデル(=画風やタッチ)を決定。左端のノード

4.まっさらなキャンバスを用意する:Empty Latent Image

サイズや形式だけが指定された、ノイズも情報も含まない“ゼロの状態”の潜在画像。ピンク色の線が出ているノード

5.モデル情報やPromptの指示に基づいて下描きをする:KSampler 構図やシルエットをざっくり描き出す段階(ノイズを元にざっくり生成)。CkeckPoint出力 やCLIP Text Encodeの出力が集まっているノード
6.色を塗って細部を描く:VAE Decode

ノイズだらけの下絵から、ディテールと色味を再構築。KSamplerやCheckPointの出力を受け入れているノード

7.完成作品を保存する

Save Image:描いた絵をファイルとして残す。右端のノード

 

1=描きたい絵からプロンプトを考える(ここだけ基本的に人の作業)、2=ClipTextEncodeがテキストをNegativePromptやPositivePromptに変換、3=Load CheckPointが絵に必要な情報をローディングする、4=キャンバスを用意する、5=下書き(入力されたLatentImage(潜在空間の画像:空でない場合もある)をよりクリアなLatentImageへ変換する)。6=VAEデコード: 5で出力されたLatentImageを、人間が視覚的に理解できるピクセル画像に変換する。VAE(Variational AutoEncoder)

絵では便宜上LoadCheckPointが後になっているが、コンピュータの内部的には、最初にStable Diffusionのチェックポイントファイル(.ckptや.safetensorsファイル)に含まれる、MODEL(U-Net)、CLIP(Text Encode)、VAE(Variational AutoEncoder)(学習済みの情報)を最初にロードして後続のフローに提供している。