ComfyUIのWork FlowメニューのBrowse Templateで一番最初にでてくるImage Generationについて。
ComfyUIノードの動きを人間が絵を描く流れに例える
人間の作業工程:対応するノード | 役 割 |
---|---|
1.アイデアを思いつく:Text Prompt |
「こんな絵にしたい」という発想を文字にする。2のノードに入力された文字列自体 |
2.頭の中で構図を組み立てる:CLIP Text Encode |
言葉を意味のパーツ(トークン)に変換して、頭の中にイメージが浮かぶ状態。人間語を機械語(意味ベクトル)に変換。入力が黄色い線、出力が橙色の1が入力されたノード(Positive Prompt,Negative Prompt) |
3.画材を選ぶ(ペン、紙、スタイルなど):Load Checkpoint |
使用するモデル(=画風やタッチ)を決定。左端のノード |
4.まっさらなキャンバスを用意する:Empty Latent Image |
サイズや形式だけが指定された、ノイズも情報も含まない“ゼロの状態”の潜在画像。ピンク色の線が出ているノード |
5.モデル情報やPromptの指示に基づいて下描きをする:KSampler | 構図やシルエットをざっくり描き出す段階(ノイズを元にざっくり生成)。CkeckPoint出力 やCLIP Text Encodeの出力が集まっているノード |
6.色を塗って細部を描く:VAE Decode |
ノイズだらけの下絵から、ディテールと色味を再構築。KSamplerやCheckPointの出力を受け入れているノード |
7.完成作品を保存する |
Save Image:描いた絵をファイルとして残す。右端のノード |
1=描きたい絵からプロンプトを考える(ここだけ基本的に人の作業)、2=ClipTextEncodeがテキストをNegativePromptやPositivePromptに変換、3=Load CheckPointが絵に必要な情報をローディングする、4=キャンバスを用意する、5=下書き(入力されたLatentImage(潜在空間の画像:空でない場合もある)をよりクリアなLatentImageへ変換する)。6=VAEデコード: 5で出力されたLatentImageを、人間が視覚的に理解できるピクセル画像に変換する。VAE(Variational AutoEncoder)
絵では便宜上LoadCheckPointが後になっているが、コンピュータの内部的には、最初にStable Diffusionのチェックポイントファイル(.ckptや.safetensorsファイル)に含まれる、MODEL(U-Net)、CLIP(Text Encode)、VAE(Variational AutoEncoder)(学習済みの情報)を最初にロードして後続のフローに提供している。