基本-ImageGeneration

Details: Parent: blog; Category: StableDiffusion

ComfyUIのWork FlowメニューのBrowse Templateで一番最初にでてくるImage Generationについて。

ComfyUIノードの動きを人間が絵を描く流れに例える

人間の作業工程：対応するノード	役　割
1.アイデアを思いつく：Text Prompt	「こんな絵にしたい」という発想を文字にする。2のノードに入力された文字列自体
2.頭の中で構図を組み立てる：CLIP Text Encode	言葉を意味のパーツ（トークン）に変換して、頭の中にイメージが浮かぶ状態。人間語を機械語（意味ベクトル）に変換。入力が黄色い線、出力が橙色の1が入力されたノード(Positive Prompt,Negative Prompt)
3.画材を選ぶ（ペン、紙、スタイルなど）：Load Checkpoint	使用するモデル（=画風やタッチ）を決定。左端のノード
4.まっさらなキャンバスを用意する：Empty Latent Image	サイズや形式だけが指定された、ノイズも情報も含まない“ゼロの状態”の潜在画像。ピンク色の線が出ているノード
5.モデル情報やPromptの指示に基づいて下描きをする：KSampler	構図やシルエットをざっくり描き出す段階（ノイズを元にざっくり生成）。CkeckPoint出力やCLIP Text Encodeの出力が集まっているノード
6.色を塗って細部を描く：VAE Decode	ノイズだらけの下絵から、ディテールと色味を再構築。KSamplerやCheckPointの出力を受け入れているノード
7.完成作品を保存する	Save Image：描いた絵をファイルとして残す。右端のノード

1＝描きたい絵からプロンプトを考える（ここだけ基本的に人の作業）、２＝ClipTextEncodeがテキストをNegativePromptやPositivePromptに変換、３＝Load CheckPointが絵に必要な情報をローディングする、４＝キャンバスを用意する、５＝下書き（入力されたLatentImage(潜在空間の画像：空でない場合もある)をよりクリアなLatentImageへ変換する)。６＝VAEデコード: ５で出力されたLatentImageを、人間が視覚的に理解できるピクセル画像に変換する。VAE(Variational AutoEncoder)

絵では便宜上LoadCheckPointが後になっているが、コンピュータの内部的には、最初にStable Diffusionのチェックポイントファイル（.ckptや.safetensorsファイル）に含まれる、MODEL（U-Net）、CLIP（Text Encode）、VAE（Variational AutoEncoder）（学習済みの情報）を最初にロードして後続のフローに提供している。

Created: 25/06/27

Updated: 25/06/29

ComfyUIノードの動きを人間が絵を描く流れに例える

MMD関連card view

最近のMMD配布物

lucky numbers