ComfyUi 工作流原理分析 -- 文生图、图生图

发布时间:2026/6/26 2:32:14
ComfyUi 工作流原理分析 -- 文生图、图生图 一、文生图工作流文生图工作流的处理顺序和数据流向Checkpoint Loader (模型加载器)负责加载基础的大模型(Checkpoint)。一个完整的模型文件通常包含三个核心部件:MODEL (UNet):负责根据文字描述“绘制”图像的主干网络。CLIP:负责将文字提示词转化为模型能理解的“语义向量”。VAE:负责将模型在“潜在空间”生成的压缩图像数据,解码还原成我们能看到的高清像素图像。配合方式:它从硬盘里加载大模型,并从大模型里读取CLIP、MODEL和VAE这三个关键数据,分别输出给后续的CLIP Text Encode、KSampler和VAE Decode节点使用。CLIP Text Encode (文本编码器)作为“翻译官”,接收你写的正面提示词(想要的内容)和负面提示词(不想要的内容)。它使用从Checkpoint Loader获得的CLIP模型,将文字“翻译”成模型能听懂的“条件向量”(Conditioning)。配合方式:这个节点需要CLIP数据作为输入,输出的CONDITIONING数据则连接到KSampler节点,指导其生成方向。Empty Latent Image (空潜在图像)作为“空白画布”,它并不生成图像,而是根据你设定的宽度和高度,生成一个充满随机噪声的“潜在空间”数据块(Latent)。这是扩散模型开始“创作”的初始状态。配合方式:它输出的LATENT数据,作为初始噪声图像输入给KSampler节点。KSampler (采样器)作为“画家”,是工作流中最核心的执行单元。它接收来自Checkpoint Loader的MODEL、来自CLIP Text Encode的正负面CONDITIONING、以及来自Empty Latent Image的初始LATENT。通过你设定的步数(Steps)、CFG(提示词相关性)等参数,它会在“潜在空间”里进行迭代去噪,逐步将随机噪声“雕琢”成一幅有意义的压缩图像。配合方式:它将处理后的LATENT数据输出给VAE Decode节点。VAE Decode (VAE解码器)作为“冲印师”,接收来自KSampler的压缩LATENT数据。它使用从Checkpoint Loader获得的VAE模型,将压缩数据“解码”还原成我们肉眼可见的像素图像(IMAGE)。配合方式:它需要VAE数据和LATENT数据作为输入,输出IMAGE给最后的保存或预览节点。Save Image (图像保存器)作为“归档员”,负责将VAE Decode传来的最终IMAGE图像保存到本地硬盘。二、图生图工作