大白话讲透AI画图:Stable Diffusion,原理探究深度好文!

AI百科4周前发布 快创云
19 0

  Stable Diffusion 是一种从文本生成 AI 图像的潜空间扩散模型,其核心特点在于不在高维图像空间中操作,而是将图像压缩到潜在空间中。我们将深入了解其工作机制,了解它不仅可以使你成为一个更好的AI绘画艺术家,还能帮助你更合理地运用这个工具来得到更加精确的图像。

文本生成图像(Text-to-image)与图生图(Image-to-image)的区别

文本生成图像:通过文本提示生成与文本匹配的AI图像。而图生图则是使用一张图片与一段文字指令共同作为输入,生成的图像受到这两个输入的共同调节。

CFG值与降噪强度

  CFG(Classifier-Free Guidance)值控制文本指令对扩散过程的影响程度。降噪强度则控制向原始输入图像中添加多少噪声。

扩散模型(Diffusion Model)

  Stable Diffusion属于深度学习模型中的一个大类,即扩散模型。它们是生成式模型,旨在生成类似于它们在训练中看到的新数据。

前向扩散与逆向扩散

前向扩散:向训练图像中不断地添加噪声,使其逐渐变为一张毫无意义的纯噪声图。例如,正向过程将任何猫或狗图像转换为噪声图像。

逆向扩散:从充满噪音、无意义的图像开始,逆向扩散可以恢复出猫或狗的图像。其实现依赖于一个经过训练的神经网络模型——噪声预测器(noise predictor),来预测添加的噪声。

潜空间扩散模型(Latent diffusion model)

  Stable Diffusion的设计目的是解决速度问题。它将图像压缩到潜空间中处理低维数据,计算量大大减少,因此比标准的扩散模型快得多。

变分自动编码器(Variational Autoencoder)

  VAE神经网络有两个部分:编码器和解码器。编码器将图像压缩为潜在空间中的较低维表示形式,解码器从潜在空间恢复图像。通过VAE,图像可以被转入和转出潜空间。

图像生成过程

  1. 生成一个潜空间的随机张量。
  2. 噪声预测器的U-Net网络将这个初始随机张量与文本指令作为输入,预测出应移除的噪声。
  3. 将这个潜空间噪声从潜空间初始图像中减去,得到新的图像。
  4. 重复上述步骤指定次数后,VAE解码器将最后得到的潜空间图像恢复为像素空间的图像。

图生图与修图(Inpainting)

图生图:使用一张图片与一段文字指令共同作为输入,生成的图像受到这两个输入的共同调节。而修图只是图生图的一种特殊形式,噪声仅被添加到图中希望修改的部分。

Depth-to-image

  Depth-to-image是image-to-image的增强版,它使用深度图生成具有附加条件的新图像。通过MiDaS(一个AI模型)分析输入图像的深度信息,并添加噪声后生成新图像。

无分类器引导(Classifier-Free Guidance, CFG)

  CFG值控制文本指令对扩散过程的影响程度。不同于分类器引导需要额外模型提供指导,无分类器引导通过训练一个带条件的扩散模型实现“没有分类器的分类器引导”。

© 版权声明

相关文章