目录
-
AIGC介绍
- 1.1 介绍
- 1.2 AIGC商业化方向
- 1.3 AIGC是技术集合
- 1.4 AIGC发展三要素
- 1.4.1 数据
- 1.4.2 算力
- 1.4.3 算法
- 1.4.3.1 多模态模型CLIP
- 1.4.3.2 图像生成模型
-
Stable Diffusion 稳定扩散模型
- 2.1 介绍
+ 2.1.1 文生图功能(Txt2Img)
+ 2.1.2 图生图功能(Img2Img)- 2.2 技术架构
- step1 CLIP Text Encoder
- step2 LDM之VAE Encoder
- step3 LDM之Diffusion
- step4 LDM之VAE Decoder
- 2.2 技术架构
- 参考
一、AIGC介绍
1. 介绍
这两年,短视频平台上“AI绘画”非常火爆,抖音一键换装、前世今生之类的模板大家没玩过也应该听说过。另一个火爆应用当属ChatGPT,自2022年ChatGPT 3.5发布后,快速累积了超百万用户,可谓家喻户晓。这两个概念均来自同一个领域,即AIGC。
AIGC全称是AI Generated Content,直译为人工智能生成内容,也叫生成式人工智能。AIGC是继专业生产内容(PGC)和用户生产内容(UGC)之后的新型内容创作方式,是互联网内容创作方式的一次革新。AIGC可以在对话、故事、图像、视频和音乐制作等方面,打造全新的数字内容生成与交互形式。
2. AIGC商业化方向
随着技术的不断进步,AIGC的应用场景越来越广泛,商业价值也逐渐凸显。例如,AI文本生成、AI文生图/图生图、AI文生视频等应用已经开始在商业领域发挥作用。越来越多的企业开始探索AIGC的商业化路径,通过提供高质量的生成内容来创造新的商业模式。
3. AIGC是技术集合
概括来说,AIGC是基于生成对抗网络GAN、大型预训练模型等人工智能技术,通过已有数据寻找规律,并通过适当的泛化能力生成相关内容的技术集合。简单理解就是所有的AIGC方向的模型,都不是单一模型实现的,而是通过刚才说的技术组合训练得到的。
4. AIGC发展三要素
4.1 数据
UGC生成的规模化内容,创造了大量学习素材,互联网数据规模快速膨胀。丰富的数据为AIGC的发展提供了坚实的基础。
4.2 算力
图形处理器GPU、张量处理器TPU等算力设备性能不断提升,A100, H100等加速卡的出现,为AIGC的训练和应用提供了强大的计算支持。
4.3 算法
当前AIGC技术已经从最初追求生成内容的真实性的基本要求,发展到满足生成内容多样性、可控性的进阶需求,并开始追求生成内容的组合型。数字内容的组合性一方面关注复杂场景、长文本等内容中各个元素的组合;另一方面追求概念、规则等抽象表达的组合,以此完成更加丰富和生动的数字内容生成。这些新需求对传统单一模态的人工智能算法框架提出了新的挑战。预训练大模型和多模态方向的发展,为AIGC技术发展和升级提供了基石。
4.3.1 多模态模型CLIP
由于CLIP两模块之一的Text Encoder是基于Transformer的模型,所以Transformer才被称为“跨模态重要开端之一”。CLIP在图像分类等比赛中的表现也证明了CLIP对于文本-图像对比学习的优越性。因此,CLIP Text Encoder被选为Stable Diffusion的文本编码器。
4.3.2 图像生成模型
图像生成模型包括GAN、VAE、Diffusion等。这些模型各有优缺点,例如GAN生成的图片逼真但训练不稳定;VAE可解释性强但图片模糊;Diffusion数学可解释性强但训练成本高。Latent Diffusion Model通过引入VAE解决了速度慢的问题,使得训练成本降低、速度加快。
二、Stable Diffusion 稳定扩散模型
1. 介绍
Stable Diffusion是Stability AI公司于2022年10月发布的深度学习文字到图像生成模型。它主要用于根据文字的描述产生详细图像,能够在几秒钟内创作出令人惊叹的艺术作品。Stable Diffusion的源代码和模型权重已分别公开发布在GitHub和Hugging Face,它的参数量只有1B左右,可以在大多数配备有适度GPU的电脑硬件上运行。训练数据集为LAION-5B,训练成本为60万美元。
2. 技术架构
step1 CLIP Text Encoder
SD只用到了CLIP模型的Text Encoder预训练模型,权重固定。它会将文本编码成语义向量,该语义向量对应一个图像。CLIP的核心是“Connecting text and images”,通过对比学习计算文本特征和图像特征的余弦相似性,让模型学习到文本和图像的匹配关系。 step2 LDM之VAE Encoder VAE将输入转换成Latent空间的概率分布,如标准高斯分布。SD的Latent Space为4x64x64, 比图像像素空间3x512x512小48倍,减少空间占用,加速训练。VAE组成包括Encoder和decoder。Encoder将图像压缩为潜空间中的低维表示,保留主要的特征信息。 step3 LDM之Diffusion 扩散模型的目的:学习从噪声生成图片的方法。前向扩散通过逐步添加高斯噪声将图像数据点的复杂分布逐渐转为简单分布;反向扩散通过训练好的神经网络去除噪声,得到图像最终的隐向量。核心网络为U-Net,它在原本Encoder-Decoder结构基础上增加了时间编码和交叉注意力机制等模块。 step4 LDM之VAE Decoder VAE Decoder将去噪后的矩阵解码回像素空间。具体原理没有过多研究。 三、参考 中国信通院-京东探索研究所-人工智能生成内容(AIGC)白皮书(2022年).pdf AIGC深度报告:新一轮内容生产力革命的起点(国海证券).pdf Stable Diffusion 文生图技术原理 — 张振虎的博客 张振虎 文档 深入浅出完整解析Stable Diffusion(SD) CLIP:用文本作为监督信号训练可迁移的视觉模型 OpenAI CLIP模型的简单实现:教程 神器CLIP:连接文本和图像 【Stable Diffusion】之原理篇 LDM(Latent Diffusion Model)详解 stable diffusion原理解读通俗易懂