AIGC-Stable Diffusion发展及原理总结

一、AIGC介绍

1. 介绍

　　这两年，短视频平台上“AI绘画”非常火爆，抖音一键换装、前世今生之类的模板大家没玩过也应该听说过。另一个火爆应用当属ChatGPT，自2022年ChatGPT 3.5发布后，快速累积了超百万用户，可谓家喻户晓。这两个概念均来自同一个领域，即AIGC。

　　AIGC全称是AI Generated Content，直译为人工智能生成内容，也叫生成式人工智能。AIGC是继专业生产内容（PGC）和用户生产内容（UGC）之后的新型内容创作方式，是互联网内容创作方式的一次革新。AIGC可以在对话、故事、图像、视频和音乐制作等方面，打造全新的数字内容生成与交互形式。

2. AIGC商业化方向

　　随着技术的不断进步，AIGC的应用场景越来越广泛，商业价值也逐渐凸显。例如，AI文本生成、AI文生图/图生图、AI文生视频等应用已经开始在商业领域发挥作用。越来越多的企业开始探索AIGC的商业化路径，通过提供高质量的生成内容来创造新的商业模式。

3. AIGC是技术集合

　　概括来说，AIGC是基于生成对抗网络GAN、大型预训练模型等人工智能技术，通过已有数据寻找规律，并通过适当的泛化能力生成相关内容的技术集合。简单理解就是所有的AIGC方向的模型，都不是单一模型实现的，而是通过刚才说的技术组合训练得到的。

4. AIGC发展三要素

4.1 数据

　　UGC生成的规模化内容，创造了大量学习素材，互联网数据规模快速膨胀。丰富的数据为AIGC的发展提供了坚实的基础。

4.2 算力

　　图形处理器GPU、张量处理器TPU等算力设备性能不断提升，A100, H100等加速卡的出现，为AIGC的训练和应用提供了强大的计算支持。

4.3 算法

　　当前AIGC技术已经从最初追求生成内容的真实性的基本要求，发展到满足生成内容多样性、可控性的进阶需求，并开始追求生成内容的组合型。数字内容的组合性一方面关注复杂场景、长文本等内容中各个元素的组合；另一方面追求概念、规则等抽象表达的组合，以此完成更加丰富和生动的数字内容生成。这些新需求对传统单一模态的人工智能算法框架提出了新的挑战。预训练大模型和多模态方向的发展，为AIGC技术发展和升级提供了基石。

4.3.1 多模态模型CLIP

　　由于CLIP两模块之一的Text Encoder是基于Transformer的模型，所以Transformer才被称为“跨模态重要开端之一”。CLIP在图像分类等比赛中的表现也证明了CLIP对于文本-图像对比学习的优越性。因此，CLIP Text Encoder被选为Stable Diffusion的文本编码器。

4.3.2 图像生成模型

　　图像生成模型包括GAN、VAE、Diffusion等。这些模型各有优缺点，例如GAN生成的图片逼真但训练不稳定；VAE可解释性强但图片模糊；Diffusion数学可解释性强但训练成本高。Latent Diffusion Model通过引入VAE解决了速度慢的问题，使得训练成本降低、速度加快。

二、Stable Diffusion 稳定扩散模型

1. 介绍

　　Stable Diffusion是Stability AI公司于2022年10月发布的深度学习文字到图像生成模型。它主要用于根据文字的描述产生详细图像，能够在几秒钟内创作出令人惊叹的艺术作品。Stable Diffusion的源代码和模型权重已分别公开发布在GitHub和Hugging Face，它的参数量只有1B左右，可以在大多数配备有适度GPU的电脑硬件上运行。训练数据集为LAION-5B，训练成本为60万美元。

2. 技术架构

step1 CLIP Text Encoder

　　SD只用到了CLIP模型的Text Encoder预训练模型，权重固定。它会将文本编码成语义向量，该语义向量对应一个图像。CLIP的核心是“Connecting text and images”，通过对比学习计算文本特征和图像特征的余弦相似性，让模型学习到文本和图像的匹配关系。 step2 LDM之VAE Encoder VAE将输入转换成Latent空间的概率分布，如标准高斯分布。SD的Latent Space为4x64x64, 比图像像素空间3x512x512小48倍，减少空间占用，加速训练。VAE组成包括Encoder和decoder。Encoder将图像压缩为潜空间中的低维表示，保留主要的特征信息。 step3 LDM之Diffusion 扩散模型的目的：学习从噪声生成图片的方法。前向扩散通过逐步添加高斯噪声将图像数据点的复杂分布逐渐转为简单分布；反向扩散通过训练好的神经网络去除噪声，得到图像最终的隐向量。核心网络为U-Net，它在原本Encoder-Decoder结构基础上增加了时间编码和交叉注意力机制等模块。 step4 LDM之VAE Decoder VAE Decoder将去噪后的矩阵解码回像素空间。具体原理没有过多研究。三、参考中国信通院-京东探索研究所-人工智能生成内容（AIGC）白皮书（2022年）.pdf AIGC深度报告：新一轮内容生产力革命的起点（国海证券）.pdf Stable Diffusion 文生图技术原理 — 张振虎的博客张振虎文档深入浅出完整解析Stable Diffusion（SD） CLIP：用文本作为监督信号训练可迁移的视觉模型 OpenAI CLIP模型的简单实现：教程神器CLIP：连接文本和图像【Stable Diffusion】之原理篇 LDM（Latent Diffusion Model）详解 stable diffusion原理解读通俗易懂

本网站上的所有资源均来源于本网站，所有网址和文章版权均归原作者所有。如有侵权行为，请将相关证明发送至以下电子邮件地址：dxsen@qq.com

AIGC-Stable Diffusion发展及原理总结

目录

一、AIGC介绍

1. 介绍

2. AIGC商业化方向

3. AIGC是技术集合

4. AIGC发展三要素

4.1 数据

4.2 算力

4.3 算法

4.3.1 多模态模型CLIP

4.3.2 图像生成模型

二、Stable Diffusion 稳定扩散模型

1. 介绍

2. 技术架构

step1 CLIP Text Encoder

传统人工智能中的三大问题

临摹练习-AI-小熊

相关文章

外媒评微软发布AI PC：这次真的能与MacBook竞争了

《ai ei ui》教案

体育产业AI技术揭秘：大模型化身AI随身教练

一款能够一键去除衣物的 AI 软件，让你的照片更加完美

网址

PPT模板、PP案例、PPT课件免费下载网站

【官网】 闪剪

怪兽AI数字人

蝉镜

慧播星·百度电商数字人直播

音视频内容 AI

热门网址

Huawei Enterprise: Accelerate Industrial Intelligence

快写红薯通AI

畅问AI

慧星云

新壹科技

星火网文助手

滴文

标书制作

AI小说家

百度作家平台

【官网】闪剪