最近文生图领域最重要的消息,无疑是Stable Diffusion 3的推出。目前,有两种使用Stable Diffusion 3的方法:一种是通过API调用,这需要在Stability AI开发者平台申请API Keys;另一种方法,是使用Stable Assistant聊天机器人(需申请),类似在ChatGPT里使用DALLE3。
通过API在Google Colab上绘图的方法如下:

而使用Stable Assistant使用SD3的步骤如下:

总之,目前两种方式都需要付费,10美元1000点数,只能画不到200张图,并不便宜。
那么,Stable Diffusion 3到底效果如何?今天我们就和Midjourney(V6)作一番详细对比:
1. 美丽的魔女
描述: 美丽的魔女,黑色长发,穿着黑色高领套头衫和黑色瑜伽裤,在一个神奇的智能企鹅文明祭坛旁摆姿势,雕像,动画艺术风格,魔鬼核心,超现实插画,32k uhd,龙的艺术,燃烧的哥特式背景,超现实的人物。
Stable Diffusion 3 生成图:

Midjourney V6 生成图:

两款工具的画风都比较精致,但MJ6没能体现“魔女”的元素,SD3则加入了眼睛异色、头上长角的元素。
2. 狮子肖像
描述: 狮子肖像,黑白,逼真。
Stable Diffusion 3 生成图:

Midjourney V6 生成图:

两款工具表现都很好,好到简直像是以同一只狮子的照片训练的。
后续对比…(内容省略,保持原文结构)
结论
对Stable Diffusion 3的初步结论如下:
- 对提示词的理解(跟随度)比之前版本有了明显进步,但尚未达到DALLE3的程度。
- 表现文字(英文)的能力比Midjourney更强。
- 审美能力(美观度)略逊于Midjourney。
- 人体(尤其手指)较容易崩坏,相信开源后可借助插件解决。
- 目前功能较简单,并不支持局部重绘等。
综合来看,SD3具有相当大的潜力。尤其Stability AI承诺会坚持开放原则,在不久的将来使得SD3模型可以本地部署。基于目前的模型,Stable Diffusion如果接入各种插件,成为最强文生图工具,并不是梦。尤其是本地部署还有更多的“创作自由”!