AI实现艺术品自动生成?太牛了

AI百科5个月前更新 快创云
47 0

CSDN话题挑战赛第1期活动详情

  活动链接:https://marketing.csdn.net/p/bb5081d88a77db8d6ef45bb7b6ef3d7f

  参赛话题:哪项人工智能技术使你感受到了神奇?

  话题描述:在探索人工智能的奇妙之旅中,哪一项技术最让你印象深刻?

文章目录

  前言

  一、技术介绍

  1. CLIP模型寻找图像
  2. DC-GAN模型生成图像

  二、实现途径

  1. 访问wombo网站
  2. 作品生成
  3. 作品下载

  三、效果展示

  四、总结

  近日,在接触NFT创作时,我偶然发现了一个能自动生成NFT作品的网站。起初,我以为它是通过组合不同的组件来生成作品,实际上,它仅仅是通过关键词让AI自行创作。

  AI已经能够创作艺术品了吗?😲😲😲(图1:AI作品 Man)

  艺术品是理解事物、表达情感、阐述抽象概念的媒介。过去,人们认为AI无法涉足艺术与文化领域。现在看来,这一观点似乎不再成立。

  这个AI通过输入关键词就能生成艺术品,而且每次生成的作品都是独一无二的,意味着每件作品都是唯一的。那么,AI是如何进行绘画的呢?答案是多模态生成。

0模态指的是文本、图像、声音等不同的信息表现形式。而多模态则是将这些不同类型的信息结合起来。AI作画主要依赖两种技术:CLIP模型和DC-GAN模型。

  1. CLIP模型寻找图像:如果给每张图片配上文字描述组成一对,用大量这种图文对去训练AI,就能让它理解图文之间的对应关系。Open AI在2021年1月发布的DALL-E和CLIP就是结合图像和文本的多模态模型。其中,DALL-E是基于文本来生成图像的模型,而CLIP是用文本作为监督信号来训练可迁移的视觉模型。Wombo工程师也曾透露过,他们的算法中使用了CLIP。CLIP(Contrastive Language-Image Pre-training)是一种基于对比文本-图像对的预训练方法或模型。它使用了4亿组从网上收集的图文对进行训练,能理解颜色和形状、日常物品或建筑物,甚至抽象的艺术风格如“印象派”或“赛博朋克”。对于训练好的模型,如果我们给一段输入文本,它就能找到对应的图片,或者根据图片描述它的内容。思考一下:如果你有了通过文本找到相匹配图片的方法,那么有没有可能根据我对事物的描述,画出我想要的样子呢?

  2. DC-GAN模型生成图像:接下来,要解决图像生成的问题。如果我们有了文本就能找到图片,那么有没有可能根据一部小说生成一部电影呢?没错,就是GAN了。这里GAN要接受CLIP的调度。至于Wombo的算法具体使用了哪种GAN并未公开。但根据网络搜集的信息来看,DC-GAN的可能性最大。DC-GAN最早于2015年提出,是第一个使用深度卷积网络生成图像的GAN变体。它可以通过对输入的图像进行上采样(up-sampling)生成图像G(z)。上采样主要采用反卷积算法,G接收一个100-d随机噪声z,经过Project and reshape(实际上就是一个全连接层),转化为一个4×4×1024的feature map,然后经过多个反卷积层,生成大小为64×64×3的图像。鉴别网络(Discriminator)的输入为一张图片,经过下采样(down-sampling)、卷积运算、再接全连接层处理,送入sigmoid函数,输出真假概率。Wombo生成的是高分辨率图像,卷积在效率上要比Transformer占优势。由于该项目没有开源且配置麻烦,这里我们通过在线网址测试来介绍AI作画流程。以后的文章中我将实现此模型的构建。整个流程是这样的:1. 打开网站后我们可以看到如下图所示界面。(这个网站需要科学上网),第一行输入作画关键词,第二列选择输入作画风格,点击生成。(图4 wombo界面)其中:最上面一栏是关键词输入栏,我们在这里输入关键词或者短句,如animal, a girl。在第二栏点击选择要生成图片的风格。选择好风格以后点击Create生成作品。2. 作品生成:首先使用DC-GAN生成一张随机图像作为种子(seek)。然后让CLIP给图像与文字描述的相似度打分,反馈给GAN模型,GAN模型以提升分数为目标不断进行迭代。加载过程就是迭代训练的过程,我们可以在等待过程中看到中间的结果最终满足精度的图片将被输出,作品可以自定义标题。GAN模型训练中的随机性意味着生成图像的唯一性。(图6 生成结果配置)3. 作品下载:点击save便可下载作品。如果对生成结果不满意,还可以点击按钮再生成一次。(图7)输入(蒸汽朋克风格): Chinese City 输出结果为: 输入(各种风格): Map 生成: AI艺术品将成为NFT领域的下一个趋势,也成为最近圈内热议的话题。实际上,Wombo也有进军NFT领域的打算。我们可以在作品生成界面看到发布为NFT作品的按钮。不同的AI艺术模型有着不同的特点,有的偏向于真实,有的偏向于想象力。从文化教育行业角度来看,我们可以结合不同AI的特点来激发艺术家的灵感,或者由AI提供主题风格,艺术家来赋予其意义。……不过凡事都有两面,有的人用此创作艺术品,有的人用此制作非法资源。请各位读者把握住平衡,捍卫法律,坚守道德底线。

© 版权声明

相关文章