作为一个非职业的摄影爱好者,我常在 Instagram 上浏览并收藏各种优质图片,其中一位德国摄影师的作品尤其吸引我,他的许多作品都值得我细细品味和学习。然而,在关注了 ChatGPT 带来的职业发展焦虑后,我开始留意 AI 相关的消息。当我回顾我的收藏夹时,惊讶地发现这位德国摄影师自今年一月份以来发布的照片大多是由 AI 生成的。当时我在收藏和欣赏这些图片时,竟然毫无察觉。
AI 生成图片的原理
AI 绘画的核心在于生成与转换两大算法。与 ChatGPT 类似,AI 绘画通过训练数据学习,使模型能够理解和提取图像的基本特征、结构和样式。根据给定的描述或关键词,AI 尝试在新图像中融合和组合这些特征,生成与输入相关的图像。生成模型和转换模型是完成这一任务的两种核心方法。
生成模型:生成对抗网络(GAN)
生成模型能根据给定条件生成新数据,常用的是生成对抗网络(GAN),包括生成器和判别器两个神经网络。生成器负责生成新图像,而判别器评估生成器的性能。通过反复训练,生成模型可逐步提高图像质量。简而言之,生成器学习并尝试生成新图像,而判别器对生成的图像进行判定,两者间的竞争促使生成器不断改进,创造更逼真、高质量的图像。
转换模型:卷积神经网络(CNN)
转换模型用于将输入图像转换成另一种风格,常用的是卷积神经网络(CNN)。这些模型通过学习如何将输入图像转换为特定风格(如梵高或毕加索风格),依赖于大规模图片数据集进行训练,如 ImageNet 和 COCO 数据集。以 ImageNet-21K 为例,包含 21841 个物体类别和超过 2100 万张图片。
图像字幕技术:让 AI “看懂”图片
图像字幕技术通过深度学习算法生成图像文本描述,涉及将图像输入神经网络提取视觉特征,然后生成描述这些特征的单词序列。神经网络在大量图像及其相应字幕的数据集上训练,使用 CNN 进行图像分析,使用 RNN 生成文本。
AI 如何将图像中提取的文字特征组合在一起?
文字、词语或诗句对 AI 来说过于抽象,需将非连续性数据转化为计算机可处理的连续型数据。嵌入向量技术将离散符号(如单词、标签)转换为连续实数向量,使计算机更好地理解符号关系,实现各种任务如语言翻译、情感分析、推荐等。例如,Google 的 Word2Vec 模型为每个单词分配固定长度向量表示,两个单词向量间的夹角值可衡量它们之间的关系。
AI 如何生成图像?
AI 生成图像的过程不复杂。生成器首先生成低分辨率图像,逐渐增加细节和复杂性。每一层神经网络处理不同级别特征,从低级特征(如边缘、纹理)到高级特征(如物体、场景组成)。生成器的神经网络层间存在连接,使生成器能在不同层次上组合特征。例如,先确定场景布局,再添加物体和其他细节。整个过程中,生成器根据输入描述或关键词调整特征组合,创造与输入相关的图像。
另辟蹊径的生成方式
OpenAI 的 DALL-E2 提供另一种 AI 生成图片方式:通过设定蒙版与区域合成图片。例如,用户可通过画笔工具抠掉小房子区域,AI 会重新生成符合用户要求的现代建筑。又如用户想要补充方形图像的画幅,只需拖入蒙板并输入关键词即可。
那么 AI 是摄影的未来吗?
AI 生成图片的进步从未停止,从“一眼假”到以假乱真。AI 生成的图片已足以商业用途并达到以假乱真的效果。对于摄影行业而言,熟练使用的 AI 技术使一天内可生成几十张创意图片。对于没有绘画和艺术技巧的人,现在也能发挥想象力创作曾只存在于脑海中的构想。然而,AI 图片创意产业加速发展也带来新问题:AI 生成的摄影作品是否真正称得上是摄影作品?未来高质量图片爆炸式增长时,我们应以何种标准和审美评判一张照片的好坏?相机实拍的“真实”与 AI 生成的“虚拟”界限又在哪里?
在 AI 绘画出现前,我们依靠 PS 等软件完成简单合成图片。例如修补图像中不存在的区域时分析纹理、颜色等特征进行匹配和融合实现自然修补效果。此外手机上早已应用 AI 算法提升影像质量。在已拥抱算法便利的时代我们有何理由拒绝 AI 生成的摄影作品?想要区分“真实”和“虚拟”的摄影艺术界限早已模糊。“人”的摄影更多记录生活和捕捉动人瞬间每个影像都是故事的载体传达拍摄者的情感和观点。AI 逐渐打破创作摄影作品的繁琐过程和普通人难以逾越的技术鸿沟随着摄影技术下沉未来更多普通人可轻松拍摄或制作高质量照片无需经历艰难时刻或注入情感也能获得同样愉悦或震撼的结果。在未来不受技术和器材限制的时代也许最珍贵的摄影产物不是图片而是创意和思想。