近期,央视《机智过人》舞台上迎来了一位“三超设计师”——设计实力超群,出图速度飞快,抗压能力惊人,成功迷惑了嘉宾与现场观众,甚至让撒贝宁连连出错。
节目一开场,这位“设计师”就为现场嘉宾:主持人撒贝宁、演员韩雪、神经科学家鲁白生成了三张独特海报。几乎是在话音落下的瞬间,海报就已完成,其出图速度之快让撒贝宁惊叹“秒完”。

这位设计师正是阿里巴巴研发的AI设计师——鹿班。鹿班旨在解放人类平面设计师,它学习了五百万张人类设计作品,目前每秒能进行八千次设计。自2016年上线以来,鹿班已完成十亿次海报制作,成为全球首位大规模应用的人工智能平面设计师。
节目中,鹿班将接受设计领域的两轮检验,若鹿班的作品被现场观众成功找出,即视为通过检验。那么,AI能否在设计领域达到人类水平?接下来,我们一起走进检验场。
第一轮挑战
鹿班与一位一次成稿率在80%以上的设计师、从业十二年的资深设计师等三位同台竞技,各自设计一张以“汽车卓越加速性能”为主题的商业海报。以下即四位设计师的设计成图,大家不妨来猜一猜哪幅是鹿班的作品。

根据现场观众投票,多数观众认为4号作品出自鹿班之手。然而出乎意料的是,2号才是鹿班的创作,这个结果让神经学家鲁白大呼“不服气”。
第二轮挑战
战况升级,中央美术学院院长范迪安教授带来画家与服装设计师来和鹿班同台创作,为《孙子兵法》这本书设计封面。面对设计难度升级,鹿班能否成功应对?我们马上揭晓鹿班和两位人类设计师为《孙子兵法》设计的封面作品:

以上图片中有三幅作品,哪一张是鹿班的设计?观众们有没有猜对?我们先请阿里巴巴资深技术专家星瞳为我们揭秘鹿班背后的技术。
技术解析
视觉生成引擎的使用场景大致可抽象成下图。以显式输入而言,用户可以输入标签需要的风格、色彩、构图等,或者输入一个例子,或者进行一些交互的输入。除显式输入之外还可以有隐式输入,比如人群信息、场景信息、上下文信息等。总的来说,输入可以是千变万化的,但通过规范化之后就会减少变化,使得生成过程可控,输出质量可控。

对视觉生成引擎来说,它要求输入是规范化的。但在输入前,可以加入各种交互方式,如自然语言处理、语音识别等,将其转化成规范化输入。最后输出结构化信息或可视成图。

其技术框架分为左侧的结构化理解和右侧的生产流程两部分。首先对视觉内容进行结构化理解,如分类、量化、特征化。其次通过一系列学习、决策变成满足用户需求的结构化信息即数据,最后将数据转化成可视的图像或视频。这一框架依赖于大量的现有数据,其核心是一个设计内核。同时引入效用循环,利用使用后的反馈来不断迭代和改进系统。生产流程则分成六个步骤:首先用户提出需求,将需求特征化转变成系统可以理解的结构化信息;其次将信息进行规划得到草图;有了粗略的草图后再将其转变成相对更精确的图;然后调整细节;最后通过数据可视化形成最终的图。当然其中还有很多的trick以及各部分的优化。

基本上处理的第一步是将图片中的信息结构化这也是与现有的识别理解技术结合最紧密的地方。其中的难点和重点包括:对图像中多目标的识别、遮挡和互包含情况如何得到分割的信息等。下面介绍一些关键算法:我们希望基于最左的耐克鞋生成最右的图。先通过规划器得到草图再通过强化学习获得相对细致的结果再通过对抗学习及渲染算法得到图片再通过评估器进行评估最后形成业务闭环其中还会有一些基础的能力包含更强的联合特征(非普通CNN特征)及多维度检索算法等。有了结构化信息之后需要对信息进行量化可以量化成特征或量化图。量化过程中会包含很多信息比如主题风格、布局配色、元素种类、量化空间等。有了这些信息后可以在主题、种类、风格、视觉特征大小位置上量化成各种码用相对有限的特征来表达无限的图。下一步是通过用户的输入得到一个相对粗略的结果即草图目前主要使用的是深度序列学习从图像角度首先选定一个点的像素颜色再选择位置再迭代进行操作最后形成一张图规划器模拟的就是这个过程。本质上预测过程是一棵树当然也可以拆成一条条路径为了简化可以分成几步进行比如空间序列视觉序列。最后形成量化特征模型主要应用的是LSTM模型它把设计的过程转化成基于递归循环的过程。得到草图后利用行动器将草图细化如果将图中的每个元素看作一个Agent那么它将有若干个可选的行动空间假设一张图中有20个元素每个元素在视觉上有多种可选的行动空间由其组合成的可选行动空间非常庞大我们有很多trick可以解决这一问题比如在空间上只允许在有限范围内进行变动且行动方向有序即状态有序行动有限。下一步是如何衡量结果的好坏图像的评估相对比较主观主要可以从美学和效果两方面来评估。美学角度可以包括是否对齐、色系搭配是否合理、有无遮挡这些较低级别的判断标准以及较高级的比如风格是否一致是否切合主题从效果上产品投放后是否会在点击率等方面实现提升最后将多个指标形成对应权重并形成多个DeepLR联合模型但在衡量结果之前需要形成像素级别可见的图这里有以下几种构造器分类包括临摹、迁移、创造、搭配与生成前面介绍了如何通过用户的需求形成可见的图后续还需要进行投放和反馈并进行优化形成效用外循环这样才能使得系统效用不断得到提升形成一个在线闭环这也是智能设计相对设计师的一大优势从技术角度来说鹿班可以满足海量无选择客户的需求相信在未来可以做到“所想即所见”。节目的最后撒贝宁、韩雪、鲁白纷纷为鹿班站台鹿班也因此成功入选 “2018智能先锋”。