在国庆假期期间,抖音上迅速走红了一款名为“AI治愈绘本”的特效,它凭借独特而温暖的画风,以及高度还原的视觉效果,成功吸引了数百万用户的积极参与。这款特效创新性地采用了动态绘本的拟物玩法,并首次实现了3D立体翻书的形式,将用户上传的首张图片作为书皮,这一新颖玩法迅速吸引了大量用户的关注。基于该特效发起的“成为绘本里的温暖主角”话题,播放量更是突破了惊人的11亿大关。
据内部消息透露,“AI治愈绘本”特效的核心技术源自于字节跳动自主研发的豆包大模型,该模型具备强大的图像生成能力。技术团队通过一系列自研算法,显著提升了模型的风格响应度和画面美观度,使得生成的风格化效果不仅美观,而且能够高度还原人物面部特征、服装款式、颜色及配饰等细节,实现了“美且像”的双重效果。
为了进一步提升用户体验,技术团队还自主研发了主体抹除和扩图能力,对风格化结果进行后处理,使得多张结果图可以在端上进行自由切换。在这一过程中,团队应用了RealCustom和ByteEdit两项关键技术成果,这两项技术分别入选了CVPR2024和ECCV2024国际会议,展现了其在图像生成和编辑领域的卓越实力。
RealCustom技术是一种个性化定制技术,能够实现无需微调的实时定制化生成,在AI绘本中主要起到保持输入图片特征的作用。与传统的风格化特效中的图片特征保持方法相比,RealCustom不仅具备高度的细节还原能力,还具备对图片的抽象语义理解,能够根据文本输入自适应地做出变化,生成更加和谐的效果。
ByteEdit技术则专注于提升填充背景的自然和谐度。在特效中,AI扩图和AI消除能力被广泛应用。AI消除能够精准地消除图像中指定的物体或区域,并根据周围背景进行内容填充;而AI扩图则能根据指定的扩展比例延展原图像内容。这两个任务的核心都在于如何使填充内容与原图无缝衔接。为此,技术团队增大了训练数据量级,并创新性地提出了反馈学习框架,通过集成图像奖励模型来提升美学质量和图像与文本的一致性,同时引入密集的像素级奖励模型以增强输出的一致性。此外,还采用了对抗性和渐进式反馈学习策略,以加速模型的推理速度。
除了技术创新外,“AI治愈绘本”特效还充分考虑了用户体验。在支持用户上传多张图片的同时,技术团队针对多服务并行逻辑和性能加速策略进行了优化,确保在流量高峰期时也能在最短时间内将风格化结果图和后处理结果图返回给用户。在端上获取多张结果图后,依托自研的书本3D运动和阴影跟随算法,对书内各个物体的运动曲线进行自动化调整,使得书页翻动过程中阴影效果自然移动,保留了书页翻动的立体感和自然感。
近期,抖音特效团队又推出了另一款温暖治愈系的“金秋绘本风特效”,同样受到了用户的热烈欢迎。该特效的投稿量已超过百万,相关话题播放量也达到了1.8亿次。豆包大模型作为字节跳动自研的大语言模型,通过火山引擎云服务平台向企业开放服务。目前豆包模型家族已全面覆盖语言、语音、图像、视频等全模态应用,能够满足不同行业和领域的业务需求。