本文将带您深入了解即梦AI图片工具的最新进展,特别是其v2.1版本在文字图片生成能力上的突破。通过对即梦AI图片模型的测试和分析,探讨了这一技术进步如何拓展AI图片应用的场景,并预测了AI图片工具平台的未来发展。
之前看到过几款海外的AI图片工具,比如Recaf、ideogram。通过输入文字,在图片上增加艺术字,或者生成融入画面的字,同时会利用图片生成AI补足画面的内容。整体上效果还挺好,只可惜,不能生成中文的,导致完全不能用上这个能力。但是最近看到即梦推出了v2.1,满足了我这个想法。于是便研究一二,与各位大大讲讲我的分析。
我们先简单谈谈,即梦的这个新版本图片生成模型是什么?该能力可以在【图片生成】-【生图模型】上面进行选择。官方对其的描述是“稳定的结构和更强的影视质感,支持生成中、英文文字”。以下是俺的测试结果,会分为“低”、“中”、“高”多个难度档位进行测试,难度的提升以“主体数量”、“文本内容数量”、“细节描述丰富度”为大致的边界。同时,测试的方向会分为“写实照片”、“电商海报”、“电影海报”、“黑白漫画”、“二次元卡通”这几个俺能想到的场景。
1)低难度:提示词:一个男人拿着牌匾,站在办公楼门口,牌匾上写着“不干了”。
2)中难度:提示词:写实照片风格。一个男人拿着牌匾,站在办公楼门口,牌匾上写着书法字体的“不干了”。这个男人脸上是愤怒的表情。他的背后是站着他的老板,表情愤怒。办公楼门槛上写着公司名字“人力电池无限公司”。
3)高难度:提示词:写实照片风格。一个男人拿着牌匾,站在办公楼门口,牌匾上写着书法字体的“不干了”。男人要上挎着个喇叭。这个男人脸上是愤怒的表情。他的背后是站着他的老板,表情愤怒。办公楼门槛上写着公司名字“人力电池无限公司”。男人的前面站着一群围观的人群。图片的右下角写上日期“2024-10-10”。
问题小结:1.当中难度的提示词多的时候,对于画风和字体内容的指令执行不到位,存在不准确的情况。2.中高难度下,部分文字内容展示不正确,比如“不干了”前面会加其他词、“人力电池无限公司”有时候会多一个字……。3.高难度下,对于有位置要求的文字摆放不正确。
低难度:提示词:这是一张电商海报,需要在海报中增加标题。海报标题:“新品上市”海报主体:热干面
中难度:提示词:这是一张电商海报,需要在海报中增加标题。海报画风:写实画风 海报标题:“新品上市”海报主体:热干面背景要求:热干面放在一张桌子上底部小字:又香又辣
高难度:提示词:这是一张电商海报,需要在海报中增加标题。海报画风:写实画风 海报标题:“新品上市” 海报主体:热干面 背景要求:热干面放在一张桌子上 底部小字:又香又辣 底部字体样式:红底白字
问题小结:1.会在生成的字体附近添加上一些无意义的符号或者内容不明确的文本内容。需要人工二次处理清理干净。低难度:提示词:这是一张电影海报,需要在海报中增加标题。海报画风:写实画风 海报标题:“职场求生” 海报主体:打工人一个人在深夜的办公室
中难度:提示词:这是一张电影海报,需要在海报中增加标题。海报画风:写实画风 海报标题:“职场求生” 海报内容:打工人一个人在深夜的办公室,背后是一排开着的电脑 底部小字:10月上映
高难度:提示词:这是一张电影海报,需要在海报中增加标题。海报画风:写实画风 海报标题:“职场求生” 标题要求:超大字体,包围着打工人 海报内容:打工人一个人在深夜的办公室,背后是一排开着的电脑,灯光黑暗 底部小字:10月上映
问题小结:1.同样会生成一些不干不净的文本内容。低难度:提示词:这是一张黑白漫画。讲述的是男人在职场被辱骂的场景。男人头上有个聊天气泡,内容是“对不起!”
中难度:提示词:这是一张黑白漫画。讲述的是男人在职场被辱骂的场景。男人在低着头向上司道歉,脸上惊恐万分。右边是领导,伸着手指在辱骂男的。男人头上有个聊天气泡,内容是“对不起!”领导头上有个聊天气泡,内容是“干不了给我滚蛋!”
高难度:提示词:这是一张黑白漫画。讲述的是男人在职场被辱骂的场景。画面里面有4格分镜……问题小结:1.同样会生成一些不干不净的文本内容。2.字存在“部分小瑕疵”、“字写错”的问题,字体格式不够规整。3.文本位置不正确……低难度:提示词:这是一张二次元海报。海报主体是一个二次元少女。海报标题上写着“AI校园”。
中难度:提示词:这是一张二次元海报。海报主体是一个二次元少女,二次元少女穿着校服。旁边站着一个男生深情地看着她。海报标题上写着“AI校园”。下方有一行小字“开心上学”。
高难度:提示词:这是一张二次元海报……问题小结……此外,即梦提供了“图片参考”能力……整体测试下来……可以总结出其优点有……而其缺点有……如果按是否有文字对图片进行划分……我们可以得到两个类型……因此……即梦抢占图片AI工具市场的野心……虽然还无法完全覆盖所有“文字图片制作”场景……虽然还有不少文字生成的细节问题……但是这些问题必定会随着后续的版本更新而被解决……个人觉得……因此……而就好像《浅谈AI视频厂商都在卷的拓展能力》中提到的“点、线、面”概念一样……图片AI工具也同样适用于“点、线、面”的分层逻辑……这些能力在豆包、百度、星流等图片AI平台上都有出现……目前各大主流的AI图片工具平台……所以……为了保证能满足从“灵感”到“成品”的制作辅助……所以……2.图片制作需求的“线”……当图片制作的单“点”能力积累到一定量级时……目前常见的“线”的形式有……工作流的成立的前提条件是“业务流程高度重复且标准化”……目前较为知名的工作流工具就是comfyui……一些AI图片工具平台也开始出现了“工作流”能力……3)生成式AI:……在以往……但如今……虽然目前v2.1还不是很成熟……但是随着AI模型的持续成长……整体上讲……即梦的v2.1图片生成模型意味着其对“AI图片”能力应用场景的拓展……意味着其从“单点需求满足”到“单线需求满足”的提升……。虽然在目前v2.1还存在不少问题……,但是如果随着后续版本的迭代……,这些问题被逐一解决……,且稳定持续构建AI工具能力的“点-线-面”……即梦将会在“图片AI工具领域”领先其他竞品一大截。