如此简单!开源图片编辑新神器MagicQuill

AI百科4个月前发布 快创云
55 0

  图片编辑是一个实用且需求多样的领域,它尤其强调操作的简便性。在此,我们介绍一款名为MagicQuill的综合图片编辑系统,该系统能帮助用户迅速实现创意。其设计了一个简洁而功能强大的界面,使用户只需寥寥几笔,即可表达创意,如插入元素、擦除物体、改变颜色等。系统利用一个多模态大语言模型(MLLM),实时分析用户的操作意图,从而省去了输入复杂指令的麻烦。

  总结而言,交互式图片编辑系统MagicQuill成功解决了精准、高效编辑的难题。这得益于“编辑处理器”、“绘画助手”和“灵感收集器”三大功能的结合。用户只需通过添加、删除和上色三种简单直观的笔触,即可轻松编辑图片。系统通过多模态大语言模型(MLLM)动态预测用户的操作意图,并给出相应的编辑建议。

技术原理

  该系统框架包含三大核心:双分支架构的编辑处理器,实现可控图像修补;实时预测用户意图的绘画助手,提供智能辅助;多功能灵感收集器,配备灵活画笔,满足多样需求,助力用户以简单直观的方式精准编辑图片。

  数据处理流程通过卷积神经网络(CNN)提取边缘并简化颜色,结合用户操作生成三种编辑条件——编辑掩膜(定义修改区域)、条件(提供参考信息)、颜色条件(指导颜色调整),三者协同实现精准图片编辑。

  编辑处理器基于潜变量扩散模型的UNet架构,新增修补分支(智能填充缺失区域)和控制分支(确保画笔操作精准影响图像结构),实现更精确智能的基于画笔的图片编辑。

  数据集构建流程基于DCI数据集,提取原始图片生成边缘图,选取边缘密集区域作为精选掩膜,并在掩膜区域应用BrushNet修补生成修补结果,最后叠加边缘图形成最终图片,模拟用户手绘编辑场景,掩膜边界框和标签直接继承自DCI数据集。

实际效果

  添加画笔:根据提示添加细节和元素,用您自己生动的笔触表达想法!(例如:“为美丽的女士佩戴项链”)

  减法笔刷:根据提示去除多余的细节或重新绘制区域。如果您对任何内容不满意,只需将其减去即可!(例如:“我们把骷髅先生的帽子摘下来,帮他降温吧。”)

  结合加减画笔创造惊人组合效果!(例如:“让我们给这位帅哥一条新领带吧!”)

  彩色画笔:精确为图像着色,以匹配您的笔触颜色。(例如:“精确的颜色突出显示——准确地在您想要着色的位置进行绘画”)

  看图猜图:画笔超级聪明!看看下面的例子,一旦你画完,它就会很快猜出你想要画什么,并为你填写提示~不过有时它可能会猜错,所以你可以随时告诉它你到底想画什么。(例如:“糟糕!我不想画藤蔓,我想画一条路!”)

  欢迎交流~让我们一起探索AI的奥秘!

© 版权声明

相关文章