当前位置: 欣欣网 > 码农

创新!腾讯、北大、清华、港大联合开源BrushEdit,通过提示词AI自动完美修改编辑图片。

2024-12-25码农

今天给大家推荐的开源项目,是由北京大学、腾讯、中国香港大学、清华大学联合发布的。

BrushEdit是"BrushEdit: All-In-One Image Inpainting and Editing"这篇论文的官方实现。

主要功能是通过提示词来编辑图片内容。

BrushEdit用了多模态大模型的能力来理解用户的指令,通过双分支修复模型实现了对图像的精细编辑。

双分支修复模型还是有必要解释下:

将图像修复任务分解为两个并行处理的分支:一个分支负责提取和保留遮罩区域的特征,另一个分支则利用预训练的扩散模型来生成或修复遮罩区域的内容,从而实现高质量的图像修复和编辑,同时保持背景的连贯性和自然性。

扫码加入AI交流群

获得更多技术支持和交流

(请注明自己的职业)

项目简介

BrushEdit是一个创新的交互式图像编辑框架,它结合了语言模型和修复技术,使用户能够通过自然语言指令进行无缝编辑。该框架利用预训练的多模态大型语言模型和双分支修复网络架构,实现添加物体、移除元素或进行结构性更改等多样化编辑。它支持自由形式的指令编辑,允许用户以交互式方式进行多轮编辑以达到满意的结果。

DEMO

实现流程

1.用户输入指令:

  • 用户输入一个自然语言编辑指令,例如「在头上添加一个花环」。

  • 系统使用预训练的多模态大型语言模型(MLLMs)来解析指令,确定编辑的类型(如添加、移除、局部编辑、背景编辑)。

  • 2.目标识别:

  • 根据编辑类型,系统识别并确定需要编辑的主要对象,例如「花环」。

  • 3.编辑掩码和目标说明获取:

  • 系统利用预训练的目标检测模型生成编辑掩码,确定编辑区域。

  • MLLMs结合编辑类型、目标对象和源图像来生成编辑后图像的目标描述。

  • 4.图像修复:

  • 使用双分支修复模型BrushNet,根据目标描述和编辑掩码执行实际的图像编辑。

  • 模型的一个分支专注于背景信息的提取和保留,另一个分支负责根据文本提示生成编辑区域的前景内容。

  • 5.交互式细化:

  • 用户可以交互式地修改中间控制信息,如编辑掩码或编辑后图像的目标描述。

  • 用户可以迭代执行上述步骤,直到达到满意的编辑结果。

  • 6.输出编辑后的图像:

  • 经过一系列迭代和细化后,系统输出最终编辑后的图像,满足用户的编辑指令和视觉需求。

  • 项目链接

    https://github.com/TencentARC/BrushEdit

    关注「 开源AI项目落地 」公众号

    与AI时代更靠近一点

    关注「 AGI光年 」公众号

    获取每日最新资讯

    关注「 向量光年 」公众号

    加速全行业向AI转变