創新！騰訊、北大、清華、港大聯合開源BrushEdit，透過提示詞AI自動完美修改編輯圖片。

2024-12-25碼農

今天給大家推薦的開源計畫，是由北京大學、騰訊、中國香港大學、清華大學聯合釋出的。

BrushEdit是"BrushEdit: All-In-One Image Inpainting and Editing"這篇論文的官方實作。

主要功能是透過提示詞來編輯圖片內容。

BrushEdit用了多模態大模型的能力來理解使用者的指令，透過雙分支修復模型實作了對影像的精細編輯。

雙分支修復模型還是有必要解釋下：

將影像修復任務分解為兩個並列處理的分支：一個分支負責提取和保留遮罩區域的特征，另一個分支則利用預訓練的擴散模型來生成或修復遮罩區域的內容，從而實作高品質的影像修復和編輯，同時保持背景的連貫性和自然性。

掃碼加入AI交流群

獲得更多技術支持和交流

（請註明自己的職業）

計畫簡介

BrushEdit是一個創新的互動式影像編輯框架，它結合了語言模型和修復技術，使使用者能夠透過自然語言指令進行無縫編輯。該框架利用預訓練的多模態大型語言模型和雙分支修復網路架構，實作添加物體、移除元素或進行結構性更改等多樣化編輯。它支持自由形式的指令編輯，允許使用者以互動式方式進行多輪編輯以達到滿意的結果。

DEMO

實作流程

1.使用者輸入指令：

使用者輸入一個自然語言編輯指令，例如「在頭上添加一個花環」。

系統使用預訓練的多模態大型語言模型（MLLMs）來解析指令，確定編輯的型別（如添加、移除、局部編輯、背景編輯）。

2.目標辨識：

根據編輯型別，系統辨識並確定需要編輯的主要物件，例如「花環」。

3.編輯掩碼和目標說明獲取：

系統利用預訓練的目標檢測模型生成編輯掩碼，確定編輯區域。

MLLMs結合編輯型別、目標物件和源影像來生成編輯後影像的目標描述。

4.影像修復：

使用雙分支修復模型BrushNet，根據目標描述和編輯掩碼執行實際的影像編輯。