當前位置: 妍妍網 > 碼農

iPad可用AI繪畫互動編輯神器火了,網友:顫抖吧PS

2024-11-21碼農
作者:奇月
轉自:量子位 | 公眾號 QbitAI

比PS更懂你的AI圖片編輯工具—— MagicQuill (魔法羽毛)來了!

1分鐘出圖:不用打字、簡單勾畫幾筆就能編輯圖片。

還支持直接在iPad上線上編輯!

研究團隊來自香港科技大學、螞蟻集團、浙江大學和香港大學等機構。

我們先一起看個例子感受一下——

有了MagicQuill,現在當你想要給人物更換衣服時,就可以直接畫出領子,它會自動幫你補全。

加條項鏈、去除路人,幾秒鐘就搞定:

你還可以更換發色、讓人物戴上花環,甚至更改花朵的顏色:

只需要1分鐘多的時間,就可以實作上面這麽多編輯效果,尤其是對於想要快速修改照片的使用者來說,簡直太方便了!

還有更多有趣的例子,機器人、汽車、蛋糕等,都可以快速修改!

有多位網友評論說,AI影像編輯真的進步飛快,「 能讀懂使用者心思 」是非常具有未來感的使用者體驗。

甚至還有網友說,顫抖吧,PS!

MagicQuill目標是理解精細修改意圖

雖然目前AI影像編輯工具是百花齊放,但想要實作精細編輯,很多工具的效果還是比較令人捉急。

MagicQuill團隊的目標是實作一個高效且精確的影像編輯系統,能夠在使用者進行細微修改時提供更好的使用體驗。

這不僅包括實作細粒度的影像編輯控制、還要提供直觀的使用者介面、並即時預測使用者意圖。

最終團隊選擇基於擴散模型、文本和掩碼的影像編輯方法、以及多模態大型語言模型(MLLMs) 進行實作,並設計了簡約實用的使用者介面。

MagicQuill的具體構成

一起來看看MagicQuill系統的具體構成是什麽樣的。主要分為3個部份:

1.編輯處理器

編輯處理器采用 雙分支架構 ,包括 內容感知修復分支 結構引導分支

內容感知修復分支利用UNet架構,結合掩碼影像特征和預訓練的擴散網路進行像素級修復。

結構引導分支則透過ControINet插入條件控制,確保編輯操作的精確性。

2.繪畫助手

繪畫助手透過 多模態大型語言模型(MLLM) 即時預測使用者意圖。

具體的任務稱為「Draw&Guess」,也就是透過影像上下文解釋使用者筆畫並自動生成相關提示。

團隊采用的數據集透過生成邊緣圖和模擬使用者筆畫進行構建,並使用LLaMA模型進行微調。

3.創意收集器

創意收集器為使用者提供了一個簡約直觀的界面,它相容多個平台,團隊也提供了線上demo,你可以在電腦或iPad上直接使用!

界面主要包括提示區、工具列、圖層管理、主畫布、生成影像預覽區、執行按鈕和參數調整區。

按鈕設計非常簡潔,有上傳圖片、「增加」畫筆、「減少」畫筆、改顏色畫筆、橡皮等等。

下方的參數調整區域更適合有豐富的生圖經驗的專業人士:

比如在Base Model Name裏,你可以選擇不同的基礎模型,有適合生成真實風格的SD1.5/realisticVisionV60B1_v51VAE.safetensors、適合生成幻想風格的SD1.5/DreamShaper.safetensors等。

你還可以調整Negative Prompt避免生成部份內容、還有Fine Edge精細邊緣調整、Grow Size調整筆觸大小等等。完整工作流程如下圖所示。

實際效果怎樣呢?

為了更準確地測試MagicQuill的具體效果,團隊還設計了3個驗證實驗:

1.可控生成評估

將MagicQuill與四個基線方法(SmartEdit、SketchEdit、BrushNet及其組合)進行比較,評估編輯處理器的可控生成能力,尤其關註邊緣對齊和顏色保真度。

結果顯示,MagicQuill的編輯處理器在所有指標上均優於基線方法,具有更高的邊緣對齊度和顏色保真度。

2.預測準確性評估

為了評估MagicQuill在模擬手繪輸入下的 語意預測準確性 ,團隊將它的繪畫助手與三種最先進的MLLMs (LLaVA-1.5、LLaVA-Next、GPT-4o)進行了比較。

結果顯示,繪畫助手在所有測試的MLLMS中表現最佳,可以更準確地捕捉和預測使用者繪圖的語意含義。

3.創意收集器有效性評估

團隊還透過使用者研究評估了 創意收集器的效率和可用性 ,並比較了它與基線系統的差異。

使用者研究結果顯示,MagicQuill在所有評估維度上都顯著優於基線系統,包括復雜性和效率、一致性和整合、易用性以及總體滿意度4個方面。

看來體驗過的使用者反饋都不錯呢!

未來工作

團隊還表示,這將是一個長期的工作,未來他們的目標是 擴充套件系統功能 ,納入更多的 編輯型別 ,如基於參考的編輯,這將允許使用者使用外部影像指導修改。

他們還計劃實作 分層影像生成 ,可以讓編輯更加靈活、支持更多復雜合成。

系統也會支持 排版 ,能夠處理更多影像中的文本元素。

目前MagicQuill的程式碼、論文和Demo都已上線,感興趣的小夥伴可以馬上試用起來了!連結就在下方。

參考連結:https://magicquill.art/demo/