當前位置: 妍妍網 > 碼農

Stable Diffusion 3:80億參數!效果比肩Midjoyrney,文本理解更強!

2024-02-23碼農

計畫簡介

2月23日,Stability.ai在其官網釋出了Stable Diffusion 3。

相較於之前的版本Stable Diffusion 2,Stable Diffusion 3在文本理解、色調飽和度、構圖、分辨率、型別、紋理以及對比度等多個方面實作了顯著改進,其效能可以與閉源模型Midjourney相媲美。

該版本的模型參數範圍從8億到80億不等,這表明Stable Diffusion 3可能主要針對行動裝置而設計,從而確保在降低AI算力消耗的同時提高推理速度。

目前,Stable Diffusion 3已經開放申請使用,並計劃在未來進一步擴充套件其測試使用者群體。

申請連結在文章底部

掃碼加入交流群

獲得更多技術支持和交流

Flow Matching簡介

當前,許多生成影像的模型采用的是CNF(連續正規化流)的訓練方法,這主要涉及利用常微分方程式來模擬流動,以便平滑地將一個已知的分布對映到目標分布上。

然而,這種方法的缺點在於,訓練過程中需要模擬大量的微分方程式,這不僅會增加計算成本,也使得模型設計變得更加復雜,同時還降低了模型的可解釋性。

相對於CNF,FM方法選擇放棄直接模擬微分方程式,轉而透過回歸分析來固定條件機率軌跡,從而實作無需模擬的訓練過程。研究人員提出了結合條件機率分布和向量場的概念,透過整合邊緣分布,建立了全面的目標機率軌跡與向量場,這樣就能在不影響梯度計算的情況下去除模擬過程。

1)條件機率路徑構建:FM需要給出一個目標機率路徑,該路徑從簡單分布演變到逼近數據分布。然後利用條件機率路徑構建了目標路徑,這樣每個樣本有一個對應的條件路徑。

2)變換層:構成FM的基本單元,每個變換層都是可逆的。這意味著從輸入到輸出的每一步對映都可以精確地反轉,從而允許從目標分布反推到原始分布。

3)耦合層:將輸入分成兩部份,對其中一部份套用變換,而變換函式可以是任意的神經網路,其參數由另一部份決定,保證了變換的可逆性。

如今,FM技術因其獨特的特性和效率,在多個領域得到了廣泛的套用,包括影像生成和超分辨率、影像理解、影像修復和填充、條件影像生成、影像風格轉換和合成以及視訊處理等。

範例

教室桌子上有一個紅蘋果,電影風格,背景的黑板上用粉筆寫著「要麽做大,要麽回家」

一名太空人騎著一只穿著蓬蓬裙的豬,撐著一把粉色的傘,豬旁邊的地上有一只戴著高帽的知更鳥,角落裏寫著" Stable Diffusion "的字樣。

一只變色龍,黑色背景,攝影風格。

一輛跑車的夜間照片,側面寫有「SD3」字樣,汽車在賽道上高速行駛,巨大的路標上寫著「更快」的文字。

波浪沖擊蘇格蘭燈塔的魚眼鏡頭照片,黑色波浪。

申請地址

https://stability.ai/stablediffusion3

關註「 開源AI計畫落地 」公眾號