計畫簡介
Playground v2.5提供先進的文本到影像生成模型。這個模型利用了擴散技術,專註於創造高美感的影像,分辨率1024x1024。它在使用者研究中表現出色,表明模型優於 SDXL、Playground v2、PixArt-α、DALL-E 3 和 Midjourney 5.2。相比較於v2.0,在美學品質,顏色和對比度,多尺度生成以及以人為中心的細節處理有比較大的提升。
掃碼加入交流群
獲得更多技術支持和交流
效果展示
試用連結在文章底部
模型對比
Playground v2.5 的審美品質顯著優於當前最先進的開源模型 SDXL 和 PIXART-α,以及 Playground v2。因為 Playground V2.5 與 SDXL 之間的效能差異如此之大,還測試了我們的審美品質與世界級閉源模型,如 DALL-E 3 和 Midjourney 5.2,發現 Playground v2.5 也超過了它們。
同樣,對於多個寬高比,Playground v2.5的表現大大超過了 SDXL。
與人物相關的影像上的人類偏好對齊
MJHQ-30K基準測試
Playground v2.5 在整體 FID 和所有類別 FID 方面均優於 Playground v2 和 SDXL,尤其是在人物和時尚類別中。這與使用者研究的結果一致,表明人類偏好與 MJHQ-30K 基準的 FID 分數之間存在相關性。
將模型與擴散器一起使用
安裝 diffusers >= 0.27.0 及相關依賴項。目前,你需要從 GitHub 的主 diffusers 分支安裝,直到新版本在 PyPi 釋出。
pip install git+https://github.com/huggingface/diffusers.git
pip install transformers accelerate safetensors
備註:
1. 管道預設使用 EDMDPMSolverMultistepScheduler 排程器,以獲得更清晰的細節效果。這是 DPM++ 2M Karras 排程器的 EDM 表述。對於這個排程器,guidance_scale=3.0 是一個好的預設值。
2. 管道還支持 EDMEulerScheduler 排程器。這是歐拉排程器的 EDM 表述。對於這個排程器,guidance_scale=5.0 是一個好的預設值。
然後,執行以下程式碼片段:
from diffusers import DiffusionPipeline
import torch
pipe = DiffusionPipeline.from_pretrained(
"playgroundai/playground-v2.5-1024px-aesthetic",
torch_dtype=torch.float16,
variant="fp16",
).to("cuda")
# # Optional: Use DPM++ 2M Karras scheduler for crisper fine details
# from diffusers import EDMDPMSolverMultistepScheduler
# pipe.scheduler = EDMDPMSolverMultistepScheduler()
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt=prompt, num_inference_steps=50, guidance_scale=3).images[0]
計畫連結
https://huggingface.co/playgroundai/playground-v2.5-1024px-aesthetic
關註「 開源AI計畫落地 」公眾號