项目简介
Playground v2.5提供先进的文本到图像生成模型。这个模型利用了扩散技术,专注于创造高美感的图像,分辨率1024x1024。它在用户研究中表现出色,表明模型优于 SDXL、Playground v2、PixArt-α、DALL-E 3 和 Midjourney 5.2。相比较于v2.0,在美学质量,颜色和对比度,多尺度生成以及以人为中心的细节处理有比较大的提升。
扫码加入交流群
获得更多技术支持和交流
效果展示
试用链接在文章底部
模型对比
Playground v2.5 的审美质量显著优于当前最先进的开源模型 SDXL 和 PIXART-α,以及 Playground v2。因为 Playground V2.5 与 SDXL 之间的性能差异如此之大,还测试了我们的审美质量与世界级闭源模型,如 DALL-E 3 和 Midjourney 5.2,发现 Playground v2.5 也超过了它们。
同样,对于多个宽高比,Playground v2.5的表现大大超过了 SDXL。
与人物相关的图像上的人类偏好对齐
MJHQ-30K基准测试
Playground v2.5 在整体 FID 和所有类别 FID 方面均优于 Playground v2 和 SDXL,尤其是在人物和时尚类别中。这与用户研究的结果一致,表明人类偏好与 MJHQ-30K 基准的 FID 分数之间存在相关性。
将模型与扩散器一起使用
安装 diffusers >= 0.27.0 及相关依赖项。目前,你需要从 GitHub 的主 diffusers 分支安装,直到新版本在 PyPi 发布。
pip install git+https://github.com/huggingface/diffusers.git
pip install transformers accelerate safetensors
备注:
1. 管道默认使用 EDMDPMSolverMultistepScheduler 调度器,以获得更清晰的细节效果。这是 DPM++ 2M Karras 调度器的 EDM 表述。对于这个调度器,guidance_scale=3.0 是一个好的默认值。
2. 管道还支持 EDMEulerScheduler 调度器。这是欧拉调度器的 EDM 表述。对于这个调度器,guidance_scale=5.0 是一个好的默认值。
然后,运行以下代码片段:
from diffusers import DiffusionPipeline
import torch
pipe = DiffusionPipeline.from_pretrained(
"playgroundai/playground-v2.5-1024px-aesthetic",
torch_dtype=torch.float16,
variant="fp16",
).to("cuda")
# # Optional: Use DPM++ 2M Karras scheduler for crisper fine details
# from diffusers import EDMDPMSolverMultistepScheduler
# pipe.scheduler = EDMDPMSolverMultistepScheduler()
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt=prompt, num_inference_steps=50, guidance_scale=3).images[0]
项目链接
https://huggingface.co/playgroundai/playground-v2.5-1024px-aesthetic
关注「 开源AI项目落地 」公众号