Stable Diffusion 3：80亿参数！效果比肩Midjoyrney，文本理解更强！

2024-02-23码农

项目简介

2月23日，Stability.ai在其官网发布了Stable Diffusion 3。

相较于之前的版本Stable Diffusion 2，Stable Diffusion 3在文本理解、色调饱和度、构图、分辨率、类型、纹理以及对比度等多个方面实现了显著改进，其性能可以与闭源模型Midjourney相媲美。

该版本的模型参数范围从8亿到80亿不等，这表明Stable Diffusion 3可能主要针对移动设备而设计，从而确保在降低AI算力消耗的同时提高推理速度。

目前，Stable Diffusion 3已经开放申请使用，并计划在未来进一步扩展其测试用户群体。

申请链接在文章底部

扫码加入交流群

获得更多技术支持和交流

Flow Matching简介

当前，许多生成图像的模型采用的是CNF（连续正规化流）的训练方法，这主要涉及利用常微分方程来模拟流动，以便平滑地将一个已知的分布映射到目标分布上。

然而，这种方法的缺点在于，训练过程中需要模拟大量的微分方程，这不仅会增加计算成本，也使得模型设计变得更加复杂，同时还降低了模型的可解释性。

相对于CNF，FM方法选择放弃直接模拟微分方程，转而通过回归分析来固定条件概率轨迹，从而实现无需模拟的训练过程。研究人员提出了结合条件概率分布和向量场的概念，通过整合边缘分布，建立了全面的目标概率轨迹与向量场，这样就能在不影响梯度计算的情况下去除模拟过程。

1）条件概率路径构建：FM需要给出一个目标概率路径,该路径从简单分布演变到逼近数据分布。然后利用条件概率路径构建了目标路径,这样每个样本有一个对应的条件路径。

2）变换层：构成FM的基本单元，每个变换层都是可逆的。这意味着从输入到输出的每一步映射都可以精确地反转，从而允许从目标分布反推到原始分布。

3）耦合层：将输入分成两部分，对其中一部分应用变换，而变换函数可以是任意的神经网络，其参数由另一部分决定，保证了变换的可逆性。

如今，FM技术因其独特的特性和效率，在多个领域得到了广泛的应用，包括图像生成和超分辨率、图像理解、图像修复和填充、条件图像生成、图像风格转换和合成以及视频处理等。

示例

教室桌子上有一个红苹果，电影风格，背景的黑板上用粉笔写着「要么做大，要么回家」

一名宇航员骑着一只穿着蓬蓬裙的猪，撑着一把粉色的伞，猪旁边的地上有一只戴着高帽的知更鸟，角落里写着" Stable Diffusion "的字样。

一只变色龙，黑色背景，摄影风格。

一辆跑车的夜间照片，侧面写有「SD3」字样，汽车在赛道上高速行驶，巨大的路标上写着「更快」的文字。

波浪冲击苏格兰灯塔的鱼眼镜头照片，黑色波浪。

申请地址

https://stability.ai/stablediffusion3

关注「开源AI项目落地」公众号