当前位置: 欣欣网 > 码农

Stable Diffusion 3:80亿参数!效果比肩Midjoyrney,文本理解更强!

2024-02-23码农

项目简介

2月23日,Stability.ai在其官网发布了Stable Diffusion 3。

相较于之前的版本Stable Diffusion 2,Stable Diffusion 3在文本理解、色调饱和度、构图、分辨率、类型、纹理以及对比度等多个方面实现了显著改进,其性能可以与闭源模型Midjourney相媲美。

该版本的模型参数范围从8亿到80亿不等,这表明Stable Diffusion 3可能主要针对移动设备而设计,从而确保在降低AI算力消耗的同时提高推理速度。

目前,Stable Diffusion 3已经开放申请使用,并计划在未来进一步扩展其测试用户群体。

申请链接在文章底部

扫码加入交流群

获得更多技术支持和交流

Flow Matching简介

当前,许多生成图像的模型采用的是CNF(连续正规化流)的训练方法,这主要涉及利用常微分方程来模拟流动,以便平滑地将一个已知的分布映射到目标分布上。

然而,这种方法的缺点在于,训练过程中需要模拟大量的微分方程,这不仅会增加计算成本,也使得模型设计变得更加复杂,同时还降低了模型的可解释性。

相对于CNF,FM方法选择放弃直接模拟微分方程,转而通过回归分析来固定条件概率轨迹,从而实现无需模拟的训练过程。研究人员提出了结合条件概率分布和向量场的概念,通过整合边缘分布,建立了全面的目标概率轨迹与向量场,这样就能在不影响梯度计算的情况下去除模拟过程。

1)条件概率路径构建:FM需要给出一个目标概率路径,该路径从简单分布演变到逼近数据分布。然后利用条件概率路径构建了目标路径,这样每个样本有一个对应的条件路径。

2)变换层:构成FM的基本单元,每个变换层都是可逆的。这意味着从输入到输出的每一步映射都可以精确地反转,从而允许从目标分布反推到原始分布。

3)耦合层:将输入分成两部分,对其中一部分应用变换,而变换函数可以是任意的神经网络,其参数由另一部分决定,保证了变换的可逆性。

如今,FM技术因其独特的特性和效率,在多个领域得到了广泛的应用,包括图像生成和超分辨率、图像理解、图像修复和填充、条件图像生成、图像风格转换和合成以及视频处理等。

示例

教室桌子上有一个红苹果,电影风格,背景的黑板上用粉笔写着「要么做大,要么回家」

一名宇航员骑着一只穿着蓬蓬裙的猪,撑着一把粉色的伞,猪旁边的地上有一只戴着高帽的知更鸟,角落里写着" Stable Diffusion "的字样。

一只变色龙,黑色背景,摄影风格。

一辆跑车的夜间照片,侧面写有「SD3」字样,汽车在赛道上高速行驶,巨大的路标上写着「更快」的文字。

波浪冲击苏格兰灯塔的鱼眼镜头照片,黑色波浪。

申请地址

https://stability.ai/stablediffusion3

关注「 开源AI项目落地 」公众号