instaflow:利用校正流技术加快将文本转化为图像的过程

2023-09-15 12:50
摘要:InstaFlow是一个快速、一步生成图像的模型,能够以接近Stable Diffusion的图像质量显著减少计算资源需求。这种高效率源自最近的Rectified Flow技术,它训练具有直线轨迹的概率流,因此本质上只需要一步即可进行快速..

InstaFlow是一个快速、一步生成图像的模型,能够以接近Stable Diffusion的图像质量显著减少计算资源需求。这种高效率源自最近的Rectified Flow技术,它训练具有直线轨迹的概率流,因此本质上只需要一步即可进行快速推理。

项目地址:https://github.com/gnobitab/instaflow

InstaFlow具有几个优点:

极快推理:InstaFlow模型是一步生成器,它直接将噪声映射到图像,避免了弥散模型的多步采样。 在我们的A100GPU机器上,推理时间约为0.1秒,与原始Stable Diffusion相比可节省约90%的推理时间。

高质量:InstaFlow生成具有Stable Diffusion那样复杂细节的图像,在MS COCO2014数据集上的FID与最先进的文本到图像GAN(如StyleGAN-T)相当。

简单高效的训练:InstaFlow的训练过程只涉及有监督训练。 借助预训练的Stable Diffusion,仅需199个A100GPU天即可获得InstaFlow-0.9B。

方法:用文本调整的反流整流生成概率流

流程包括三个步骤:

1. 从预训练的Stable Diffusion生成(文本,噪声,图像)三元组

2. 应用文本调整的反流生成2-Rectified Flow,这是一条整流的生成概率流。

3. 从2-Rectified Flow中迁移学习得到一步InstaFlow。 注意迁移学习和反流是正交的技术。

如视频和图像所示,直线流具有以下优点:

1. 直线流需要更少的步骤来模拟。

2. 直线流在噪声分布和图像分布之间提供了更好的耦合,因此允许成功的迁移学习。

InstaFlow的核心功能有:

- 快速一步生成

- 与Stable Diffusion相当的图像质量

- 简单高效的训练过程

- 利用文本调整的反流产生直线概率流

- 从直线流中迁移学习以实现一步生成

通过直线流和迁移学习,InstaFlow实现了快速生成高质量图像的目标,是新一代文本到图像生成模型的杰出代表。

更新于:2023-09-15 12:50