速度提高200倍!DeepMind推新的微调扩散模型方法DRaFT
文章概要:
- DRaFT通过反向传播整个采样链条来实现基于梯度的奖励微调。
- 提出DRaFT-K和DRaFT-LV两种变体,通过截断梯度和多样本平均降低方差,提高效率。
- 在Stable Diffusion1.4上应用DRaFT,相比强化学习方法提高200倍的速度。
扩散模型彻底改变了各种数据类型的生成建模。然而,在实际应用中,例如从文本描述生成美观的图像,通常需要微调。文本到图像扩散模型采用无分类器指导和 LAION Aesthetics 等精选数据集等技术来提高对齐和图像质量。
谷歌DeepMind的研究人员最近在一项研究中提出了一种基于梯度的奖励微调的简单而有效的方法,其中涉及通过扩散采样过程进行区分。他们引入了直接奖励微调 (DRaFT) 的概念,该概念本质上是通过整个采样链进行反向传播,通常表示为长度为50步的展开计算图。为了有效管理内存和计算成本,他们采用梯度检查点技术并优化 LoRA 权重,而不是修改整套模型参数。
上图展示了使用人类偏好奖励模型的 DRaFT。此外,作者还对 DRaFT 方法进行了增强,以提高其效率和性能。首先,他们提出了 DRaFT-K,这是一种在计算微调梯度时将反向传播限制为采样的最后 K 步的变体。经验结果表明,在相同数量的训练步骤下,这种截断梯度方法的性能明显优于完全反向传播,因为完全反向传播可能会导致梯度爆炸的问题。
此外,作者还介绍了 DRaFT-LV,它是 DRaFT-1的一种变体,它通过对多个噪声样本进行平均来计算低方差梯度估计,从而进一步提高了其方法的效率。
研究人员在Stable Diffusion1.4模型上应用了DRaFT方法,使用各种奖励函数和提示进行评估。与基于强化学习的微调baseline相比,他们的梯度方法效率提高了200倍以上。
DRaFT-LV 是他们提出的变体之一,表现出卓越的效率,学习速度大约是 ReFL(一种先前的基于梯度的微调方法)的两倍。此外,他们通过将 DRaFT 模型与预训练模型相结合或插值,展示了 DRaFT 的多功能性,这可以通过混合或缩放调整 LoRA 权重来实现。
研究显示,直接对可微分奖励进行扩散模型微调,是提高生成建模技术的一种有前景的途径。DRaFT方法的效率、通用性和有效性,使其成为这个领域研究者和从业者的有价值工具。
论文网址:https://arxiv.org/abs/2309.17400
更新于:2023-10-09 12:34