HuggingFace diffusers轻量快速推理引擎stable-fast上线

2023-10-19 14:10
摘要:不久前,HuggingFace 的 diffusers 轻量快速推理引擎已经在GitHub上发布。这个引擎通过一系列小幅改进,已经实现了显著提高推理速度的目标,宣称每秒可达到60步,较之前的23步有了显著提升。在自然语言处理任务中,..

不久前,HuggingFace 的 diffusers 轻量快速推理引擎已经在GitHub上发布。这个引擎通过一系列小幅改进,已经实现了显著提高推理速度的目标,宣称每秒可达到60步,较之前的23步有了显著提升。在自然语言处理任务中,这一引擎表现出色,赢得了众多开发者的青睐。

目前,stable-fast处于测试阶段,可能存在一些问题,但它承诺为深度学习爱好者带来颠覆性的变革。

项目地址:https://github.com/chengzeyi/stable-fast

stable-fast的设计目标是优化HuggingFace Diffusers在NVIDIA GPU上的推理。它利用一组强大的技术来确保高效的性能。其中一个显著特点是CUDNN卷积融合,它能够实现卷积、偏差、加法和激活计算模式的无缝融合。这确保了您的模型运行尽可能高效。

另一个显著特点是实现了低精度和融合的GEMM。通过在计算时使用fp16精度,同时在fp16下读写,stable-fast超越了PyTorch的默认性能。该库还擅长实现NHWC和融合GroupNorm,借助OpenAI的triton,提供了高度优化的融合NHWC GroupNorm + GELU操作符,消除了内存格式排列操作的需求,进一步提高了效率。

图源备注:图片由AI生成,图片授权服务商Midjourney

此外,stable-fast引入了完全跟踪模型的概念。它改进了torch.jit.trace接口,以使其更适合跟踪复杂模型。几乎可以跟踪和转换StableDiffusionPipeline的每个部分为TorchScript。它比torch.compile更稳定,CPU开销明显更低,并支持ControlNet和LoRA。

它还引入了融合多头注意力,使其与TorchScript兼容。与其他加速库相比,stable-fast的卓越速度是其独特之处,尤其在针对HuggingFace Diffusers进行优化时。此性能比较显示了其卓越的性能。作为PyTorch的极简主义插件框架,它无缝集成了现有的PyTorch功能和基础设施,同时支持各种加速和微调技术。总之,stable-fast准备为深度学习从业者的推理优化带来***性的速度和效率。

更新于:2023-10-19 14:10