Diffusion 生成式模型在GPU上的高效部署.pdf

Diffusion 生成式模型在GPU上的高效部署.pdf
这份文档主要介绍了NVIDIA针对Stable Diffusion推理优化的工作,旨在提高图像生成速度和质量。文档从生成模型的角度出发,强调了快速采样、模式覆盖/多样性和高质量样本的重要性,并指出Stable Diffusion在生成多样性和质量方面优于GANs,但需要大量的网络评估。 文档详细介绍了Stable Diffusion的推理流程,包括: 1. **ClipText编码器:** 将文本转换为token embeddings向量。 2. **U-Net + 调度器:** 逐步对信息(latent)空间进行去噪处理。 3. **自动编码器解码器:** 使用处理后的信息数组生成最终图像。 文档深入探讨了TensorRT如何处理Attention机制(自8.0版本以来),并通过Myelin来优化MHA(Multi-Head Attention)模式。 关键优化策略包括: * **利用Myelin:** 通过移除冗余的Cast节点,合并重复的Swish ops,帮助TensorRT的Myelin后端编译器识别MHA模式。 * **Attention融合:** 将Attention块转换为Fused multi-head self attention或Fused multi-head cross attention。 * **Normalization优化:** 使用GroupNorm Plugin替换原有的Normalization模式,并使用插件来优化LayerNorm。 * **小规模融合:** 将SplitGeLU和SeqLen2Spatial等小操作进行融合。 文档还介绍了DemoDiffusion项目,这是一个解耦设计和面向对象编程(OOP)风格的项目,用于演示和评估上述优化策略的效果。DemoDiffusion包括Utilities.py (提供基础工具和非深度学习相关函数) 和 Models.py (提供模型特定的 ONNX 图形优化策略)。 最后,文档提供了在不同GPU(L40, T4, A10, A30)上使用所有插件后的Benchmark结果,展示了优化后的推理性能提升。 文档指出,优化后的pipeline主要由Devtech China团队的Nikita K和Julien D开发。优化目标包括支持动态形状,图像生成最大支持1024x1024。
在线阅读 下载完整报告 | 1.44 MB | 17页
阅读和下载会消耗积分;登录、注册、邀请好友、上传报告可获取积分。
成为VIP会员可免费阅读和下载报告