Translations:Diffusion Models Are Real-Time Game Engines/42/zh

在推理过程中，我们需要运行 U-Net 去噪器（进行若干步）和自动编码器。在我们的硬件配置（TPU-v5）下，一次去噪步骤和自动编码器的评估各需 10 毫秒。如果我们以单步去噪器运行模型，设置中的最小总延迟为每帧 20 毫秒，即每秒 50 帧。通常情况下，生成扩散模型（如 Stable Diffusion）通过单次去噪步骤无法产生高质量结果，而是需要数十个采样步骤才能生成高质量图像。令人惊讶的是，我们发现只需 4 个 DDIM 采样步骤，就能稳健地模拟 DOOM（Song 等人，2020）。实际上，我们观察到使用 4 步采样与使用 20 步或更多步采样相比，模拟质量没有下降（见附录 A.4）。