Translations:Diffusion Models Are Real-Time Game Engines/42/zh

在推理過程中，我們需要運行 U-Net 去噪器（進行若干步）和自動編碼器。在我們的硬件配置（TPU-v5）下，一次去噪步驟和自動編碼器的評估各需 10 毫秒。如果我們以單步去噪器運行模型，設置中的最小總延遲為每幀 20 毫秒，即每秒 50 幀。通常情況下，生成擴散模型（如 Stable Diffusion）通過單次去噪步驟無法產生高質量結果，而是需要數十個採樣步驟才能生成高質量圖像。令人驚訝的是，我們發現只需 4 個 DDIM 採樣步驟，就能穩健地模擬 DOOM（Song 等人，2020）。實際上，我們觀察到使用 4 步採樣與使用 20 步或更多步採樣相比，模擬質量沒有下降（見附錄 A.4）。