Translations:Diffusion Models Are Real-Time Game Engines/43/zh

僅使用 4 個去噪步驟導致 U-Net 總耗時為 40 毫秒（包括自動編碼器的推理總耗時為 50 毫秒），即每秒 20 幀。我們推測，在我們的案例中，較少步驟對質量影響可忽略不計，是由於以下因素的結合：(1) 受限的圖像空間，以及 (2) 前一幀的強條件作用。