Translations:Diffusion Models Are Real-Time Game Engines/43/zh

    From Marovi AI

    僅使用 4 個去噪步驟導致 U-Net 總耗時為 40 毫秒(包括自動編碼器的推理總耗時為 50 毫秒),即每秒 20 幀。我們推測,在我們的案例中,較少步驟對質量影響可忽略不計,是由於以下因素的結合:(1) 受限的圖像空間,以及 (2) 前一幀的強條件作用。