Translations:Diffusion Models Are Real-Time Game Engines/50/zh

我們使用 Stable Diffusion 1.4 的預訓練檢查點訓練所有仿真模型，解凍所有 U-Net 參數。我們使用的批量大小為 128，恆定學習率為 2e-5，採用無權重衰減的 Adafactor 優化器（Shazeer & Stern，2018），以及梯度剪切為 1.0。我們將擴散損失參數化更改為 v預測（Salimans & Ho 2022a）。我們以 0.1 的概率去掉上下文幀條件，以便在推理過程中使用 CFG。我們使用 128 台 TPU-v5e 設備進行數據並行化訓練。除非另有說明，本文中的所有結果均為 700,000 步訓練後的結果。對於噪聲增強（第3.2.1節），我們使用的最大噪聲水平為 0.7，並設有 10 個嵌入桶。在優化潛在解碼器時，我們使用的批次大小為 2,048；其他訓練參數與去噪器的參數相同。在訓練數據方面，除非另有說明，我們使用了代理在強化學習訓練期間的所有軌跡以及訓練期間的評估數據。總體而言，我們生成了 9 億幀用於訓練。所有圖像幀（在訓練、推理和條件期間）的解像度均為 320x240，並填充為 320x256。我們使用的上下文長度為 64（即向模型提供其自身的最後 64 次預測以及最後 64 次操作）。