Translations:Diffusion Models Are Real-Time Game Engines/50/zh

    From Marovi AI
    Revision as of 00:25, 9 September 2024 by Felipefelixarias (talk | contribs) (Created page with "我们使用 Stable Diffusion 1.4 的预训练检查点训练所有仿真模型,解冻所有 U-Net 参数。我们使用的批量大小为 128,恒定学习率为 2e-5,采用无权重衰减的 Adafactor 优化器(Shazeer & Stern,[https://arxiv.org/html/2408.14837v1#bib.bib31 2018]),以及梯度剪切为 1.0。我们将扩散损失参数化更改为 v预测(Salimans & Ho [https://arxiv.org/html/2408.14837v1#bib.bib28 2022a])。我们以 0.1 的概率去...")
    (diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

    我們使用 Stable Diffusion 1.4 的預訓練檢查點訓練所有仿真模型,解凍所有 U-Net 參數。我們使用的批量大小為 128,恆定學習率為 2e-5,採用無權重衰減的 Adafactor 優化器(Shazeer & Stern,2018),以及梯度剪切為 1.0。我們將擴散損失參數化更改為 v預測(Salimans & Ho 2022a)。我們以 0.1 的概率去掉上下文幀條件,以便在推理過程中使用 CFG。我們使用 128 台 TPU-v5e 設備進行數據並行化訓練。除非另有說明,本文中的所有結果均為 700,000 步訓練後的結果。對於噪聲增強(第3.2.1節),我們使用的最大噪聲水平為 0.7,並設有 10 個嵌入桶。在優化潛在解碼器時,我們使用的批次大小為 2,048;其他訓練參數與去噪器的參數相同。在訓練數據方面,除非另有說明,我們使用了代理在強化學習訓練期間的所有軌跡以及訓練期間的評估數據。總體而言,我們生成了 9 億幀用於訓練。所有圖像幀(在訓練、推理和條件期間)的解析度均為 320x240,並填充為 320x256。我們使用的上下文長度為 64(即向模型提供其自身的最後 64 次預測以及最後 64 次操作)。