Translations:Diffusion Models Are Real-Time Game Engines/50/zh

我们使用 Stable Diffusion 1.4 的预训练检查点训练所有仿真模型，解冻所有 U-Net 参数。我们使用的批量大小为 128，恒定学习率为 2e-5，采用无权重衰减的 Adafactor 优化器（Shazeer & Stern，2018），以及梯度剪切为 1.0。我们将扩散损失参数化更改为 v预测（Salimans & Ho 2022a）。我们以 0.1 的概率去掉上下文帧条件，以便在推理过程中使用 CFG。我们使用 128 台 TPU-v5e 设备进行数据并行化训练。除非另有说明，本文中的所有结果均为 700,000 步训练后的结果。对于噪声增强（第3.2.1节），我们使用的最大噪声水平为 0.7，并设有 10 个嵌入桶。在优化潜在解码器时，我们使用的批次大小为 2,048；其他训练参数与去噪器的参数相同。在训练数据方面，除非另有说明，我们使用了代理在强化学习训练期间的所有轨迹以及训练期间的评估数据。总体而言，我们生成了 9 亿帧用于训练。所有图像帧（在训练、推理和条件期间）的分辨率均为 320x240，并填充为 320x256。我们使用的上下文长度为 64（即向模型提供其自身的最后 64 次预测以及最后 64 次操作）。