Translations:Diffusion Models Are Real-Time Game Engines/28/zh

我们重新利用预训练的文本到图像扩散模型 Stable Diffusion v1.4（Rombach 等人，2022）。我们将模型 $f_{\theta }$ 置于轨迹 $T\sim {\mathcal {T}}_{agent}$ 的条件下，即在之前的动作 $a_{<n}$ 和观察（帧） $o_{<n}$ 的序列条件下，并移除所有文本条件。具体来说，为了以动作为条件，我们仅需学习将每个动作（例如按下特定按键）嵌入为单个标记的 $A_{emb}$ ，并将文本的交叉注意力替换为该编码动作序列。为了对观察（即之前的帧）进行条件化，我们使用自动编码器 $\phi$ 将它们编码到潜在空间中，并在潜在通道维度中将它们串联到噪声潜在空间中（见图 3）。我们还尝试通过交叉注意力对这些过去的观察进行条件化，但没有观察到有意义的改进。