我们重新利用预训练的文本到图像扩散模型 Stable Diffusion v1.4(Rombach 等人,2022)。我们将模型 f θ {\displaystyle f_{\theta }} 置于轨迹 T ∼ T a g e n t {\displaystyle T\sim {\mathcal {T}}_{agent}} 的条件下,即在之前的动作 a < n {\displaystyle a_{<n}} 和观察(帧) o < n {\displaystyle o_{<n}} 的序列条件下,并移除所有文本条件。具体来说,为了以动作为条件,我们仅需学习将每个动作(例如按下特定按键)嵌入为单个标记的 A e m b {\displaystyle A_{emb}} ,并将文本的交叉注意力替换为该编码动作序列。为了对观察(即之前的帧)进行条件化,我们使用自动编码器 ϕ {\displaystyle \phi } 将它们编码到潜在空间中,并在潜在通道维度中将它们串联到噪声潜在空间中(见图 3)。我们还尝试通过交叉注意力对这些过去的观察进行条件化,但没有观察到有意义的改进。