Translations:Diffusion Models Are Real-Time Game Engines/28/zh

我們重新利用預訓練的文本到圖像擴散模型 Stable Diffusion v1.4（Rombach 等人，2022）。我們將模型 $f_{\theta }$ 置於軌跡 $T\sim {\mathcal {T}}_{agent}$ 的條件下，即在之前的動作 $a_{<n}$ 和觀察（幀） $o_{<n}$ 的序列條件下，並移除所有文本條件。具體來說，為了以動作為條件，我們僅需學習將每個動作（例如按下特定按鍵）嵌入為單個標記的 $A_{emb}$ ，並將文本的交叉注意力替換為該編碼動作序列。為了對觀察（即之前的幀）進行條件化，我們使用自動編碼器 $\phi$ 將它們編碼到潛在空間中，並在潛在通道維度中將它們串聯到噪聲潛在空間中（見圖 3）。我們還嘗試通過交叉注意力對這些過去的觀察進行條件化，但沒有觀察到有意義的改進。