Translations:Diffusion Models Are Real-Time Game Engines/28/zh

    From Marovi AI
    Revision as of 00:21, 9 September 2024 by Felipefelixarias (talk | contribs) (Created page with "我们重新利用预训练的文本到图像扩散模型 Stable Diffusion v1.4(Rombach 等人,[https://arxiv.org/html/2408.14837v1#bib.bib26 2022])。我们将模型 <math>f_{\theta}</math> 置于轨迹 <math>T \sim \mathcal{T}_{agent}</math> 的条件下,即在之前的动作 <math>a_{< n}</math> 和观察(帧) <math>o_{< n}</math> 的序列条件下,并移除所有文本条件。具体来说,为了以动作为条件,我们仅需学习将每个动作...")
    (diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

    我们重新利用预训练的文本到图像扩散模型 Stable Diffusion v1.4(Rombach 等人,2022)。我们将模型 置于轨迹 的条件下,即在之前的动作 和观察(帧) 的序列条件下,并移除所有文本条件。具体来说,为了以动作为条件,我们仅需学习将每个动作(例如按下特定按键)嵌入为单个标记的 ,并将文本的交叉注意力替换为该编码动作序列。为了对观察(即之前的帧)进行条件化,我们使用自动编码器 将它们编码到潜在空间中,并在潜在通道维度中将它们串联到噪声潜在空间中(见图 3)。我们还尝试通过交叉注意力对这些过去的观察进行条件化,但没有观察到有意义的改进。