Translations:Diffusion Models Are Real-Time Game Engines/28/zh

    From Marovi AI
    Revision as of 00:21, 9 September 2024 by Felipefelixarias (talk | contribs) (Created page with "我们重新利用预训练的文本到图像扩散模型 Stable Diffusion v1.4(Rombach 等人,[https://arxiv.org/html/2408.14837v1#bib.bib26 2022])。我们将模型 <math>f_{\theta}</math> 置于轨迹 <math>T \sim \mathcal{T}_{agent}</math> 的条件下,即在之前的动作 <math>a_{< n}</math> 和观察(帧) <math>o_{< n}</math> 的序列条件下,并移除所有文本条件。具体来说,为了以动作为条件,我们仅需学习将每个动作...")
    (diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

    我們重新利用預訓練的文本到圖像擴散模型 Stable Diffusion v1.4(Rombach 等人,2022)。我們將模型 置於軌跡 的條件下,即在之前的動作 和觀察(幀) 的序列條件下,並移除所有文本條件。具體來說,為了以動作為條件,我們僅需學習將每個動作(例如按下特定按鍵)嵌入為單個標記的 ,並將文本的交叉注意力替換為該編碼動作序列。為了對觀察(即之前的幀)進行條件化,我們使用自動編碼器 將它們編碼到潛在空間中,並在潛在通道維度中將它們串聯到噪聲潛在空間中(見圖 3)。我們還嘗試通過交叉注意力對這些過去的觀察進行條件化,但沒有觀察到有意義的改進。