Translations:Diffusion Models Are Real-Time Game Engines/85/zh

    From Marovi AI

    有幾項研究試圖利用動作輸入來訓練遊戲仿真模型。Yang 等人(2023)建立了一個包含真實世界和模擬視頻的多樣化數據集,並訓練了一個擴散模型,根據前一個視頻片段和動作的文字描述來預測後續視頻。Menapace 等人(2021)和 Bruce 等人(2024)專注於從視頻中無監督地學習動作。Menapace 等人(2024)將文本提示轉換為遊戲狀態,然後使用 NeRF 將其轉換為三維表示。與這些研究不同,我們專注於「交互式可玩實時仿真」,並展示了長時間跨度軌跡的魯棒性。我們利用強化學習代理探索遊戲環境,並創建觀察和交互的軌跡以訓練我們的交互式遊戲模型。另一項研究探索了學習環境的預測模型,並將其用於訓練強化學習代理。Ha 和 Schmidhuber(2018)訓練了變分自動編碼器(Kingma & Welling,2014),將遊戲幀編碼為潛在向量,然後使用 RNN 模擬 VizDoom 遊戲環境,從隨機策略(即隨機選擇動作)的隨機軌跡中進行訓練。然後通過在「虛構」環境中進行遊戲來學習控制器策略。Hafner 等人(2020)證明,強化學習代理可以完全在由潛在空間中的學習世界模型生成的情節上進行訓練。與我們的工作也接近的是 Kim 等人(2020),他們使用 LSTM 架構來建模世界狀態,同時結合卷積解碼器生成輸出幀,並在對抗性目標下聯合訓練。雖然這種方法對《吃豆人》等簡單遊戲似乎給出了合理的結果,但在模擬 VizDoom 的複雜環境時會產生模糊樣本。相比之下,GameNGen 能夠生成與原始遊戲相當的樣本;見圖 2。最後,與我們的工作同步進行的還有 Alonso 等人(2024)訓練的擴散世界模型,該模型可根據觀察歷史預測下一步觀察,並在雅達利遊戲上迭代訓練世界模型和強化學習模型。