Translations:Diffusion Models Are Real-Time Game Engines/48/zh

    From Marovi AI

    代理模型使用 PPO(Schulman 等人,2017)進行訓練,採用簡單的 CNN 作為特徵網絡,基於 Mnih 等人(2015)的方法。在 CPU 上使用 Stable Baselines 3 基礎架構(Raffin 等人,2021)進行訓練。代理接收縮小後的幀圖像和遊戲地圖,每個分辨率為 160x120。代理還可以訪問其最近執行的 32 次動作。特徵網絡為每幅圖像計算出大小為 512 的表示。PPO 的 actor 和 critic 是基於圖像特徵網絡輸出和過去動作序列連接的兩層 MLP 頭。我們使用 Vizdoom 環境(Wydmuch 等人,2019)訓練代理來玩遊戲。我們並行運行了 8 個遊戲,每個遊戲的回放緩衝區大小為 512,折扣因子為 ,熵係數為 。在每次迭代中,我們使用批量大小為 64 的數據進行 10 個時代的訓練,學習率為 1e-4。我們總共執行了 1000 萬個環境步驟。