Translations:Diffusion Models Are Real-Time Game Engines/48/zh

代理模型使用 PPO（Schulman 等人，2017）進行訓練，採用簡單的 CNN 作為特徵網絡，基於 Mnih 等人（2015）的方法。在 CPU 上使用 Stable Baselines 3 基礎架構（Raffin 等人，2021）進行訓練。代理接收縮小後的幀圖像和遊戲地圖，每個分辨率為 160x120。代理還可以訪問其最近執行的 32 次動作。特徵網絡為每幅圖像計算出大小為 512 的表示。PPO 的 actor 和 critic 是基於圖像特徵網絡輸出和過去動作序列連接的兩層 MLP 頭。我們使用 Vizdoom 環境（Wydmuch 等人，2019）訓練代理來玩遊戲。我們並行運行了 8 個遊戲，每個遊戲的回放緩衝區大小為 512，折扣因子為 $\gamma =0.99$ ，熵係數為 $0.1$ 。在每次迭代中，我們使用批量大小為 64 的數據進行 10 個時代的訓練，學習率為 1e-4。我們總共執行了 1000 萬個環境步驟。