Translations:Diffusion Models Are Real-Time Game Engines/48/zh

    From Marovi AI
    Revision as of 00:25, 9 September 2024 by Felipefelixarias (talk | contribs) (Created page with "代理模型使用 PPO(Schulman 等人,[https://arxiv.org/html/2408.14837v1#bib.bib30 2017])进行训练,采用简单的 CNN 作为特征网络,基于 Mnih 等人([https://arxiv.org/html/2408.14837v1#bib.bib21 2015])的方法。在 CPU 上使用 Stable Baselines 3 基础架构(Raffin 等人,[https://arxiv.org/html/2408.14837v1#bib.bib24 2021])进行训练。代理接收缩小后的帧图像和游戏地图,每个分辨率为 160x120。代理还可以...")
    (diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

    代理模型使用 PPO(Schulman 等人,2017)進行訓練,採用簡單的 CNN 作為特徵網絡,基於 Mnih 等人(2015)的方法。在 CPU 上使用 Stable Baselines 3 基礎架構(Raffin 等人,2021)進行訓練。代理接收縮小後的幀圖像和遊戲地圖,每個解析度為 160x120。代理還可以訪問其最近執行的 32 次動作。特徵網絡為每幅圖像計算出大小為 512 的表示。PPO 的 actor 和 critic 是基於圖像特徵網絡輸出和過去動作序列連接的兩層 MLP 頭。我們使用 Vizdoom 環境(Wydmuch 等人,2019)訓練代理來玩遊戲。我們並行運行了 8 個遊戲,每個遊戲的回放緩衝區大小為 512,折扣因子為 ,熵係數為 。在每次迭代中,我們使用批量大小為 64 的數據進行 10 個時代的訓練,學習率為 1e-4。我們總共執行了 1000 萬個環境步驟。