Translations:Diffusion Models Are Real-Time Game Engines/48/zh

    From Marovi AI
    Revision as of 00:25, 9 September 2024 by Felipefelixarias (talk | contribs) (Created page with "代理模型使用 PPO(Schulman 等人,[https://arxiv.org/html/2408.14837v1#bib.bib30 2017])进行训练,采用简单的 CNN 作为特征网络,基于 Mnih 等人([https://arxiv.org/html/2408.14837v1#bib.bib21 2015])的方法。在 CPU 上使用 Stable Baselines 3 基础架构(Raffin 等人,[https://arxiv.org/html/2408.14837v1#bib.bib24 2021])进行训练。代理接收缩小后的帧图像和游戏地图,每个分辨率为 160x120。代理还可以...")
    (diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

    代理模型使用 PPO(Schulman 等人,2017)进行训练,采用简单的 CNN 作为特征网络,基于 Mnih 等人(2015)的方法。在 CPU 上使用 Stable Baselines 3 基础架构(Raffin 等人,2021)进行训练。代理接收缩小后的帧图像和游戏地图,每个分辨率为 160x120。代理还可以访问其最近执行的 32 次动作。特征网络为每幅图像计算出大小为 512 的表示。PPO 的 actor 和 critic 是基于图像特征网络输出和过去动作序列连接的两层 MLP 头。我们使用 Vizdoom 环境(Wydmuch 等人,2019)训练代理来玩游戏。我们并行运行了 8 个游戏,每个游戏的回放缓冲区大小为 512,折扣因子为 ,熵系数为 。在每次迭代中,我们使用批量大小为 64 的数据进行 10 个时代的训练,学习率为 1e-4。我们总共执行了 1000 万个环境步骤。