Translations:Diffusion Models Are Real-Time Game Engines/48/zh

代理模型使用 PPO（Schulman 等人，2017）进行训练，采用简单的 CNN 作为特征网络，基于 Mnih 等人（2015）的方法。在 CPU 上使用 Stable Baselines 3 基础架构（Raffin 等人，2021）进行训练。代理接收缩小后的帧图像和游戏地图，每个分辨率为 160x120。代理还可以访问其最近执行的 32 次动作。特征网络为每幅图像计算出大小为 512 的表示。PPO 的 actor 和 critic 是基于图像特征网络输出和过去动作序列连接的两层 MLP 头。我们使用 Vizdoom 环境（Wydmuch 等人，2019）训练代理来玩游戏。我们并行运行了 8 个游戏，每个游戏的回放缓冲区大小为 512，折扣因子为 $\gamma =0.99$ ，熵系数为 $0.1$ 。在每次迭代中，我们使用批量大小为 64 的数据进行 10 个时代的训练，学习率为 1e-4。我们总共执行了 1000 万个环境步骤。