Translations:Diffusion Models Are Real-Time Game Engines/24/zh

我们的最终目标是让人类玩家与我们的仿真进行互动。为此，第2节中的策略 $\pi$ 即为“人类游戏策略”。由于我们无法直接大规模地从中取样，因此我们首先通过教一个自动代理来玩游戏，以此来近似人类游戏。与典型的强化学习设置不同，该设置旨在最大化游戏得分，我们的目标是生成与人类游戏类似的训练数据，或者至少在各种场景下包含足够多的多样化示例，以最大化训练数据的效率。为此，我们设计了一个简单的奖励函数，这是我们的方法中唯一与环境相关的部分（见附录A.3）。