Translations:Diffusion Models Are Real-Time Game Engines/24/zh

我們的最終目標是讓人類玩家與我們的仿真進行互動。為此，第2節中的策略 $\pi$ 即為「人類遊戲策略」。由於我們無法直接大規模地從中取樣，因此我們首先通過教一個自動代理來玩遊戲，以此來近似人類遊戲。與典型的強化學習設置不同，該設置旨在最大化遊戲得分，我們的目標是生成與人類遊戲類似的訓練數據，或者至少在各種場景下包含足夠多的多樣化示例，以最大化訓練數據的效率。為此，我們設計了一個簡單的獎勵函數，這是我們的方法中唯一與環境相關的部分（見附錄A.3）。