我们在整个训练过程中记录了代理的训练轨迹,其中涵盖了不同技能水平的游戏。这组记录的轨迹构成了我们的 T a g e n t {\displaystyle {\mathcal {T}}_{agent}} 数据集,用于训练生成模型(见第3.2节)。