我們在整個訓練過程中記錄了代理的訓練軌跡,其中涵蓋了不同技能水平的遊戲。這組記錄的軌跡構成了我們的 T a g e n t {\displaystyle {\mathcal {T}}_{agent}} 數據集,用於訓練生成模型(見第3.2節)。