我们总是使用教师强迫目标来训练我们的生成模型。给定一个模拟分布函数 q {\displaystyle q} ,可以通过自回归地采样观测值来模拟环境 E {\displaystyle {\mathcal {E}}} 。