我們總是使用教師強迫目標來訓練我們的生成模型。給定一個模擬分佈函數 q {\displaystyle q} ,可以通過自回歸地採樣觀測值來模擬環境 E {\displaystyle {\mathcal {E}}} 。