我們使用DDIM採樣(Song等人,2022)。我們僅對過去觀測條件 o < n {\displaystyle o_{<n}} 採用了無分類器指導(Ho & Salimans,2022)。我們發現對過去動作條件 a < n {\displaystyle a_{<n}} 的指導無法提高質量。我們使用的權重相對較小(1.5),因為較大的權重會產生偽影,而我們的自動回歸採樣則會放大這些偽影。