給定輸入交互環境 E {\displaystyle {\mathcal {E}}} 和初始狀態 s 0 ∈ S {\displaystyle s_{0}\in {\mathcal {S}}} ,一個「交互世界模擬」是一個「模擬分布函數」 q ( o n | { o < n , a ≤ n } ) , o i ∈ O , a i ∈ A {\displaystyle q\left(o_{n}\,|\,\{o_{<n},a_{\leq n}\}\right),\;o_{i}\in {\mathcal {O}},\;a_{i}\in {\mathcal {A}}} 。給定觀測值之間的距離度量 D : O × O → R {\displaystyle D:{\mathcal {O}}\times {\mathcal {O}}\rightarrow \mathbb {R} } ,一個「策略」,即給定過去動作和觀測的代理動作分布 π ( a n | o < n , a < n ) {\displaystyle \pi \left(a_{n}\,|\,o_{<n},a_{<n}\right)} ,初始狀態分布 S 0 {\displaystyle S_{0}} 和回合長度分布 N 0 {\displaystyle N_{0}} ,交互世界模擬的目標是最小化 E ( D ( o q i , o p i ) ) {\displaystyle E\left(D\left(o_{q}^{i},o_{p}^{i}\right)\right)} ,其中 n ∼ N 0 {\displaystyle n\sim N_{0}} , 0 ≤ i ≤ n {\displaystyle 0\leq i\leq n} ,以及 o q i ∼ q , o p i ∼ V ( p ) {\displaystyle o_{q}^{i}\sim q,\;o_{p}^{i}\sim V(p)} 是在執行代理策略 π {\displaystyle \pi } 時從環境和模擬中抽取的觀測值。重要的是,這些樣本的條件動作總是通過代理與環境 E {\displaystyle {\mathcal {E}}} 交互獲得,而條件觀測既可以從 E {\displaystyle {\mathcal {E}}} 獲得(「教師強迫目標」),也可以從模擬中獲得(「自回歸目標」)。