一個交互環境 E {\displaystyle {\mathcal {E}}} 由一個潛在狀態空間 S {\displaystyle {\mathcal {S}}} 、一個潛在空間的部分投影空間 O {\displaystyle {\mathcal {O}}} 、一個部分投影函數 V : S → O {\displaystyle V:{\mathcal {S}}\rightarrow {\mathcal {O}}} 、一組動作 A {\displaystyle {\mathcal {A}}} ,以及一個轉移概率函數 p ( s ′ | a , s ) {\displaystyle p\left(s^{\prime }\,|\,a,s\right)} ,使得 s , s ′ ∈ S , a ∈ A {\displaystyle s,s^{\prime }\in {\mathcal {S}},a\in {\mathcal {A}}} 。