一个交互环境 E {\displaystyle {\mathcal {E}}} 由一个潜在状态空间 S {\displaystyle {\mathcal {S}}} 、一个潜在空间的部分投影空间 O {\displaystyle {\mathcal {O}}} 、一个部分投影函数 V : S → O {\displaystyle V:{\mathcal {S}}\rightarrow {\mathcal {O}}} 、一组动作 A {\displaystyle {\mathcal {A}}} ,以及一个转移概率函数 p ( s ′ | a , s ) {\displaystyle p\left(s^{\prime }\,|\,a,s\right)} ,使得 s , s ′ ∈ S , a ∈ A {\displaystyle s,s^{\prime }\in {\mathcal {S}},a\in {\mathcal {A}}} 。