Translations:Diffusion Models Are Real-Time Game Engines/18/zh

給定輸入交互環境 ${\mathcal {E}}$ 和初始狀態 $s_{0}\in {\mathcal {S}}$ ，一個「交互世界模擬」是一個「模擬分佈函數」 $q\left(o_{n}\,|\,\{o_{<n},a_{\leq n}\}\right),\;o_{i}\in {\mathcal {O}},\;a_{i}\in {\mathcal {A}}$ 。給定觀測值之間的距離度量 $D:{\mathcal {O}}\times {\mathcal {O}}\rightarrow \mathbb {R}$ ，一個「策略」，即給定過去動作和觀測的代理動作分佈 $\pi \left(a_{n}\,|\,o_{<n},a_{<n}\right)$ ，初始狀態分佈 $S_{0}$ 和回合長度分佈 $N_{0}$ ，交互世界模擬的目標是最小化 $E\left(D\left(o_{q}^{i},o_{p}^{i}\right)\right)$ ，其中 $n\sim N_{0}$ ， $0\leq i\leq n$ ，以及 $o_{q}^{i}\sim q,\;o_{p}^{i}\sim V(p)$ 是在執行代理策略 $\pi$ 時從環境和模擬中抽取的觀測值。重要的是，這些樣本的條件動作總是通過代理與環境 ${\mathcal {E}}$ 交互獲得，而條件觀測既可以從 ${\mathcal {E}}$ 獲得（「教師強迫目標」），也可以從模擬中獲得（「自回歸目標」）。