Translations:Diffusion Models Are Real-Time Game Engines/18/es

Dado un entorno interactivo de entrada ${\mathcal {E}}$ , y un estado inicial $s_{0}\in {\mathcal {S}}$ , una simulación de mundo interactivo es una función de distribución de simulación $q\left(o_{n}\,|\,\{o_{<n},a_{\leq n}\}\right),\;o_{i}\in {\mathcal {O}},\;a_{i}\in {\mathcal {A}}$ . Dada una métrica de distancia entre observaciones $D:{\mathcal {O}}\times {\mathcal {O}}\rightarrow \mathbb {R}$ , una política, es decir, una distribución sobre las acciones del agente dadas las acciones pasadas y las observaciones $\pi \left(a_{n}\,|\,o_{<n},a_{<n}\right)$ , una distribución $S_{0}$ sobre los estados iniciales, y una distribución $N_{0}$ sobre la duración de los episodios, el objetivo de la simulación de mundo interactivo consiste en minimizar $E\left(D\left(o_{q}^{i},o_{p}^{i}\right)\right)$ donde $n\sim N_{0}$ , $0\leq i\leq n$ , y $o_{q}^{i}\sim q,\;o_{p}^{i}\sim V(p)$ son observaciones muestreadas del entorno y de la simulación al aplicar la política del agente $\pi$ . Es importante destacar que las acciones de condicionamiento para estas muestras siempre se obtienen mediante la interacción del agente con el entorno ${\mathcal {E}}$ , mientras que las observaciones de condicionamiento pueden obtenerse de ${\mathcal {E}}$ (el objetivo de forzamiento por el maestro) o de la simulación (el objetivo autorregresivo).