Translations:Diffusion Models Are Real-Time Game Engines/18/es

Dado un entorno interactivo de entrada $\mathcal{E}$ , y un estado inicial $s_{0} \in \mathcal{S}$ , una simulación de mundo interactivo es una función de distribución de simulación $q \left( o_{n} \,|\, \{o_{< n}, a_{\leq n}\} \right), \; o_{i} \in \mathcal{O}, \; a_{i} \in \mathcal{A}$ . Dada una métrica de distancia entre observaciones $D: \mathcal{O} \times \mathcal{O} \rightarrow \mathbb{R}$ , una política, es decir, una distribución sobre las acciones del agente dadas las acciones pasadas y las observaciones $\pi \left( a_{n} \,|\, o_{< n}, a_{< n} \right)$ , una distribución $S_{0}$ sobre los estados iniciales, y una distribución $N_{0}$ sobre la duración de los episodios, el objetivo de la simulación de mundo interactivo consiste en minimizar $E \left( D \left( o_{q}^{i}, o_{p}^{i} \right) \right)$ donde $n \sim N_{0}$ , $0 \leq i \leq n$ , y $o_{q}^{i} \sim q, \; o_{p}^{i} \sim V(p)$ son observaciones muestreadas del entorno y de la simulación al aplicar la política del agente $\pi$ . Es importante destacar que las acciones de condicionamiento para estas muestras siempre se obtienen mediante la interacción del agente con el entorno $\mathcal{E}$ , mientras que las observaciones de condicionamiento pueden obtenerse de $\mathcal{E}$ (el objetivo de forzamiento por el maestro) o de la simulación (el objetivo autorregresivo).