Translations:Diffusion Models Are Real-Time Game Engines/18/es

    From Marovi AI

    Dado un entorno interactivo de entrada $ \mathcal{E} $, y un estado inicial $ s_{0} \in \mathcal{S} $, una simulación de mundo interactivo es una función de distribución de simulación $ q \left( o_{n} \,|\, \{o_{< n}, a_{\leq n}\} \right), \; o_{i} \in \mathcal{O}, \; a_{i} \in \mathcal{A} $. Dada una métrica de distancia entre observaciones $ D: \mathcal{O} \times \mathcal{O} \rightarrow \mathbb{R} $, una política, es decir, una distribución sobre las acciones del agente dadas las acciones pasadas y las observaciones $ \pi \left( a_{n} \,|\, o_{< n}, a_{< n} \right) $, una distribución $ S_{0} $ sobre los estados iniciales, y una distribución $ N_{0} $ sobre la duración de los episodios, el objetivo de la simulación de mundo interactivo consiste en minimizar $ E \left( D \left( o_{q}^{i}, o_{p}^{i} \right) \right) $ donde $ n \sim N_{0} $, $ 0 \leq i \leq n $, y $ o_{q}^{i} \sim q, \; o_{p}^{i} \sim V(p) $ son observaciones muestreadas del entorno y de la simulación al aplicar la política del agente $ \pi $. Es importante destacar que las acciones de condicionamiento para estas muestras siempre se obtienen mediante la interacción del agente con el entorno $ \mathcal{E} $, mientras que las observaciones de condicionamiento pueden obtenerse de $ \mathcal{E} $ (el objetivo de forzamiento por el maestro) o de la simulación (el objetivo autorregresivo).