Translations:Diffusion Models Are Real-Time Game Engines/85/es
Varios trabajos han intentado entrenar modelos para la simulación de juegos con entradas de acciones. Yang et al. (2023) construyeron un conjunto de datos diverso de vídeos del mundo real y simulados y entrenaron un modelo de difusión para predecir un vídeo de continuación dado un segmento de vídeo anterior y una descripción textual de una acción. Menapace et al. (2021) y Bruce et al. (2024) se enfocan en el aprendizaje no supervisado de acciones a partir de vídeos. Menapace et al. (2024) convierten las indicaciones textuales en estados del juego, que posteriormente se convierten en una representación 3D mediante NeRF. A diferencia de estos trabajos, nosotros nos centramos en la "simulación interactiva jugable en tiempo real", y demostramos robustez en trayectorias de largo alcance. Aprovechamos un agente de RL para explorar el entorno del juego y crear despliegues de observaciones e interacciones para entrenar nuestro modelo de juego interactivo. Otra línea de trabajo exploró el aprendizaje de un modelo predictivo del entorno y su uso para entrenar a un agente de RL. Ha & Schmidhuber (2018) entrenaron un autocodificador variacional (Kingma & Welling, 2014) para codificar los fotogramas del juego en un vector latente y, a continuación, utilizaron una RNN para imitar el entorno de juego de VizDoom, entrenándose en rollouts aleatorios a partir de una política aleatoria (es decir, seleccionando una acción al azar). Luego, se aprendió una política de controlador jugando dentro del entorno "simulado". Hafner et al. (2020) demostraron que un agente de RL puede entrenarse íntegramente sobre episodios generados por un modelo de mundo aprendido en el espacio latente. También cercano a nuestro trabajo es Kim et al. (2020), que utilizaron una arquitectura LSTM para modelar el estado del mundo, acoplada a un decodificador convolucional para producir fotogramas de salida y entrenada conjuntamente bajo un objetivo adversarial. Aunque este enfoque parece producir resultados razonables para juegos sencillos como PacMan, tiene dificultades para simular el complejo entorno de VizDoom y produce muestras borrosas. En cambio, GameNGen es capaz de generar muestras comparables a las del juego original; véase la figura 2. Por último, simultáneamente a nuestro trabajo, Alonso et al. (2024) entrenaron un modelo de mundo de difusión para predecir la siguiente observación dado el historial de observaciones, y entrenaron iterativamente el modelo de mundo y un modelo de RL en juegos Atari.