Translations:Diffusion Models Are Real-Time Game Engines/24/es
Nuestro objetivo final es que los jugadores humanos interactúen con nuestra simulación. Para ello, la política como en la sección 2 es la del juego humano. Dado que no podemos tomar muestras de eso directamente a gran escala, comenzamos por aproximarlo enseñando a un agente automático a jugar. A diferencia de una configuración típica de RL que intenta maximizar la puntuación del juego, nuestro objetivo es generar datos de entrenamiento que se asemejen al juego humano, o que al menos contengan suficientes ejemplos diversos en una variedad de escenarios, para maximizar la eficiencia de los datos de entrenamiento. Para ello, diseñamos una función de recompensa sencilla, que es la única parte de nuestro método que es específica del entorno (véase el apéndice A.3).