Translations:Diffusion Models Are Real-Time Game Engines/48/es

El modelo de agente se entrena utilizando PPO (Schulman et al., 2017), con una CNN simple como red de características, siguiendo a Mnih et al. (2015). Se entrena en CPU utilizando la infraestructura de Stable Baselines 3 (Raffin et al., 2021). Al agente se le proporcionan versiones reducidas de las imágenes de los fotogramas y del mapa del juego, cada una con una resolución de 160x120. El agente también tiene acceso a las últimas 32 acciones que realizó. La red de características calcula una representación de tamaño 512 para cada imagen. El actor y el crítico de PPO son cabezas MLP de 2 capas sobre una concatenación de las salidas de la red de características de la imagen y la secuencia de acciones pasadas. Entrenamos al agente para que juegue utilizando el entorno de Vizdoom (Wydmuch et al., 2019). Ejecutamos 8 juegos en paralelo, cada uno con un tamaño de búfer de repetición de 512, un factor de descuento $\gamma =0.99$ , y un coeficiente de entropía de $0.1$ . En cada iteración, la red se entrena utilizando un tamaño de lote de 64 durante 10 épocas, con una tasa de aprendizaje de 1e-4. Realizamos un total de 10 millones de pasos de entorno.