Translations:Diffusion Models Are Real-Time Game Engines/48/es

    From Marovi AI
    Revision as of 03:22, 7 September 2024 by Felipefelixarias (talk | contribs) (Created page with "El modelo de agente se entrena utilizando PPO (Schulman et al., [https://arxiv.org/html/2408.14837v1#bib.bib30 2017]), con una CNN simple como red de características, siguiendo a Mnih et al. ([https://arxiv.org/html/2408.14837v1#bib.bib21 2015]). Se entrena en CPU utilizando la infraestructura de Stable Baselines 3 (Raffin et al., [https://arxiv.org/html/2408.14837v1#bib.bib24 2021]). Al agente se le proporcionan versiones reducidas de las imágenes de los fotogramas y...")
    (diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

    El modelo de agente se entrena utilizando PPO (Schulman et al., 2017), con una CNN simple como red de características, siguiendo a Mnih et al. (2015). Se entrena en CPU utilizando la infraestructura de Stable Baselines 3 (Raffin et al., 2021). Al agente se le proporcionan versiones reducidas de las imágenes de los fotogramas y del mapa del juego, cada una con una resolución de 160x120. El agente también tiene acceso a las últimas 32 acciones que realizó. La red de características calcula una representación de tamaño 512 para cada imagen. El actor y el crítico de PPO son cabezas MLP de 2 capas sobre una concatenación de las salidas de la red de características de la imagen y la secuencia de acciones pasadas. Entrenamos al agente para que juegue utilizando el entorno de Vizdoom (Wydmuch et al., 2019). Ejecutamos 8 juegos en paralelo, cada uno con un tamaño de búfer de repetición de 512, un factor de descuento , y un coeficiente de entropía de . En cada iteración, la red se entrena utilizando un tamaño de lote de 64 durante 10 épocas, con una tasa de aprendizaje de 1e-4. Realizamos un total de 10 millones de pasos de entorno.