Translations:Diffusion Models Are Real-Time Game Engines/33/es

El cambio de dominio entre el entrenamiento con el objetivo de forzado por el maestro y el muestreo autorregresivo lleva a la acumulación de errores y a una rápida degradación de la calidad de la muestra, como se demuestra en la figura 4. Para evitar esta divergencia debida a la aplicación autorregresiva del modelo, corrompemos los fotogramas de contexto añadiendo una cantidad variable de ruido gaussiano a los fotogramas codificados durante el tiempo de entrenamiento, mientras proporcionamos el nivel de ruido como entrada al modelo, siguiendo a Ho et al. (2021). Para ello, muestreamos un nivel de ruido $\alpha$ de manera uniforme hasta un valor máximo, lo discretizamos y aprendemos una representación para cada intervalo (véase la figura 3). Esto permite a la red corregir la información muestreada en fotogramas anteriores, y es fundamental para preservar la calidad del fotograma a lo largo del tiempo. Durante la inferencia, el nivel de ruido añadido puede ser controlado para maximizar la calidad, aunque comprobamos que incluso sin ruido añadido los resultados mejoran significativamente. Evaluamos el impacto de este método en la sección 5.2.2.