Translations:Diffusion Models Are Real-Time Game Engines/33/es: Difference between revisions

    From Marovi AI
    (Created page with "El cambio de dominio entre el entrenamiento con el objetivo de forzado por el maestro y el muestreo autorregresivo lleva a la acumulación de errores y a una rápida degradación de la calidad de la muestra, como se demuestra en la figura [https://arxiv.org/html/2408.14837v1#S3.F4 4]. Para evitar esta divergencia debida a la aplicación autorregresiva del modelo, corrompemos los fotogramas de contexto añadiendo una cantidad variable de ruido gaussiano a los fotogramas c...")
     
    (No difference)

    Latest revision as of 06:32, 7 September 2024

    Information about message (contribute)
    This message has no documentation. If you know where or how this message is used, you can help other translators by adding documentation to this message.
    Message definition (Diffusion Models Are Real-Time Game Engines)
    The domain shift between training with teacher-forcing and auto-regressive sampling leads to error accumulation and fast degradation in sample quality, as demonstrated in Figure [https://arxiv.org/html/2408.14837v1#S3.F4 4]. To avoid this divergence due to auto-regressive application of the model, we corrupt context frames by adding a varying amount of Gaussian noise to encoded frames in training time, while providing the noise level as input to the model, following Ho et al. ([https://arxiv.org/html/2408.14837v1#bib.bib13 2021]). To that effect, we sample a noise level <math>\alpha</math> uniformly up to a maximal value, discretize it and learn an embedding for each bucket (see Figure [https://arxiv.org/html/2408.14837v1#S3.F3 3]). This allows the network to correct information sampled in previous frames, and is critical for preserving frame quality over time. During inference, the added noise level can be controlled to maximize quality, although we find that even with no added noise the results are significantly improved. We ablate the impact of this method in section [https://arxiv.org/html/2408.14837v1#S5.SS2.SSS2 5.2.2].

    El cambio de dominio entre el entrenamiento con el objetivo de forzado por el maestro y el muestreo autorregresivo lleva a la acumulación de errores y a una rápida degradación de la calidad de la muestra, como se demuestra en la figura 4. Para evitar esta divergencia debida a la aplicación autorregresiva del modelo, corrompemos los fotogramas de contexto añadiendo una cantidad variable de ruido gaussiano a los fotogramas codificados durante el tiempo de entrenamiento, mientras proporcionamos el nivel de ruido como entrada al modelo, siguiendo a Ho et al. (2021). Para ello, muestreamos un nivel de ruido de manera uniforme hasta un valor máximo, lo discretizamos y aprendemos una representación para cada intervalo (véase la figura 3). Esto permite a la red corregir la información muestreada en fotogramas anteriores, y es fundamental para preservar la calidad del fotograma a lo largo del tiempo. Durante la inferencia, el nivel de ruido añadido puede ser controlado para maximizar la calidad, aunque comprobamos que incluso sin ruido añadido los resultados mejoran significativamente. Evaluamos el impacto de este método en la sección 5.2.2.