Translations:Diffusion Models Are Real-Time Game Engines/42/es: Difference between revisions

    From Marovi AI
    (Created page with "Durante la inferencia, necesitamos ejecutar tanto el denoizador U-Net (durante una serie de pasos) como el autocodificador. En nuestra configuración de hardware (un TPU-v5), tanto un único paso del denoizador como una evaluación del autocodificador tardan 10 ms. Si ejecutáramos nuestro modelo con un único paso del denoizador, la latencia total mínima posible en nuestra configuración sería de 20 ms por fotograma, o 50 fotogramas por segundo. Normalmente, los model...")
     
    (No difference)

    Latest revision as of 06:34, 7 September 2024

    Information about message (contribute)
    This message has no documentation. If you know where or how this message is used, you can help other translators by adding documentation to this message.
    Message definition (Diffusion Models Are Real-Time Game Engines)
    During inference, we need to run both the U-Net denoiser (for a number of steps) and the auto-encoder. On our hardware configuration (a TPU-v5), a single denoiser step and an evaluation of the auto-encoder both takes 10ms. If we ran our model with a single denoiser step, the minimum total latency possible in our setup would be 20ms per frame, or 50 frames per second. Usually, generative diffusion models, such as Stable Diffusion, don’t produce high quality results with a single denoising step, and instead require dozens of sampling steps to generate a high-quality image. Surprisingly, we found that we can robustly simulate DOOM, with only 4 DDIM sampling steps (Song et al., [https://arxiv.org/html/2408.14837v1#bib.bib33 2020]). In fact, we observe no degradation in simulation quality when using 4 sampling steps vs 20 steps or more (see Appendix [https://arxiv.org/html/2408.14837v1#A1.SS4 A.4]).

    Durante la inferencia, necesitamos ejecutar tanto el denoizador U-Net (durante una serie de pasos) como el autocodificador. En nuestra configuración de hardware (un TPU-v5), tanto un único paso del denoizador como una evaluación del autocodificador tardan 10 ms. Si ejecutáramos nuestro modelo con un único paso del denoizador, la latencia total mínima posible en nuestra configuración sería de 20 ms por fotograma, o 50 fotogramas por segundo. Normalmente, los modelos generativos de difusión, como Stable Diffusion, no producen resultados de alta calidad con un solo paso de denoización, y en su lugar requieren docenas de pasos de muestreo para generar una imagen de alta calidad. Sorprendentemente, descubrimos que podemos simular DOOM de forma robusta, con solo 4 pasos de muestreo DDIM (Song et al., 2020). De hecho, no observamos ninguna degradación en la calidad de la simulación cuando utilizamos 4 pasos de muestreo frente a 20 pasos o más (véase el apéndice A.4).