Translations:Diffusion Models Are Real-Time Game Engines/42/es

    From Marovi AI
    Revision as of 06:34, 7 September 2024 by Felipefelixarias (talk | contribs) (Created page with "Durante la inferencia, necesitamos ejecutar tanto el denoizador U-Net (durante una serie de pasos) como el autocodificador. En nuestra configuración de hardware (un TPU-v5), tanto un único paso del denoizador como una evaluación del autocodificador tardan 10 ms. Si ejecutáramos nuestro modelo con un único paso del denoizador, la latencia total mínima posible en nuestra configuración sería de 20 ms por fotograma, o 50 fotogramas por segundo. Normalmente, los model...")
    (diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

    Durante la inferencia, necesitamos ejecutar tanto el denoizador U-Net (durante una serie de pasos) como el autocodificador. En nuestra configuración de hardware (un TPU-v5), tanto un único paso del denoizador como una evaluación del autocodificador tardan 10 ms. Si ejecutáramos nuestro modelo con un único paso del denoizador, la latencia total mínima posible en nuestra configuración sería de 20 ms por fotograma, o 50 fotogramas por segundo. Normalmente, los modelos generativos de difusión, como Stable Diffusion, no producen resultados de alta calidad con un solo paso de denoización, y en su lugar requieren docenas de pasos de muestreo para generar una imagen de alta calidad. Sorprendentemente, descubrimos que podemos simular DOOM de forma robusta, con solo 4 pasos de muestreo DDIM (Song et al., 2020). De hecho, no observamos ninguna degradación en la calidad de la simulación cuando utilizamos 4 pasos de muestreo frente a 20 pasos o más (véase el apéndice A.4).