Translations:Diffusion Models Are Real-Time Game Engines/36/es

    From Marovi AI
    Revision as of 06:32, 7 September 2024 by Felipefelixarias (talk | contribs) (Created page with "El autocodificador preentrenado de Stable Diffusion v1.4, que comprime parches de 8x8 píxeles en 4 canales latentes, produce artefactos significativos al predecir los fotogramas del juego, lo que afecta a los pequeños detalles y, en particular, a la barra inferior del HUD («heads-up display»). Para aprovechar el conocimiento preentrenado y mejorar al mismo tiempo la calidad de la imagen, entrenamos solo el decodificador del autocodificador latente utilizando una pér...")
    (diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

    El autocodificador preentrenado de Stable Diffusion v1.4, que comprime parches de 8x8 píxeles en 4 canales latentes, produce artefactos significativos al predecir los fotogramas del juego, lo que afecta a los pequeños detalles y, en particular, a la barra inferior del HUD («heads-up display»). Para aprovechar el conocimiento preentrenado y mejorar al mismo tiempo la calidad de la imagen, entrenamos solo el decodificador del autocodificador latente utilizando una pérdida MSE calculada contra los píxeles del fotograma objetivo. Podría ser posible mejorar aún más la calidad utilizando una pérdida perceptual como LPIPS (Zhang et al. (2018)), lo cual dejamos para trabajos futuros. Es importante señalar que este proceso de ajuste fino tiene lugar de forma completamente independiente al ajuste fino de la U-Net, y que, en particular, la generación autorregresiva no se ve afectada por él (solo condicionamos autorregresivamente los latentes, no los píxeles). El apéndice A.2 muestra ejemplos de generaciones con y sin ajuste fino del autocodificador.