Translations:Diffusion Models Are Real-Time Game Engines/36/es: Difference between revisions

    From Marovi AI
    (Created page with "El autocodificador preentrenado de Stable Diffusion v1.4, que comprime parches de 8x8 píxeles en 4 canales latentes, produce artefactos significativos al predecir los fotogramas del juego, lo que afecta a los pequeños detalles y, en particular, a la barra inferior del HUD («heads-up display»). Para aprovechar el conocimiento preentrenado y mejorar al mismo tiempo la calidad de la imagen, entrenamos solo el decodificador del autocodificador latente utilizando una pér...")
     
    (No difference)

    Latest revision as of 06:32, 7 September 2024

    Information about message (contribute)
    This message has no documentation. If you know where or how this message is used, you can help other translators by adding documentation to this message.
    Message definition (Diffusion Models Are Real-Time Game Engines)
    The pre-trained auto-encoder of Stable Diffusion v1.4, which compresses 8x8 pixel patches into 4 latent channels, results in meaningful artifacts when predicting game frames, which affect small details and particularly the bottom bar HUD (“heads up display”). To leverage the pre-trained knowledge while improving image quality, we train just the decoder of the latent auto-encoder using an MSE loss computed against the target frame pixels. It might be possible to improve quality even further using a perceptual loss such as LPIPS (Zhang et al. ([https://arxiv.org/html/2408.14837v1#bib.bib40 2018])), which we leave to future work. Importantly, note that this fine-tuning process happens completely separately from the U-Net fine-tuning, and that notably the auto-regressive generation isn’t affected by it (we only condition auto-regressively on the latents, not the pixels). Appendix [https://arxiv.org/html/2408.14837v1#A1.SS2 A.2] shows examples of generations with and without fine-tuning the auto-encoder.

    El autocodificador preentrenado de Stable Diffusion v1.4, que comprime parches de 8x8 píxeles en 4 canales latentes, produce artefactos significativos al predecir los fotogramas del juego, lo que afecta a los pequeños detalles y, en particular, a la barra inferior del HUD («heads-up display»). Para aprovechar el conocimiento preentrenado y mejorar al mismo tiempo la calidad de la imagen, entrenamos solo el decodificador del autocodificador latente utilizando una pérdida MSE calculada contra los píxeles del fotograma objetivo. Podría ser posible mejorar aún más la calidad utilizando una pérdida perceptual como LPIPS (Zhang et al. (2018)), lo cual dejamos para trabajos futuros. Es importante señalar que este proceso de ajuste fino tiene lugar de forma completamente independiente al ajuste fino de la U-Net, y que, en particular, la generación autorregresiva no se ve afectada por él (solo condicionamos autorregresivamente los latentes, no los píxeles). El apéndice A.2 muestra ejemplos de generaciones con y sin ajuste fino del autocodificador.