All translations
Enter a message name below to show all available translations.
Found 3 translations.
Name | Current message text |
---|---|
h English (en) | The pre-trained auto-encoder of Stable Diffusion v1.4, which compresses 8x8 pixel patches into 4 latent channels, results in meaningful artifacts when predicting game frames, which affect small details and particularly the bottom bar HUD (“heads up display”). To leverage the pre-trained knowledge while improving image quality, we train just the decoder of the latent auto-encoder using an MSE loss computed against the target frame pixels. It might be possible to improve quality even further using a perceptual loss such as LPIPS (Zhang et al. ([https://arxiv.org/html/2408.14837v1#bib.bib40 2018])), which we leave to future work. Importantly, note that this fine-tuning process happens completely separately from the U-Net fine-tuning, and that notably the auto-regressive generation isn’t affected by it (we only condition auto-regressively on the latents, not the pixels). Appendix [https://arxiv.org/html/2408.14837v1#A1.SS2 A.2] shows examples of generations with and without fine-tuning the auto-encoder. |
h Spanish (es) | El autocodificador preentrenado de Stable Diffusion v1.4, que comprime parches de 8x8 píxeles en 4 canales latentes, produce artefactos significativos al predecir los fotogramas del juego, lo que afecta a los pequeños detalles y, en particular, a la barra inferior del HUD («heads-up display»). Para aprovechar el conocimiento preentrenado y mejorar al mismo tiempo la calidad de la imagen, entrenamos solo el decodificador del autocodificador latente utilizando una pérdida MSE calculada contra los píxeles del fotograma objetivo. Podría ser posible mejorar aún más la calidad utilizando una pérdida perceptual como LPIPS (Zhang et al. ([https://arxiv.org/html/2408.14837v1#bib.bib40 2018])), lo cual dejamos para trabajos futuros. Es importante señalar que este proceso de ajuste fino tiene lugar de forma completamente independiente al ajuste fino de la U-Net, y que, en particular, la generación autorregresiva no se ve afectada por él (solo condicionamos autorregresivamente los latentes, no los píxeles). El apéndice [https://arxiv.org/html/2408.14837v1#A1.SS2 A.2] muestra ejemplos de generaciones con y sin ajuste fino del autocodificador. |
h Chinese (zh) | Stable Diffusion v1.4 的预训练自动编码器将 8x8 像素块压缩为 4 个潜通道,在预测游戏帧时会导致有意义的伪影,影响小细节,尤其是底栏 HUD(“抬头显示”)。为了在提高图像质量的同时利用预训练的知识,我们仅使用针对目标帧像素计算的 MSE 损失来训练潜在自动编码器的解码器。使用 LPIPS(Zhang 等人([https://arxiv.org/html/2408.14837v1#bib.bib40 2018]))等感知损失可能会进一步提高质量,我们将其留待未来工作中研究。重要的是,请注意这个微调过程完全独立于 U-Net 微调过程,而且自回归生成不受其影响(我们仅对潜变量自回归地进行条件设置,而非像素)。附录 [https://arxiv.org/html/2408.14837v1#A1.SS2 A.2] 展示了对自动编码器进行微调和不进行微调的生成示例。 |