Translations:Diffusion Models Are Real-Time Game Engines/9/es

    From Marovi AI

    En los últimos años, los modelos generativos han logrado avances significativos en la producción de imágenes y videos condicionados a entradas multimodales, como texto o imágenes. A la vanguardia de esta tendencia, los modelos de difusión se han convertido en el estándar de facto en la generación de medios (es decir, no lingüísticos), con trabajos como Dall-E (Ramesh et al., 2022), Stable Diffusion (Rombach et al., 2022) y Sora (Brooks et al., 2024). A primera vista, la simulación de los mundos interactivos de los videojuegos puede parecer similar a la generación de videos. Sin embargo, la simulación de mundos "interactivos" es más que una simple generación de video rápida. La necesidad de condicionar un flujo de acciones de entrada que solo está disponible durante la generación rompe algunos supuestos de las arquitecturas de los modelos de difusión existentes. En particular, requiere generar fotogramas de forma autorregresiva, lo que tiende a ser inestable y conduce a la divergencia de muestreo (véase la sección 3.2.1).