Translations:Diffusion Models Are Real-Time Game Engines/9/es: Difference between revisions

    From Marovi AI
    (Created page with "En los últimos años, los modelos generativos han logrado avances significativos en la producción de imágenes y videos condicionados a entradas multimodales, como texto o imágenes. A la vanguardia de esta tendencia, los modelos de difusión se han convertido en el estándar de facto en la generación de medios (es decir, no lingüísticos), con trabajos como Dall-E (Ramesh et al., [https://arxiv.org/html/2408.14837v1#bib.bib25 2022]), Stable Diffusion (Rombach et al....")
     
    (No difference)

    Latest revision as of 03:35, 7 September 2024

    Information about message (contribute)
    This message has no documentation. If you know where or how this message is used, you can help other translators by adding documentation to this message.
    Message definition (Diffusion Models Are Real-Time Game Engines)
    In recent years, generative models made significant progress in producing images and videos conditioned on multi-modal inputs, such as text or images. At the forefront of this wave, diffusion models became the de-facto standard in media (i.e., non-language) generation, with works like Dall-E (Ramesh et al., [https://arxiv.org/html/2408.14837v1#bib.bib25 2022]), Stable Diffusion (Rombach et al., [https://arxiv.org/html/2408.14837v1#bib.bib26 2022]), and Sora (Brooks et al., [https://arxiv.org/html/2408.14837v1#bib.bib6 2024]). At a glance, simulating the interactive worlds of video games may seem similar to video generation. However, ''interactive'' world simulation is more than just very fast video generation. The requirement to condition on a stream of input actions that is only available throughout the generation breaks some assumptions of existing diffusion model architectures. Notably, it requires generating frames autoregressively, which tends to be unstable and leads to sampling divergence (see section [https://arxiv.org/html/2408.14837v1#S3.SS2.SSS1 3.2.1]).

    En los últimos años, los modelos generativos han logrado avances significativos en la producción de imágenes y videos condicionados a entradas multimodales, como texto o imágenes. A la vanguardia de esta tendencia, los modelos de difusión se han convertido en el estándar de facto en la generación de medios (es decir, no lingüísticos), con trabajos como Dall-E (Ramesh et al., 2022), Stable Diffusion (Rombach et al., 2022) y Sora (Brooks et al., 2024). A primera vista, la simulación de los mundos interactivos de los videojuegos puede parecer similar a la generación de videos. Sin embargo, la simulación de mundos "interactivos" es más que una simple generación de video rápida. La necesidad de condicionar un flujo de acciones de entrada que solo está disponible durante la generación rompe algunos supuestos de las arquitecturas de los modelos de difusión existentes. En particular, requiere generar fotogramas de forma autorregresiva, lo que tiende a ser inestable y conduce a la divergencia de muestreo (véase la sección 3.2.1).