Translations:Diffusion Models Are Real-Time Game Engines/28/es

    From Marovi AI
    Revision as of 03:17, 7 September 2024 by Felipefelixarias (talk | contribs) (Created page with "Reutilizamos un modelo de difusión de texto a imagen preentrenado, Stable Diffusion v1.4 (Rombach et al., [https://arxiv.org/html/2408.14837v1#bib.bib26 2022]). Condicionamos el modelo <math>f_{\theta}</math> en trayectorias <math>T \sim \mathcal{T}_{agent}</math>, es decir, en una secuencia de acciones previas <math>a_{< n}</math> y observaciones (fotogramas) <math>o_{< n}</math>, y eliminamos todo condicionamiento textual. Específicamente, para condicionar en las acc...")
    (diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

    Reutilizamos un modelo de difusión de texto a imagen preentrenado, Stable Diffusion v1.4 (Rombach et al., 2022). Condicionamos el modelo en trayectorias , es decir, en una secuencia de acciones previas y observaciones (fotogramas) , y eliminamos todo condicionamiento textual. Específicamente, para condicionar en las acciones, simplemente aprendemos una incrustación de cada acción (por ejemplo, una pulsación de tecla específica) en un único token y sustituimos la atención cruzada del texto en esta secuencia de acciones codificadas. Para condicionar en las observaciones (es decir, los fotogramas anteriores), las codificamos en el espacio latente utilizando el autocodificador y las concatenamos en la dimensión de los canales latentes a los latentes ruidosos (véase la figura 3). También experimentamos condicionando estas observaciones anteriores mediante atención cruzada, pero no observamos mejoras significativas.