Translations:Diffusion Models Are Real-Time Game Engines/50/es

    From Marovi AI
    Revision as of 03:22, 7 September 2024 by Felipefelixarias (talk | contribs) (Created page with "Entrenamos todos los modelos de simulación a partir de un punto de control preentrenado de Stable Diffusion 1.4, descongelando todos los parámetros de U-Net. Utilizamos un tamaño de lote de 128 y una tasa de aprendizaje constante de 2e-5, con el optimizador Adafactor sin decaimiento de peso (Shazeer & Stern, [https://arxiv.org/html/2408.14837v1#bib.bib31 2018]) y recorte de gradiente de 1,0. Cambiamos la parametrización de la pérdida de difusión para que sea predic...")
    (diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

    Entrenamos todos los modelos de simulación a partir de un punto de control preentrenado de Stable Diffusion 1.4, descongelando todos los parámetros de U-Net. Utilizamos un tamaño de lote de 128 y una tasa de aprendizaje constante de 2e-5, con el optimizador Adafactor sin decaimiento de peso (Shazeer & Stern, 2018) y recorte de gradiente de 1,0. Cambiamos la parametrización de la pérdida de difusión para que sea predicción v (Salimans & Ho 2022a). La condición de marcos de contexto se elimina con probabilidad 0,1 para permitir CFG durante la inferencia. Entrenamos utilizando 128 dispositivos TPU-v5e con paralelización de datos. A menos que se indique lo contrario, todos los resultados del documento son tras 700.000 pasos de entrenamiento. Para la augmentación de ruido (Sección 3.2.1), utilizamos un nivel de ruido máximo de 0,7, con 10 cubos de incrustación. Utilizamos un tamaño de lote de 2.048 para optimizar el decodificador latente; los demás parámetros de entrenamiento son idénticos a los del denoizador. Para los datos de entrenamiento, utilizamos todas las trayectorias jugadas por el agente durante el entrenamiento de RL, así como los datos de evaluación durante el entrenamiento, a menos que se mencione lo contrario. En total, generamos 900M de fotogramas para el entrenamiento. Todos los fotogramas (durante el entrenamiento, la inferencia y el condicionamiento) tienen una resolución de 320x240 con un relleno de 320x256. Utilizamos una longitud de contexto de 64 (es decir, el modelo recibe sus propias 64 últimas predicciones, así como las 64 últimas acciones).