Translations:Diffusion Models Are Real-Time Game Engines/50/es: Difference between revisions

Latest revision as of 03:22, 7 September 2024

Information about message (contribute)

This message has no documentation. If you know where or how this message is used, you can help other translators by adding documentation to this message.

Message definition (Diffusion Models Are Real-Time Game Engines)

We train all simulation models from a pretrained checkpoint of Stable Diffusion 1.4, unfreezing all U-Net parameters. We use a batch size of 128 and a constant learning rate of 2e-5, with the Adafactor optimizer without weight decay (Shazeer & Stern, [https://arxiv.org/html/2408.14837v1#bib.bib31 2018]) and gradient clipping of 1.0. We change the diffusion loss parameterization to be v-prediction (Salimans & Ho [https://arxiv.org/html/2408.14837v1#bib.bib28 2022a]). The context frames condition is dropped with probability 0.1 to allow CFG during inference. We train using 128 TPU-v5e devices with data parallelization. Unless noted otherwise, all results in the paper are after 700,000 training steps. For noise augmentation (Section [https://arxiv.org/html/2408.14837v1#S3.SS2.SSS1 3.2.1]), we use a maximal noise level of 0.7, with 10 embedding buckets. We use a batch size of 2,048 for optimizing the latent decoder; other training parameters are identical to those of the denoiser. For training data, we use all trajectories played by the agent during RL training as well as evaluation data during training, unless mentioned otherwise. Overall, we generate 900M frames for training. All image frames (during training, inference, and conditioning) are at a resolution of 320x240 padded to 320x256. We use a context length of 64 (i.e., the model is provided its own last 64 predictions as well as the last 64 actions).

Entrenamos todos los modelos de simulación a partir de un punto de control preentrenado de Stable Diffusion 1.4, descongelando todos los parámetros de U-Net. Utilizamos un tamaño de lote de 128 y una tasa de aprendizaje constante de 2e-5, con el optimizador Adafactor sin decaimiento de peso (Shazeer & Stern, 2018) y recorte de gradiente de 1,0. Cambiamos la parametrización de la pérdida de difusión para que sea predicción v (Salimans & Ho 2022a). La condición de marcos de contexto se elimina con probabilidad 0,1 para permitir CFG durante la inferencia. Entrenamos utilizando 128 dispositivos TPU-v5e con paralelización de datos. A menos que se indique lo contrario, todos los resultados del documento son tras 700.000 pasos de entrenamiento. Para la augmentación de ruido (Sección 3.2.1), utilizamos un nivel de ruido máximo de 0,7, con 10 cubos de incrustación. Utilizamos un tamaño de lote de 2.048 para optimizar el decodificador latente; los demás parámetros de entrenamiento son idénticos a los del denoizador. Para los datos de entrenamiento, utilizamos todas las trayectorias jugadas por el agente durante el entrenamiento de RL, así como los datos de evaluación durante el entrenamiento, a menos que se mencione lo contrario. En total, generamos 900M de fotogramas para el entrenamiento. Todos los fotogramas (durante el entrenamiento, la inferencia y el condicionamiento) tienen una resolución de 320x240 con un relleno de 320x256. Utilizamos una longitud de contexto de 64 (es decir, el modelo recibe sus propias 64 últimas predicciones, así como las 64 últimas acciones).