All translations

Enter a message name below to show all available translations.

Message

Found 3 translations.

NameCurrent message text
 h English (en)We train all simulation models from a pretrained checkpoint of Stable Diffusion 1.4, unfreezing all U-Net parameters. We use a batch size of 128 and a constant learning rate of 2e-5, with the Adafactor optimizer without weight decay (Shazeer & Stern, [https://arxiv.org/html/2408.14837v1#bib.bib31 2018]) and gradient clipping of 1.0. We change the diffusion loss parameterization to be v-prediction (Salimans & Ho [https://arxiv.org/html/2408.14837v1#bib.bib28 2022a]). The context frames condition is dropped with probability 0.1 to allow CFG during inference. We train using 128 TPU-v5e devices with data parallelization. Unless noted otherwise, all results in the paper are after 700,000 training steps. For noise augmentation (Section [https://arxiv.org/html/2408.14837v1#S3.SS2.SSS1 3.2.1]), we use a maximal noise level of 0.7, with 10 embedding buckets. We use a batch size of 2,048 for optimizing the latent decoder; other training parameters are identical to those of the denoiser. For training data, we use all trajectories played by the agent during RL training as well as evaluation data during training, unless mentioned otherwise. Overall, we generate 900M frames for training. All image frames (during training, inference, and conditioning) are at a resolution of 320x240 padded to 320x256. We use a context length of 64 (i.e., the model is provided its own last 64 predictions as well as the last 64 actions).
 h Spanish (es)Entrenamos todos los modelos de simulación a partir de un punto de control preentrenado de Stable Diffusion 1.4, descongelando todos los parámetros de U-Net. Utilizamos un tamaño de lote de 128 y una tasa de aprendizaje constante de 2e-5, con el optimizador Adafactor sin decaimiento de peso (Shazeer & Stern, [https://arxiv.org/html/2408.14837v1#bib.bib31 2018]) y recorte de gradiente de 1,0. Cambiamos la parametrización de la pérdida de difusión para que sea predicción v (Salimans & Ho [https://arxiv.org/html/2408.14837v1#bib.bib28 2022a]). La condición de marcos de contexto se elimina con probabilidad 0,1 para permitir CFG durante la inferencia. Entrenamos utilizando 128 dispositivos TPU-v5e con paralelización de datos. A menos que se indique lo contrario, todos los resultados del documento son tras 700.000 pasos de entrenamiento. Para la augmentación de ruido (Sección [https://arxiv.org/html/2408.14837v1#S3.SS2.SSS1 3.2.1]), utilizamos un nivel de ruido máximo de 0,7, con 10 cubos de incrustación. Utilizamos un tamaño de lote de 2.048 para optimizar el decodificador latente; los demás parámetros de entrenamiento son idénticos a los del denoizador. Para los datos de entrenamiento, utilizamos todas las trayectorias jugadas por el agente durante el entrenamiento de RL, así como los datos de evaluación durante el entrenamiento, a menos que se mencione lo contrario. En total, generamos 900M de fotogramas para el entrenamiento. Todos los fotogramas (durante el entrenamiento, la inferencia y el condicionamiento) tienen una resolución de 320x240 con un relleno de 320x256. Utilizamos una longitud de contexto de 64 (es decir, el modelo recibe sus propias 64 últimas predicciones, así como las 64 últimas acciones).
 h Chinese (zh)我们使用 Stable Diffusion 1.4 的预训练检查点训练所有仿真模型,解冻所有 U-Net 参数。我们使用的批量大小为 128,恒定学习率为 2e-5,采用无权重衰减的 Adafactor 优化器(Shazeer & Stern,[https://arxiv.org/html/2408.14837v1#bib.bib31 2018]),以及梯度剪切为 1.0。我们将扩散损失参数化更改为 v预测(Salimans & Ho [https://arxiv.org/html/2408.14837v1#bib.bib28 2022a])。我们以 0.1 的概率去掉上下文帧条件,以便在推理过程中使用 CFG。我们使用 128 台 TPU-v5e 设备进行数据并行化训练。除非另有说明,本文中的所有结果均为 700,000 步训练后的结果。对于噪声增强(第[https://arxiv.org/html/2408.14837v1#S3.SS2.SSS1 3.2.1]节),我们使用的最大噪声水平为 0.7,并设有 10 个嵌入桶。在优化潜在解码器时,我们使用的批次大小为 2,048;其他训练参数与去噪器的参数相同。在训练数据方面,除非另有说明,我们使用了代理在强化学习训练期间的所有轨迹以及训练期间的评估数据。总体而言,我们生成了 9 亿帧用于训练。所有图像帧(在训练、推理和条件期间)的分辨率均为 320x240,并填充为 320x256。我们使用的上下文长度为 64(即向模型提供其自身的最后 64 次预测以及最后 64 次操作)。