All translations

Enter a message name below to show all available translations.

Found 3 translations.

Name	Current message text
^h English (en)	We compare training on agent-generated data to training on data generated using a random policy. For the random policy, we sample actions following a uniform categorical distribution that doesn’t depend on the observations. We compare the random and agent datasets by training 2 models for 700k steps along with their decoder. The models are evaluated on a dataset of 2048 human-play trajectories from 5 levels. We compare the first frame of generation, conditioned on a history context of 64 ground-truth frames, as well as a frame after 3 seconds of auto-regressive generation.
^h Spanish (es)	Comparamos el entrenamiento sobre datos generados por el agente con el entrenamiento sobre datos generados utilizando una política aleatoria. Para la política aleatoria, muestreamos acciones siguiendo una distribución categórica uniforme que no depende de las observaciones. Comparamos los conjuntos de datos aleatorios y de agentes entrenando 2 modelos durante 700,000 pasos junto con su decodificador. Los modelos se evalúan en un conjunto de datos de 2048 trayectorias de juego humano de 5 niveles. Comparamos el primer fotograma de generación, condicionado a un contexto histórico de 64 fotogramas de verdad de terreno, así como un fotograma después de 3 segundos de generación autorregresiva.
^h Chinese (zh)	我们将代理生成的数据训练与使用随机策略生成的数据训练进行比较。对于随机策略，我们根据与观测结果无关的均匀分类分布对动作进行采样。我们通过对两个模型及其解码器进行