All translations
Enter a message name below to show all available translations.
Found 3 translations.
Name | Current message text |
---|---|
h English (en) | Overall, we observe that training the model on random trajectories works surprisingly well, but is limited by the exploration ability of the random policy. When comparing the single frame generation, the agent works only slightly better, achieving a PSNR of 25.06 vs 24.42 for the random policy. When comparing a frame after 3 seconds of auto-regressive generation, the difference increases to 19.02 vs 16.84. When playing with the model manually, we observe that some areas are very easy for both, some areas are very hard for both, and in some, the agent performs much better. With that, we manually split 456 examples into 3 buckets: easy, medium, and hard, manually, based on their distance from the starting position in the game. We observe that on the easy and hard sets, the agent performs only slightly better than random, while on the medium set, the difference is much larger in favor of the agent as expected (see Table [https://arxiv.org/html/2408.14837v1#S5.T2 2]). See Figure [https://arxiv.org/html/2408.14837v1#A1.F13 13] in Appendix [https://arxiv.org/html/2408.14837v1#A1.SS5 A.5] for an example of the scores during a single session of human play. |
h Spanish (es) | En general, observamos que el entrenamiento del modelo en trayectorias aleatorias funciona sorprendentemente bien, pero está limitado por la capacidad de exploración de la política aleatoria. Al comparar la generación de un solo fotograma, el agente funciona solo ligeramente mejor, logrando un PSNR de 25.06 frente a 24.42 para la política aleatoria. Al comparar un fotograma después de 3 segundos de generación autorregresiva, la diferencia aumenta a 19.02 frente a 16.84. Al interactuar manualmente con el modelo, observamos que algunas áreas son muy fáciles para ambos, otras muy difíciles para ambos, y en algunas, el agente se desempeña mucho mejor. Con esto, dividimos manualmente 456 ejemplos en 3 categorías: fácil, medio y difícil, basado en su distancia desde la posición inicial en el juego. Observamos que en los conjuntos fácil y difícil, el agente se desempeña solo ligeramente mejor que el azar, mientras que en el conjunto medio, la diferencia es mucho mayor a favor del agente, como era de esperar (véase la Tabla [https://arxiv.org/html/2408.14837v1#S5.T2 2]). Véase la Figura [https://arxiv.org/html/2408.14837v1#A1.F13 13] en el Apéndice [https://arxiv.org/html/2408.14837v1#A1.SS5 A.5] para un ejemplo de las puntuaciones durante una única sesión de juego humano. |
h Chinese (zh) | 总体而言,我们观察到在随机轨迹上训练模型的效果出奇地好,但受到随机策略探索能力的限制。在比较单帧生成时,代理的效果稍好,PSNR 为 25.06,而随机策略为 24.42。在比较 3 秒自回归生成后的帧时,差距增大到 19.02 对 16.84。在手动操作模型时,我们发现某些区域对两者都很容易,而某些区域对两者都很困难,而在某些区域,代理的表现要好得多。基于此,我们根据它们与游戏起始位置的距离手动将 456 个例子分为三组:易、中等和难。我们观察到,在简单和困难集上,代理的表现仅略优于随机,而在中等集上,正如预期的那样,代理的表现要好得多(见表 [https://arxiv.org/html/2408.14837v1#S5.T2 2])。请参见附录 [https://arxiv.org/html/2408.14837v1#A1.SS5 A.5] 中的图 [https://arxiv.org/html/2408.14837v1#A1.F13 13],了解人类单次游戏的得分情况。 |