Translations:Diffusion Models Are Real-Time Game Engines/74/es: Difference between revisions

    From Marovi AI
    (Created page with "En general, observamos que el entrenamiento del modelo en trayectorias aleatorias funciona sorprendentemente bien, pero está limitado por la capacidad de exploración de la política aleatoria. Al comparar la generación de un solo fotograma, el agente funciona solo ligeramente mejor, logrando un PSNR de 25.06 frente a 24.42 para la política aleatoria. Al comparar un fotograma después de 3 segundos de generación autorregresiva, la diferencia aumenta a 19.02 frente a...")
     
    (No difference)

    Latest revision as of 03:28, 7 September 2024

    Information about message (contribute)
    This message has no documentation. If you know where or how this message is used, you can help other translators by adding documentation to this message.
    Message definition (Diffusion Models Are Real-Time Game Engines)
    Overall, we observe that training the model on random trajectories works surprisingly well, but is limited by the exploration ability of the random policy. When comparing the single frame generation, the agent works only slightly better, achieving a PSNR of 25.06 vs 24.42 for the random policy. When comparing a frame after 3 seconds of auto-regressive generation, the difference increases to 19.02 vs 16.84. When playing with the model manually, we observe that some areas are very easy for both, some areas are very hard for both, and in some, the agent performs much better. With that, we manually split 456 examples into 3 buckets: easy, medium, and hard, manually, based on their distance from the starting position in the game. We observe that on the easy and hard sets, the agent performs only slightly better than random, while on the medium set, the difference is much larger in favor of the agent as expected (see Table [https://arxiv.org/html/2408.14837v1#S5.T2 2]). See Figure [https://arxiv.org/html/2408.14837v1#A1.F13 13] in Appendix [https://arxiv.org/html/2408.14837v1#A1.SS5 A.5] for an example of the scores during a single session of human play.

    En general, observamos que el entrenamiento del modelo en trayectorias aleatorias funciona sorprendentemente bien, pero está limitado por la capacidad de exploración de la política aleatoria. Al comparar la generación de un solo fotograma, el agente funciona solo ligeramente mejor, logrando un PSNR de 25.06 frente a 24.42 para la política aleatoria. Al comparar un fotograma después de 3 segundos de generación autorregresiva, la diferencia aumenta a 19.02 frente a 16.84. Al interactuar manualmente con el modelo, observamos que algunas áreas son muy fáciles para ambos, otras muy difíciles para ambos, y en algunas, el agente se desempeña mucho mejor. Con esto, dividimos manualmente 456 ejemplos en 3 categorías: fácil, medio y difícil, basado en su distancia desde la posición inicial en el juego. Observamos que en los conjuntos fácil y difícil, el agente se desempeña solo ligeramente mejor que el azar, mientras que en el conjunto medio, la diferencia es mucho mayor a favor del agente, como era de esperar (véase la Tabla 2). Véase la Figura 13 en el Apéndice A.5 para un ejemplo de las puntuaciones durante una única sesión de juego humano.