Translations:Diffusion Models Are Real-Time Game Engines/24/es: Difference between revisions

    From Marovi AI
    (Created page with "Nuestro objetivo final es que los jugadores humanos interactúen con nuestra simulación. Para ello, la política <math>\pi</math> como en la sección [https://arxiv.org/html/2408.14837v1#S2 2] es la del ''juego humano''. Dado que no podemos tomar muestras de eso directamente a gran escala, comenzamos por aproximarlo enseñando a un agente automático a jugar. A diferencia de una configuración típica de RL que intenta maximizar la puntuación del juego, nuestro objetiv...")
     
    (No difference)

    Latest revision as of 06:31, 7 September 2024

    Information about message (contribute)
    This message has no documentation. If you know where or how this message is used, you can help other translators by adding documentation to this message.
    Message definition (Diffusion Models Are Real-Time Game Engines)
    Our end goal is to have human players interact with our simulation. To that end, the policy <math>\pi</math> as in Section [https://arxiv.org/html/2408.14837v1#S2 2] is that of ''human gameplay''. Since we cannot sample from that directly at scale, we start by approximating it via teaching an automatic agent to play. Unlike a typical RL setup which attempts to maximize game score, our goal is to generate training data which resembles human play, or at least contains enough diverse examples, in a variety of scenarios, to maximize training data efficiency. To that end, we design a simple reward function, which is the only part of our method that is environment-specific (see Appendix [https://arxiv.org/html/2408.14837v1#A1.SS3 A.3]).

    Nuestro objetivo final es que los jugadores humanos interactúen con nuestra simulación. Para ello, la política como en la sección 2 es la del juego humano. Dado que no podemos tomar muestras de eso directamente a gran escala, comenzamos por aproximarlo enseñando a un agente automático a jugar. A diferencia de una configuración típica de RL que intenta maximizar la puntuación del juego, nuestro objetivo es generar datos de entrenamiento que se asemejen al juego humano, o que al menos contengan suficientes ejemplos diversos en una variedad de escenarios, para maximizar la eficiencia de los datos de entrenamiento. Para ello, diseñamos una función de recompensa sencilla, que es la única parte de nuestro método que es específica del entorno (véase el apéndice A.3).