All translations
Enter a message name below to show all available translations.
Found 3 translations.
Name | Current message text |
---|---|
h English (en) | Our end goal is to have human players interact with our simulation. To that end, the policy <math>\pi</math> as in Section [https://arxiv.org/html/2408.14837v1#S2 2] is that of ''human gameplay''. Since we cannot sample from that directly at scale, we start by approximating it via teaching an automatic agent to play. Unlike a typical RL setup which attempts to maximize game score, our goal is to generate training data which resembles human play, or at least contains enough diverse examples, in a variety of scenarios, to maximize training data efficiency. To that end, we design a simple reward function, which is the only part of our method that is environment-specific (see Appendix [https://arxiv.org/html/2408.14837v1#A1.SS3 A.3]). |
h Spanish (es) | Nuestro objetivo final es que los jugadores humanos interactúen con nuestra simulación. Para ello, la política <math>\pi</math> como en la sección [https://arxiv.org/html/2408.14837v1#S2 2] es la del ''juego humano''. Dado que no podemos tomar muestras de eso directamente a gran escala, comenzamos por aproximarlo enseñando a un agente automático a jugar. A diferencia de una configuración típica de RL que intenta maximizar la puntuación del juego, nuestro objetivo es generar datos de entrenamiento que se asemejen al juego humano, o que al menos contengan suficientes ejemplos diversos en una variedad de escenarios, para maximizar la eficiencia de los datos de entrenamiento. Para ello, diseñamos una función de recompensa sencilla, que es la única parte de nuestro método que es específica del entorno (véase el apéndice [https://arxiv.org/html/2408.14837v1#A1.SS3 A.3]). |
h Chinese (zh) | 我们的最终目标是让人类玩家与我们的仿真进行互动。为此,第[https://arxiv.org/html/2408.14837v1#S2 2]节中的策略<math>\pi</math>即为“人类游戏策略”。由于我们无法直接大规模地从中取样,因此我们首先通过教一个自动代理来玩游戏,以此来近似人类游戏。与典型的强化学习设置不同,该设置旨在最大化游戏得分,我们的目标是生成与人类游戏类似的训练数据,或者至少在各种场景下包含足够多的多样化示例,以最大化训练数据的效率。为此,我们设计了一个简单的奖励函数,这是我们的方法中唯一与环境相关的部分(见附录[https://arxiv.org/html/2408.14837v1#A1.SS3 A.3])。 |