Translations:Diffusion Models Are Real-Time Game Engines/18/es

    From Marovi AI
    Revision as of 03:15, 7 September 2024 by Felipefelixarias (talk | contribs) (Created page with "Dado un entorno interactivo de entrada <math>\mathcal{E}</math>, y un estado inicial <math>s_{0} \in \mathcal{S}</math>, una ''simulación de mundo interactivo'' es una ''función de distribución de simulación'' <math>q \left( o_{n} \,|\, \{o_{< n}, a_{\leq n}\} \right), \; o_{i} \in \mathcal{O}, \; a_{i} \in \mathcal{A}</math>. Dada una métrica de distancia entre observaciones <math>D: \mathcal{O} \times \mathcal{O} \rightarrow \mathbb{R}</math>, una ''política'', e...")
    (diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

    Dado un entorno interactivo de entrada , y un estado inicial , una simulación de mundo interactivo es una función de distribución de simulación . Dada una métrica de distancia entre observaciones , una política, es decir, una distribución sobre las acciones del agente dadas las acciones pasadas y las observaciones , una distribución sobre los estados iniciales, y una distribución sobre la duración de los episodios, el objetivo de la simulación de mundo interactivo consiste en minimizar donde , , y son observaciones muestreadas del entorno y de la simulación al aplicar la política del agente . Es importante destacar que las acciones de condicionamiento para estas muestras siempre se obtienen mediante la interacción del agente con el entorno , mientras que las observaciones de condicionamiento pueden obtenerse de (el objetivo de forzamiento por el maestro) o de la simulación (el objetivo autorregresivo).