Ahora entrenamos un modelo generativo de difusión condicionado a las trayectorias del agente T a g e n t {\displaystyle {\mathcal {T}}_{agent}} (acciones y observaciones) recopiladas durante la etapa anterior.