Imitation Learning/es
| Article | |
|---|---|
| Topic area | Reinforcement Learning |
| Prerequisites | Deep learning, Cross-Entropy Loss, Generative Adversarial Networks |
Resumen
El aprendizaje por imitación es una clase de métodos de aprendizaje automático en la que un agente aprende a realizar una tarea observando demostraciones de un experto, en lugar de optimizar una señal de recompensa especificada manualmente mediante ensayo y error. El experto suele ser un operador humano, un controlador programado o una política previamente entrenada, y las demostraciones consisten en trayectorias de observaciones emparejadas con las acciones que tomó el experto. El objetivo es recuperar una política que reproduzca el comportamiento del experto en los estados encontrados durante el despliegue, idealmente generalizando a estados que no están presentes en el conjunto de demostraciones.
El aprendizaje por imitación se sitúa entre el aprendizaje supervisado y el aprendizaje por refuerzo. Al igual que el aprendizaje supervisado, se basa en pares de entrada-salida etiquetados y evita la alta complejidad muestral de la pura exploración guiada por recompensas. Al igual que el aprendizaje por refuerzo, aborda problemas de toma de decisiones secuenciales en los que las acciones influyen sobre la distribución de las entradas futuras. Esta posición intermedia lo convierte en una primera opción práctica para la robótica, la conducción autónoma, los sistemas de diálogo y los juegos, especialmente en escenarios donde es difícil especificar una función de recompensa pero las demostraciones son fáciles de recopilar.
Planteamiento del problema
Formalmente, el aprendizaje por imitación se estudia dentro de un proceso de decisión de Markov sin recompensas, a veces llamado proceso de Markov controlado: una tupla $ (\mathcal{S}, \mathcal{A}, P, \rho_0) $ formada por un espacio de estados, un espacio de acciones, una dinámica de transición $ P(s' \mid s, a) $ y una distribución de estado inicial $ \rho_0 $. El experto se representa mediante una política $ \pi^{*}(a \mid s) $, y el aprendiz observa un conjunto de datos
$ {\displaystyle \mathcal{D} = \{(s_i, a_i)\}_{i=1}^{N}, \quad (s_i, a_i) \sim d^{\pi^{*}},} $
donde $ d^{\pi^{*}} $ es la distribución estado-acción inducida por el experto. El objetivo es aprender una política parametrizada $ \pi_\theta(a \mid s) $ cuya distribución de trayectorias coincida con la del experto, evaluada bien por similitud de comportamiento, por desempeño bajo una recompensa de tarea desconocida, o por una divergencia entre medidas de ocupación.
Una dificultad central es que el aprendiz se evalúa bajo su propia distribución de estados $ d^{\pi_\theta} $, no la del experto $ d^{\pi^{*}} $. Pequeños errores de predicción por paso se acumulan con el tiempo y empujan al agente hacia estados que el experto nunca visitó, donde la política no tiene señal de entrenamiento. Este fenómeno, a menudo llamado cambio de covariables o error compuesto, es la fuente de la mayoría de los desarrollos algorítmicos del campo.
Clonación de comportamiento
El método de imitación más simple es la clonación de comportamiento, que trata el conjunto de demostraciones como un problema supervisado i.i.d. de clasificación o regresión. El aprendiz minimiza una pérdida entre la acción predicha y la acción demostrada en cada estado demostrado:
$ {\displaystyle \min_{\theta} \; \mathbb{E}_{(s, a) \sim \mathcal{D}} \big[ \ell(\pi_\theta(s), a) \big].} $
Para acciones discretas, $ \ell $ es típicamente la log-verosimilitud negativa; para acciones continuas es el error cuadrático medio o una log-verosimilitud negativa gaussiana. La clonación de comportamiento resulta atractiva porque no requiere acceso al entorno durante el entrenamiento, se integra con cualquier arquitectura empleada para el aprendizaje supervisado y escala a conjuntos de demostraciones muy grandes.
Su debilidad se desprende del supuesto i.i.d. Ross y Bagnell mostraron que el número esperado de errores de una política clonada por comportamiento puede crecer cuadráticamente con el horizonte de trayectoria $ T $, porque cada error desplaza la distribución de estados aún más lejos del conjunto de entrenamiento. En consecuencia, la clonación de comportamiento suele desempeñarse de forma adecuada cerca del soporte de las demostraciones, pero se degrada bruscamente en tareas de horizonte largo o en regiones del espacio de estados que el experto visitó solo en raras ocasiones.
Imitación interactiva: DAgger
La agregación de conjuntos de datos, conocida como DAgger, aborda el error compuesto recopilando demostraciones bajo la propia distribución de estados del aprendiz. En cada iteración, la política actual $ \pi_\theta $ se ejecuta en el entorno, los estados resultantes se consultan al experto y los nuevos pares estado-acción se añaden al conjunto de datos. La política se reentrena entonces sobre los datos agregados:
$ {\displaystyle \mathcal{D}_{k+1} = \mathcal{D}_k \cup \{(s, \pi^{*}(s)) : s \sim d^{\pi_{\theta_k}}\}.} $
Bajo supuestos estándar de minimización del arrepentimiento, DAgger reduce la dependencia respecto al horizonte de cuadrática a lineal. El costo es que el experto debe poder consultarse en línea, lo cual limita su aplicabilidad cuando las demostraciones provienen de registros fuera de línea o de operadores humanos que no pueden etiquetar estados arbitrarios bajo demanda. Variantes como SafeDAgger y HG-DAgger reducen la carga sobre el experto consultándolo solo cuando el aprendiz está incierto o cuando su acción propuesta diverge de un controlador de seguridad.
Aprendizaje por refuerzo inverso
El aprendizaje por refuerzo inverso replantea el problema como la recuperación de una función de recompensa $ r_\phi $ bajo la cual la política del experto es óptima, para luego planificar o aprender una política contra la recompensa recuperada. Se trata al experto como si resolviera
$ {\displaystyle \pi^{*} \in \arg\max_{\pi} \mathbb{E}_{\pi}\!\left[\sum_{t=0}^{\infty} \gamma^{t} r_\phi(s_t, a_t)\right],} $
y el aprendiz busca parámetros de recompensa que hagan esto consistente con las demostraciones. La formulación de máxima entropía de Ziebart et al. resuelve la ambigüedad inherente (muchas recompensas racionalizan el mismo comportamiento) prefiriendo recompensas bajo las cuales la distribución de trayectorias del experto tiene máxima entropía sujeta al ajuste de las esperanzas de las características. El aprendizaje por refuerzo inverso suele generalizar mejor que la clonación de comportamiento porque la recompensa recuperada, al ser una propiedad de los estados y no de las trayectorias, se transfiere a través de las dinámicas y las condiciones iniciales, pero es computacionalmente costoso y normalmente requiere resolver un problema de control directo en un bucle interno.
Aprendizaje por imitación adversarial
El aprendizaje por imitación adversarial generativo, o GAIL, elimina el planificador explícito de bucle interno del aprendizaje por refuerzo inverso entrenando un discriminador $ D_\phi(s, a) $ que distinga los pares estado-acción del experto de aquellos generados por $ \pi_\theta $, y utilizando el log-cociente de probabilidades del discriminador como una recompensa sustituta. El objetivo minimax es
$ {\displaystyle \min_{\theta} \max_{\phi} \; \mathbb{E}_{(s,a) \sim d^{\pi^{*}}}[\log D_\phi(s,a)] + \mathbb{E}_{(s,a) \sim d^{\pi_\theta}}[\log(1 - D_\phi(s,a))] - \lambda H(\pi_\theta),} $
donde $ H(\pi_\theta) $ es un regularizador de entropía de la política. El óptimo se alcanza cuando la medida de ocupación de $ \pi_\theta $ coincide con la de $ \pi^{*} $, momento en el cual el discriminador produce $ 1/2 $ en todas partes. GAIL hereda la eficiencia muestral del aprendizaje por refuerzo inverso y reutiliza la maquinaria estándar de gradiente de política, y ha generado variantes que ajustan distintas divergencias (f-divergencias, Wasserstein), incorporan información sobre objetivos o utilizan datos fuera de línea.
Consideraciones prácticas
La elección entre métodos viene determinada en gran medida por lo que esté disponible. Si las demostraciones son abundantes y la distribución de despliegue está cerca de la distribución de las demostraciones, la clonación de comportamiento es la línea base más sólida y debería probarse primero. Si el experto puede consultarse en línea y el horizonte es largo, se prefiere DAgger o alguna de sus variantes más seguras. Si las demostraciones son escasas pero el entorno es barato de explorar, GAIL u otro método adversarial extrae más señal por demostración. El aprendizaje por refuerzo inverso resulta favorable cuando la recompensa recuperada es en sí misma el artefacto de interés, por ejemplo para transferir comportamiento a un nuevo robot o para interpretar las preferencias humanas.
Los espacios de acción, la modalidad de observación y la forma del experto son todos importantes. El control continuo se beneficia de políticas gaussianas o de mezcla de gaussianas y de un tratamiento explícito de la suavidad de las acciones. Las observaciones basadas en píxeles requieren representaciones perceptuales preentrenadas con auto-supervisión. Cuando el experto es multimodal (distintos humanos, o un mismo humano actuando de forma diferente en estados similares), las políticas gaussianas únicas promedian sobre los modos y producen un comportamiento deficiente; las políticas multimodales explícitas, los modelos basados en energía o las cabezas de acción basadas en difusión se han convertido en respuestas habituales.
Limitaciones y problemas abiertos
El aprendizaje por imitación hereda los sesgos de sus demostraciones. Una política entrenada a partir de un único conductor reproducirá las idiosincrasias de ese conductor, y una política entrenada a partir de una flota las promediará de maneras que pueden resultar más suaves que cualquier individuo, pero peores en maniobras poco frecuentes. Las demostraciones tampoco suelen cubrir la recuperación ante fallos: el experto tiende a evitar los estados malos desde los que la recuperación es más difícil de aprender, dejando al imitador frágil precisamente donde más importa la robustez.
Las direcciones de investigación abiertas incluyen escalar la imitación a vídeo a escala de internet, manejar demostraciones sin etiquetas de acciones, combinar la imitación con el aprendizaje por refuerzo fuera de línea para aprovechar datos subóptimos y cuantificar cuándo un imitador está autorizado a extrapolar más allá de su soporte. La conexión con el modelado generativo es cada vez más directa: los modelos de difusión de acciones, las políticas autorregresivas entrenadas sobre trayectorias tokenizadas y los grandes modelos de comportamiento tratan todos la imitación como un problema de ajuste de distribuciones a gran escala.
Referencias
- Pomerleau, D. ALVINN: An Autonomous Land Vehicle in a Neural Network. NeurIPS, 1988.
- Ross, S., Gordon, G., Bagnell, D. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning. AISTATS, 2011.
- Abbeel, P., Ng, A. Apprenticeship Learning via Inverse Reinforcement Learning. ICML, 2004.
- Ziebart, B., Maas, A., Bagnell, D., Dey, A. Maximum Entropía Inverse Reinforcement Learning. AAAI, 2008.
- Ho, J., Ermon, S. Generative Adversarial Imitation Learning. NeurIPS, 2016.
- Osa, T., Pajarinen, J., Neumann, G., Bagnell, D., Abbeel, P., Peters, J. An Algorithmic Perspective on Imitation Learning. Foundations and Trends in Robotics, 2018.