Curriculum Learning/es
| Article | |
|---|---|
| Topic area | Machine Learning |
| Prerequisites | Stochastic Gradient Descent, Backpropagation, Transfer Learning |
Visión general
El aprendizaje por currículo es una estrategia de entrenamiento para modelos de aprendizaje automático en la que los ejemplos se presentan en un orden estructurado, normalmente de más fácil a más difícil, en lugar de de forma uniformemente aleatoria. La técnica se inspira en cómo los humanos y los animales aprenden habilidades complejas: a un niño se le enseña a sumar enteros pequeños antes de abordar la división larga, y un estudiante de ajedrez estudia los finales antes de la teoría de aperturas. En el contexto del aprendizaje automático, la afirmación análoga es que el paisaje de optimización de un modelo entrenado primero con datos simples es más suave y admite una trayectoria mejor condicionada hacia soluciones que generalizan bien sobre la distribución completa.
La estrategia fue formalizada por Bengio y colegas en 2009 como un principio general de entrenamiento tanto para modelos superficiales como profundos.[1] Desde entonces se ha aplicado al modelado de lenguaje, la traducción automática, la visión por computador, la robótica y el aprendizaje por refuerzo, y ha surgido una amplia familia de variantes que difieren en cómo se mide la dificultad y cómo se actualiza la distribución de entrenamiento a lo largo del tiempo.
Intuición y motivación
Dos intuiciones complementarias motivan el aprendizaje por currículo. La primera es de optimización: comenzar con una versión más simple de una tarea equivale a comenzar con una aproximación más suave del paisaje de pérdida, lo que puede guiar al Stochastic Gradient Descent hacia cuencas de atracción que de otro modo serían difíciles de alcanzar. Esta visión conecta el aprendizaje por currículo con los métodos de continuación en optimización numérica, en los que se resuelve una secuencia de problemas cuyos objetivos convergen al objetivo original.
La segunda intuición es estadística: con datos finitos y tiempo de entrenamiento finito, presentar primero los ejemplos fáciles asigna capacidad a patrones robustos antes de pedir al modelo que memorice ejemplos raros o ruidosos. En regímenes de alto ruido, los currículos que enfatizan los ejemplos limpios al principio pueden actuar como un regularizador implícito y reducir la sensibilidad a los valores atípicos.
Ninguna de las dos intuiciones garantiza una mejora. Cuando el modelo es suficientemente expresivo y el presupuesto es grande, el muestreo aleatorio uniforme suele ser competitivo con currículos diseñados a mano. Por ello, la literatura empírica es desigual, y la práctica moderna tiende a usar currículos automatizados o aprendidos en lugar de ordenamientos fijos.
Formulación
Sea $ D = \{(x_i, y_i)\}_{i=1}^{N} $ el conjunto de entrenamiento y $ \ell(\theta; x, y) $ la pérdida por ejemplo para los parámetros $ \theta $. Un currículo es una secuencia de distribuciones de probabilidad $ p_1, p_2, \dots, p_T $ sobre $ D $ tal que el soporte y la entropía de $ p_t $ crecen con $ t $ y $ p_T $ se aproxima a la distribución uniforme. En el paso $ t $ el optimizador minimiza el riesgo ponderado
$ {\displaystyle L_t(\theta) = \sum_{i=1}^{N} p_t(i) \, \ell(\theta; x_i, y_i).} $
Dos decisiones de diseño especifican por completo un currículo: una medida de dificultad $ d : D \to \mathbb{R} $ que clasifica los ejemplos, y una función de ritmo $ g : \{1, \dots, T\} \to [0, 1] $ que controla con qué rapidez se admiten ejemplos más difíciles. Una parametrización habitual mantiene los $ g(t) \cdot N $ ejemplos más fáciles en el soporte de $ p_t $, con peso uniforme dentro del soporte y peso cero fuera. Las funciones de ritmo lineales, exponenciales y por escalones son todas de uso habitual.
Medidas de dificultad
La dificultad puede definirse externamente o aprenderse. Las medidas externas usan señales disponibles antes del entrenamiento, como la longitud de oración en traducción automática, la resolución de imagen en visión, o heurísticas específicas de la tarea. Las medidas aprendidas usan el propio modelo: un ejemplo es difícil si la pérdida actual es alta, o si un modelo profesor le asigna baja confianza. Las medidas basadas en pérdida acoplan la dificultad a la trayectoria de entrenamiento y son la base del aprendizaje a ritmo propio. Las medidas basadas en confianza, calculadas a menudo por un profesor auxiliar, sustentan currículos al estilo de destilación de conocimiento, en los que un modelo más fuerte marca el ritmo a uno más débil.
Un inconveniente sutil es que la dificultad basada en pérdida coevoluciona con el modelo. Ejemplos que parecen difíciles en la inicialización pueden volverse triviales tras unas pocas épocas, por lo que un umbral estático rápidamente pierde sentido. Por ello, las implementaciones prácticas recalculan periódicamente las dificultades o reemplazan los umbrales fijos por cuantiles de la distribución de pérdida actual.
Variantes
Varias familias distintas han crecido en torno a la formulación original.
El aprendizaje a ritmo propio deja que el modelo decida qué ejemplos incluir, optimizando conjuntamente los parámetros del modelo y una variable binaria de inclusión por ejemplo, con un regularizador que tira hacia arriba la masa de inclusión a lo largo del tiempo.[2] El enfoque sustituye el ritmo ajustado a mano por una regla automática, guiada por la pérdida.
Los anti-currículos y la minería de ejemplos difíciles invierten el orden. La minería de ejemplos difíciles concentra el entrenamiento en los ejemplos de alta pérdida, con la esperanza de acelerar la convergencia, y ha tenido un éxito particular en detección de objetos y en aprendizaje de representaciones contrastivo.
El aprendizaje por currículo automatizado formula la elección de $ p_t $ como un problema de decisión secuencial y lo resuelve con maquinaria de bandits, aprendizaje por refuerzo o meta-aprendizaje. La política del profesor es recompensada por mejoras en la pérdida de validación del estudiante o en su progreso de aprendizaje, y puede descubrir currículos no monótonos que la pura intuición pasaría por alto.[3]
El aprendizaje por refuerzo por currículo aplica la misma idea a entornos en lugar de a datos, con un generador que propone tareas de dificultad creciente para que un agente pueda hacer bootstrap desde un régimen simple hacia problemas de recompensa dispersa que serían inaprendibles desde cero.
Comparaciones y conexiones
El aprendizaje por currículo está relacionado con el Transfer Learning pero es distinto: el aprendizaje por transferencia reutiliza parámetros entre tareas, mientras que el aprendizaje por currículo reutiliza los mismos parámetros a lo largo de una secuencia de distribuciones de entrenamiento sobre una única tarea. Ambos suelen combinarse, ajustando finamente un modelo preentrenado bajo un currículo sobre la distribución objetivo.
El boosting puede verse como un anti-currículo: cada ronda enfatiza los ejemplos que el ensamble actual clasifica mal. El muestreo por importancia, la repetición de experiencia priorizada y la reponderación con pérdida focal son todos miembros de la familia más amplia de estrategias de muestreo no uniforme a la que pertenece el aprendizaje por currículo.
Hallazgos empíricos y limitaciones
Las ganancias reportadas con el aprendizaje por currículo son reales pero modestas y desiguales. Los currículos tienden a ayudar más cuando los datos de entrenamiento son ruidosos, cuando la tarea se compone de subtareas de dificultad claramente distinta, cuando los presupuestos de entrenamiento son pequeños, o cuando la superficie de pérdida está mal condicionada en la inicialización. Las ganancias suelen reducirse o desaparecer a medida que crecen el tamaño del modelo y el presupuesto de entrenamiento, y en los benchmarks estándar de clasificación de imágenes el muestreo uniforme bien afinado con Batch Normalization es una línea base sólida que los currículos automatizados tienen dificultad para superar de forma consistente.
Entre los modos de fallo habituales se encuentran los currículos que convergen a un subconjunto fácil degenerado, los esquemas de ritmo que avanzan demasiado lentamente y privan al modelo de gradientes diversos, y las medidas de dificultad que se descalibran a medida que el modelo mejora. La sensibilidad a estos hiperparámetros es la principal razón por la que cada vez más profesionales prefieren los currículos aprendidos a los diseñados a mano.
Referencias
- ↑ Bengio, Y., Louradour, J., Collobert, R., and Weston, J., "Curriculum Learning," ICML 2009.
- ↑ Kumar, M. P., Packer, B., and Koller, D., "Self-Paced Learning for Latent Variable Models," NeurIPS 2010.
- ↑ Graves, A., Bellemare, M. G., Menick, J., Munos, R., and Kavukcuoglu, K., "Automated Curriculum Learning for Neural Networks," ICML 2017.