Few-Shot Learning/es

Article
Topic area	Machine Learning
Prerequisites	Supervised Learning, Transfer Learning, Meta-Learning

This page is a translated version of the page Few-Shot Learning and the translation is 100% complete.

Other languages:

English
Español
中文

Visión general

El aprendizaje con pocos ejemplos es un paradigma del aprendizaje automático en el que un modelo debe generalizar a una nueva tarea o clase a partir de un número reducido de ejemplos etiquetados, típicamente entre uno y unas pocas decenas. Contrasta con el régimen supervisado convencional, que asume miles o millones de muestras etiquetadas por clase, y está motivado tanto por la escasez práctica de datos etiquetados como por el deseo de imitar la capacidad humana de reconocer nuevos conceptos tras una exposición limitada. El aprendizaje con pocos ejemplos se sitúa en la intersección entre aprendizaje por transferencia, metaaprendizaje y aprendizaje de representaciones, y se ha convertido en un entorno de evaluación central para los modelos de base y los modelos de lenguaje a gran escala, donde el término suele referirse específicamente a las demostraciones en contexto suministradas en tiempo de inferencia.

Una tarea de pocos ejemplos suele describirse como N-vías K-ejemplos: el aprendiz debe distinguir entre N clases dadas K muestras etiquetadas por clase, con K habitualmente entre uno y veinte. Las K muestras forman el conjunto de soporte, y los ejemplos de consulta no etiquetados que deben clasificarse forman el conjunto de consulta. El objetivo es alta exactitud en la consulta bajo presupuestos de muestras reducidos, y el progreso se mide frente a puntos de referencia diseñados para penalizar a los modelos que simplemente sobreajustan una taxonomía fija.

Planteamiento del problema

Formalmente, sea $\mathcal{D}_{\text{train}}$ una distribución amplia de tareas de metaentrenamiento y $\mathcal{D}_{\text{test}}$ una distribución reservada de tareas nuevas cuyas clases no se vieron durante el entrenamiento. Cada tarea $\tau$ muestrea un conjunto de soporte $S = \{(x_i, y_i)\}_{i=1}^{N \cdot K}$ y un conjunto de consulta $Q = \{(x_j^*, y_j^*)\}$ . El objetivo consiste en aprender un procedimiento $f_\theta$ que, dado $$ S $$ , prediga $$ y_j^* $$ para cada $$ x_j^* $$ :

$\theta^* = \arg\min_\theta \; \mathbb{E}_{\tau \sim \mathcal{D}_{\text{train}}} \; \mathbb{E}_{(S, Q) \sim \tau} \; \sum_{(x^*, y^*) \in Q} \mathcal{L}\bigl(f_\theta(x^*; S), y^*\bigr).$

Dos casos límite reciben nombres propios. El aprendizaje con un solo ejemplo fija $$ K = 1 $$ , exigiendo una única muestra etiquetada por clase. El aprendizaje sin ejemplos establece $$ K = 0 $$ y se apoya en información auxiliar, como nombres de clase, descripciones textuales o vectores de atributos, para identificar las clases nuevas. El aprendizaje con pocos ejemplos generalizado evalúa sobre una mezcla de clases base y clases nuevas, lo que pone de manifiesto el olvido catastrófico que suele acompañar a una adaptación agresiva.

Familias metodológicas

Los métodos de pocos ejemplos suelen agruparse en cuatro familias, cada una de las cuales apuesta por una ubicación distinta del sesgo inductivo útil.

Los métodos basados en métricas aprenden un espacio de representación incrustada en el que reglas geométricas simples bastan para la clasificación. Las redes Matching Networks calculan pesos de atención entre las representaciones de la consulta y las del soporte.^[1] Las redes Prototypical Networks^[2] calculan un prototipo $c_n = \tfrac{1}{K}\sum_{(x,y) \in S, y=n} f_\phi(x)$ por clase y asignan las consultas al prototipo más cercano según la distancia euclidiana al cuadrado o la distancia coseno:

$p(y = n \mid x) = \frac{\exp(-d(f_\phi(x), c_n))}{\sum_{n'} \exp(-d(f_\phi(x), c_{n'}))}.$

Las redes Relation Networks sustituyen la función de distancia fija por un comparador aprendido. La propiedad común a todas estas técnicas es que en tiempo de prueba no se realizan actualizaciones de gradiente específicas de la tarea.

Los métodos basados en optimización adaptan los parámetros del modelo a cada tarea mediante un pequeño número de pasos de gradiente. El metaaprendizaje agnóstico al modelo (MAML)^[3] aprende una inicialización $\theta$ tal que una o unas pocas actualizaciones de descenso de gradiente sobre el conjunto de soporte producen parámetros específicos de la tarea con buen desempeño:

$\theta^* = \arg\min_\theta \sum_\tau \mathcal{L}_\tau\bigl(\theta - \alpha \nabla_\theta \mathcal{L}_\tau(\theta; S)\bigr).$

Reptile, MAML de primer orden y MAML implícito reducen el coste de diferenciar a través del bucle interno, y métodos como ANIL muestran que la adaptación a menudo solo necesita afectar al clasificador final.

Los métodos basados en modelo diseñan arquitecturas cuya pasada hacia adelante implementa una adaptación rápida. Las redes con memoria aumentada almacenan los ejemplos de soporte en una memoria externa con ranuras, y los procesos neuronales condicionales tratan el conjunto de soporte como entrada de un codificador invariante a permutaciones que condiciona una distribución predictiva.

El aprendizaje en contexto ha emergido como la interfaz dominante de pocos ejemplos para los modelos de lenguaje a gran escala. Al modelo se le muestran ejemplos etiquetados en su prompt y produce predicciones para una nueva entrada sin actualizar ningún parámetro.^[4] El rendimiento depende fuertemente del orden de las demostraciones, de la distribución de etiquetas y del formato del prompt, y trabajos recientes muestran que la señal dominante es a menudo la distribución de entradas y el espacio de etiquetas más que la propia correspondencia entrada-etiqueta.

Entrenamiento y evaluación

El entrenamiento episódico, popularizado por las Matching Networks, muestrea una nueva tarea N-vías K-ejemplos en cada paso de entrenamiento para que la pérdida del meta-objetivo coincida con el objetivo de prueba. Una alternativa que ha demostrado ser competitiva en los puntos de referencia estándar de imágenes consiste en preentrenar un extractor de características potente sobre todo el conjunto de metaentrenamiento mediante clasificación ordinaria, y conectar luego una cabeza simple de regresión logística o de centroide más cercano en tiempo de prueba. Esta línea base iguala o supera a muchos métodos episódicos y ha reorientado parte del campo en torno a la calidad de la representación más que a los meta-objetivos.

Los puntos de referencia estándar de imágenes incluyen miniImageNet, tieredImageNet, CIFAR-FS, FC100 y Meta-Dataset; este último muestrea deliberadamente tareas con números variables de vías, ejemplos y dominios de imagen para sacar a la luz la fragilidad de los métodos. Entre los puntos de referencia de PLN figuran CrossFit, FLEX y los tracks de pocos ejemplos de GLUE y SuperGLUE. Las cifras reportadas suelen promediarse sobre cientos o miles de episodios muestreados, con intervalos de confianza del 95 por ciento, dado que la varianza entre episodios individuales es elevada.

Comparación con paradigmas relacionados

El aprendizaje con pocos ejemplos se confunde a menudo con regímenes adyacentes que resuelven problemas distintos.

El aprendizaje por transferencia reutiliza un modelo preentrenado sobre una tarea posterior con datos etiquetados abundantes, mientras que el aprendizaje con pocos ejemplos asume explícitamente que el presupuesto posterior es minúsculo. El metaaprendizaje es un superconjunto estricto que incluye el aprendizaje con pocos ejemplos junto con la adaptación rápida en aprendizaje por refuerzo y el aprendizaje continuo. El aprendizaje semisupervisado supone abundantes ejemplos no etiquetados junto a unos pocos etiquetados; la asimetría de presupuesto es opuesta a la del entorno de pocos ejemplos, donde los datos no etiquetados también pueden ser escasos. El preentrenamiento autosupervisado puede combinarse con la adaptación de pocos ejemplos y, de hecho, la mayoría de los sistemas potentes de pocos ejemplos parten de una inicialización autosupervisada o supervisada a gran escala.

Limitaciones

Varios modos recurrentes de fallo complican el despliegue del aprendizaje con pocos ejemplos. El rendimiento es sensible a la brecha entre las distribuciones de metaentrenamiento y metaprueba, y los métodos que destacan en miniImageNet suelen degradarse en Meta-Dataset, donde el desplazamiento de dominio es explícito. La calibración de la confianza tiende a ser deficiente con conjuntos de soporte muy pequeños, y la predicción selectiva resulta poco fiable. El aprendizaje en contexto en los modelos de lenguaje a gran escala es sensible a la elección y al orden de las demostraciones, y la sola reordenación puede mover la exactitud en decenas de puntos porcentuales. La evaluación generalizada con pocos ejemplos revela que la adaptación agresiva degrada con frecuencia el rendimiento sobre las clases base, una forma de olvido catastrófico. Por último, las afirmaciones de gran rendimiento en pocos ejemplos pueden ser artefactos derivados de filtraciones entre las jerarquías de clases de metaentrenamiento y metaprueba, lo que motiva puntos de referencia como Meta-Dataset que imponen divisiones de dominio explícitas.

Véase también

Referencias

↑ Vinyals et al., Matching Networks for One Shot Learning, 2016.
↑ Template:Cite arxiv
↑ Template:Cite arxiv
↑ Template:Cite arxiv

[1] Vinyals et al., Matching Networks for One Shot Learning, 2016.

[2] Template:Cite arxiv

[3] Template:Cite arxiv

[4] Template:Cite arxiv

[1]

[2]

[3]

[4]