Knowledge Distillation/es

Article
Topic area	Deep Learning
Prerequisites	Cross-Entropy Loss, Softmax Function, KL Divergence

This page is a translated version of the page Knowledge Distillation and the translation is 100% complete.

Other languages:

English
Español
中文

Visión general

La destilación de conocimiento es una técnica de compresión de modelos y de transferencia de conocimiento en la que una pequeña red "estudiante" se entrena para imitar el comportamiento de un modelo "profesor" más grande y más preciso, en lugar de aprender directamente a partir de etiquetas brutas. El objetivo de entrenamiento del estudiante combina, o reemplaza, la pérdida supervisada estándar con un término que aproxima la distribución de salida del estudiante a la distribución de salida del profesor sobre las mismas entradas. Dado que las salidas del profesor codifican información más rica que las etiquetas one-hot, incluyendo el grado de confianza del profesor y qué clases alternativas considera plausibles, el estudiante a menudo puede alcanzar una precisión inalcanzable cuando se entrena desde cero solo con las etiquetas, ejecutándose a una fracción del coste de cómputo y memoria.

La técnica fue popularizada en el aprendizaje profundo moderno por Hinton, Vinyals y Dean en 2015, quienes la enmarcaron como la transferencia del "conocimiento oscuro" embebido en los logits suavizados del profesor. Desde entonces se ha convertido en una herramienta estándar en las canalizaciones de aprendizaje profundo en producción, desplegada allí donde un modelo potente pero costoso debe ser reemplazado por uno más barato para inferencia: modelos móviles de visión destilados a partir de grandes conjuntos convolucionales, pequeños modelos de lenguaje destilados a partir de profesores frontera basados en Transformer, y reconocedores de voz en dispositivo destilados a partir de sistemas de calidad de servidor. Más allá de la compresión, la destilación se utiliza dentro de las canalizaciones de entrenamiento para auto-mejora, compresión de conjuntos, transferencia entre arquitecturas, y como regularizador incluso cuando el profesor y el estudiante son del mismo tamaño.

Formulación

La formulación canónica considera una tarea de clasificación con $$ K $$ clases. Sean $$ z^t = f^t(x) $$ y $$ z^s = f^s(x) $$ los logits producidos por el profesor y el estudiante sobre la entrada $$ x $$ . El recurso clave de Hinton es la función Softmax escalada por temperatura:

$p_i^{\tau}(z) = \frac{\exp(z_i / \tau)}{\sum_{j=1}^{K} \exp(z_j / \tau)}.$

Una temperatura $\tau > 1$ suaviza la distribución, elevando la probabilidad relativa de las clases no dominantes y exponiendo las creencias relativas del profesor sobre ellas. La pérdida de destilación ajusta la distribución suavizada del estudiante a la del profesor:

$\mathcal{L}_{\text{KD}}(x) = \tau^2 \, D_{\mathrm{KL}}\!\left(p^{\tau}(z^t) \,\|\, p^{\tau}(z^s)\right),$

donde el factor $\tau^2$ compensa el escalado del gradiente introducido al dividir los logits entre $\tau$ , de manera que la magnitud del gradiente de destilación permanece comparable entre temperaturas. El objetivo total suele ser una combinación convexa con la pérdida de entropía cruzada de etiqueta dura estándar:

$\mathcal{L}(x, y) = (1 - \alpha) \, \mathcal{L}_{\text{CE}}(y, p^{1}(z^s)) + \alpha \, \mathcal{L}_{\text{KD}}(x),$

donde $$ y $$ es la etiqueta verdadera, $\alpha \in [0, 1]$ equilibra los dos términos, y la entropía cruzada se evalúa a temperatura $$ 1 $$ para que la supervisión por etiqueta dura no se suavice. Los hiperparámetros típicos son $\tau \in [2, 10]$ y $\alpha \in [0.5, 0.9]$ , con valores ajustados sobre un conjunto de validación.

En el límite de alta temperatura, expandir la softmax suavizada muestra que minimizar la divergencia KL se reduce a igualar los logits del profesor salvo una media por ejemplo, lo cual da lugar a la variante más antigua de coincidencia de logits debida a Bucila, Caruana y Niculescu-Mizil. A temperatura $$ 1 $$ el término de destilación se reduce a una entropía cruzada ordinaria contra la distribución predictiva del profesor, recuperando el "entrenamiento con etiquetas blandas".

Por qué funciona: el conocimiento oscuro

La intuición que enfatizó Hinton es que las probabilidades casi nulas que un profesor confiado asigna a clases incorrectas siguen aportando información. Un modelo entrenado en ImageNet podría asignar una probabilidad de $10^{-6}$ a "BMW" y de $10^{-9}$ a "zanahoria" cuando la etiqueta verdadera es "camión de basura", y la razón entre estas probabilidades minúsculas codifica que los BMW se parecen más a un camión que las zanahorias. Las etiquetas one-hot destruyen esa estructura de similitud; la distribución suavizada del profesor la conserva. Entrenar al estudiante para reproducir la distribución completa transmite, por tanto, un sesgo inductivo sobre la geometría del espacio de etiquetas que ningún ejemplo etiquetado puede aportar por sí solo.

Una visión complementaria es que el profesor actúa como un estimador suavizado de la posterior de clase óptima de Bayes. Cuando las etiquetas son estocásticas o ambiguas, la distribución del profesor promedia respuestas plausibles, ofreciendo al estudiante una señal de entrenamiento menos ruidosa que las etiquetas mismas. Desde este ángulo, la destilación es una forma de regularización estrechamente relacionada con el suavizado de etiquetas: ambos reemplazan los objetivos one-hot por objetivos más blandos, pero los objetivos de la destilación dependen de la entrada y no son uniformes. La fuerza efectiva de regularización de la destilación se ha formalizado en trabajos que muestran que es aproximadamente equivalente a un ajuste particular del equilibrio sesgo-varianza cuando el profesor es un estimador calibrado.

Variantes

La pérdida de objetivos blandos al estilo de Hinton suele llamarse hoy destilación de respuesta o destilación de logits, porque la supervisión vive en la salida de la red. Una segunda familia, la destilación de características, en cambio empareja representaciones intermedias: se le pide al estudiante reproducir las activaciones ocultas del profesor o sus mapas de atención, posiblemente a través de una proyección aprendida. FitNets, la transferencia de atención y las pérdidas de imitación de características más recientes pertenecen todas a esta categoría. La destilación de características puede extraer más guía del profesor cuando la supervisión por la salida resulta insuficiente, particularmente cuando las arquitecturas difieren tanto que alinear las salidas es una restricción demasiado gruesa.

Una tercera familia, la destilación de relaciones, transfiere información estructural sobre cómo el profesor organiza un lote de ejemplos en lugar de sus predicciones absolutas. Métodos como Relational KD y Similarity-Preserving KD emparejan matrices de Gram de activaciones o distancias por pares entre incrustaciones, lo cual hace que la supervisión sea invariante a las dimensiones precisas de las características de las dos redes.

La destilación también se subdivide según cuándo se entrenan el profesor y el estudiante. La destilación offline utiliza un profesor preentrenado fijo; este es, con diferencia, el escenario más común. La destilación online entrena conjuntamente una cohorte de estudiantes, en la que cada estudiante trata un agregado de los demás como profesor blando, eliminando la necesidad de un profesor entrenado por separado. La auto-destilación itera sobre una sola arquitectura, donde el estudiante de una ronda se convierte en el profesor de la siguiente, y, sorprendentemente, suele mejorar la precisión incluso cuando la arquitectura permanece fija. Las redes "born-again" formalizan este procedimiento iterado de auto-destilación.

Para los modelos de lenguaje en concreto, la destilación a nivel de secuencia de Kim y Rush adapta la técnica a la generación autorregresiva entrenando al estudiante para imitar las salidas de búsqueda en haz del profesor en lugar de su distribución por token, lo cual evita los desajustes de sesgo de exposición y se utiliza ampliamente para comprimir modelos de traducción y de resumen. Para modelos muy grandes, la destilación sustenta muchas recetas prácticas de pequeños LM, incluyendo DistilBERT, MobileBERT y la práctica más amplia de producir variantes baratas en inferencia a partir de profesores frontera.

Entrenamiento e inferencia

Una canalización estándar de destilación offline se desarrolla del siguiente modo. El profesor se entrena o se descarga y se mantiene congelado. El bucle de entrenamiento itera sobre el conjunto de entrenamiento etiquetado y, para cada lote, ejecuta tanto el profesor (en modo evaluación) como el estudiante. Las probabilidades suavizadas del profesor se precalculan si el almacenamiento lo permite, o se calculan al vuelo en caso contrario; almacenar los logits del profesor evita pasadas hacia delante redundantes a través de las épocas pero consume $$ O(N K) $$ memoria adicional para $$ N $$ ejemplos de entrenamiento. El estudiante se actualiza retropropagando la pérdida combinada a través de sus propios parámetros; el profesor nunca se actualiza.

La destilación puede ejecutarse sobre los mismos datos que vio el profesor, sobre datos no etiquetados adicionales (puesto que las etiquetas blandas no requieren verdad de referencia), o sobre un conjunto de transferencia reservado. El escenario con datos no etiquetados resulta particularmente atractivo en producción: se puede escalar el conjunto de entrenamiento del estudiante mucho más allá del corpus etiquetado confiando en que el profesor proporcione los objetivos, que es esencialmente cómo se producen los modelos de lenguaje pequeños modernos a partir de profesores frontera.

En el momento de la inferencia el profesor se descarta por completo. El estudiante se ejecuta como un modelo independiente sin sobrecarga arquitectónica derivada del procedimiento de destilación.

Comparaciones

La destilación es una de las tres principales estrategias de compresión de modelos, junto con la cuantización y la poda. La cuantización reduce la precisión numérica de una arquitectura fija; la poda elimina pesos o estructuras de una arquitectura fija; la destilación cambia la arquitectura por completo, reemplazando a menudo una red profunda y ancha por otra más superficial o más estrecha. Las tres son en gran medida complementarias y se combinan con frecuencia: un profesor frontera se destila en una arquitectura más pequeña, que luego se poda y se cuantiza para el despliegue. La destilación por sí sola tiende a producir las mayores ganancias de precisión a tamaño fijo cuando el profesor original es mucho mayor de lo que permite el presupuesto de despliegue, mientras que la cuantización y la poda dan mejores ganancias cuando la arquitectura ya está cerca del tamaño correcto.

La destilación también tiene parientes conceptuales fuera de la compresión. La co-destilación y la destilación online son formas de entrenamiento de métodos de conjunto en las que múltiples estudiantes se enseñan entre sí; los métodos mean-teacher en el aprendizaje semi-supervisado son una forma de auto-destilación con media móvil; y la destilación de política en aprendizaje por refuerzo transfiere una política compleja a una más simple usando la misma maquinaria aplicada a distribuciones de acciones en lugar de probabilidades de clase.

Limitaciones

La destilación no es gratuita. Requiere un profesor funcional, que a su vez debe haberse entrenado a algún coste, y la precisión del estudiante está acotada superiormente por lo que la arquitectura del estudiante elegida puede en principio representar: una red que carece de capacidad para modelar la tarea no se salvará con objetivos más blandos. La elección de la temperatura y del peso de la pérdida es empírica, y combinaciones patológicas, como una temperatura muy alta con un $\alpha$ muy bajo, pueden producir un estudiante que imita los errores del profesor con más fidelidad que sus aciertos. Cuando el profesor está mal calibrado, las etiquetas blandas pueden perjudicar activamente al estudiante, y destilar a partir de un profesor que ha memorizado su conjunto de entrenamiento propaga esa memorización al estudiante.

La destilación a nivel de característica introduce fragilidades adicionales: la alineación por proyección entre las características del profesor y del estudiante es en sí misma un hiperparámetro, y un emparejamiento agresivo de características puede sobre-restringir al estudiante a las idiosincrasias representacionales del profesor. Para los modelos generativos, la destilación interactúa con el sesgo de exposición del entrenamiento autorregresivo de formas que la pérdida a nivel de respuesta de Hinton no puede abordar, lo cual motiva las variantes a nivel de secuencia. Por último, la destilación no aporta garantías sobre el comportamiento fuera de la distribución cubierta por el conjunto de transferencia; un estudiante destilado puede fallar silenciosamente en regiones del espacio de entrada que el profesor nunca consultó, lo que es una preocupación particular para despliegues críticos para la seguridad y para la destilación de modelos de lenguaje grandes cuyos profesores se consultan sobre un vasto espacio de entrada en tiempo de entrenamiento pero solo sobre una franja estrecha en tiempo de destilación.

Referencias

^[1] ^[2] ^[3] ^[4] ^[5] ^[6] ^[7] ^[8] ^[9]

↑ Template:Cite arxiv
↑ Bucila, C., Caruana, R., and Niculescu-Mizil, A. Model Compression. KDD, 2006.
↑ Template:Cite arxiv
↑ Template:Cite arxiv
↑ Template:Cite arxiv
↑ Template:Cite arxiv
↑ Template:Cite arxiv
↑ Template:Cite arxiv
↑ Template:Cite arxiv

[1] Template:Cite arxiv

[2] Bucila, C., Caruana, R., and Niculescu-Mizil, A. Model Compression. KDD, 2006.

[3] Template:Cite arxiv

[4] Template:Cite arxiv

[5] Template:Cite arxiv

[6] Template:Cite arxiv

[7] Template:Cite arxiv

[8] Template:Cite arxiv

[9] Template:Cite arxiv

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]