KL Divergence/es
| Article | |
|---|---|
| Topic area | Information Theory |
| Prerequisites | Cross-Entropy Loss, Softmax Function |
Resumen
La divergencia de Kullback-Leibler, a menudo abreviada divergencia KL y escrita $ D_{\mathrm{KL}}(P \parallel Q) $, es una medida de cuanto difiere una distribucion de probabilidad $ P $ de una segunda distribucion de referencia $ Q $ sobre el mismo espacio de resultados. Tiene su origen en la teoria de la informacion, donde cuantifica el numero esperado de bits adicionales necesarios para codificar muestras de $ P $ usando un codigo optimizado para $ Q $. En el aprendizaje automatico moderno es uno de los objetos mas utilizados: aparece implicitamente dentro de la Cross-Entropy Loss de todo clasificador, explicitamente dentro de los autocodificadores variacionales y la inferencia variacional, y como regularizador en metodos de optimizacion de politicas tales como PPO y la penalizacion KL utilizada durante el aprendizaje por refuerzo a partir de retroalimentacion humana.
La divergencia KL es no negativa, vale cero si y solo si las dos distribuciones son iguales en casi todo punto, y es asimetrica respecto a sus argumentos. Esa asimetria no es un defecto que haya que corregir; es precisamente la fuente de gran parte de su poder expresivo, porque la eleccion de que distribucion ocupa el primer lugar codifica una decision de modelado sobre que direcciones de error se penalizan. Como la KL no es una metrica (incumple la simetria y la desigualdad triangular), se la denomina divergencia y constituye el ejemplo prototipico de una familia mas amplia conocida como f-divergencias.
Definicion
Para dos distribuciones discretas $ P $ y $ Q $ sobre el mismo soporte $ \mathcal{X} $,
$ {\displaystyle D_{\mathrm{KL}}(P \parallel Q) = \sum_{x \in \mathcal{X}} P(x) \log \frac{P(x)}{Q(x)}.} $
Para distribuciones continuas con densidades $ p $ y $ q $,
$ {\displaystyle D_{\mathrm{KL}}(P \parallel Q) = \int p(x) \log \frac{p(x)}{q(x)} \, dx.} $
La base del logaritmo determina las unidades: base 2 da bits, el logaritmo natural da nats. Por convencion $ 0 \log 0 = 0 $, pero si existe algun $ x $ con $ P(x) > 0 $ y $ Q(x) = 0 $, la divergencia es infinita. Este requisito de continuidad absoluta tiene consecuencias practicas y motiva los trucos de suavizado discutidos mas abajo.
La divergencia KL puede escribirse equivalentemente como la diferencia entre la entropia cruzada y la entropia,
$ {\displaystyle D_{\mathrm{KL}}(P \parallel Q) = H(P, Q) - H(P),} $
que es la forma mas clara de ver por que minimizar la entropia cruzada respecto a un modelo $ Q $, cuando $ P $ es la distribucion de los datos, equivale exactamente a minimizar $ D_{\mathrm{KL}}(P \parallel Q) $: el termino de entropia $ H(P) $ no depende del modelo y se anula al tomar el gradiente.
Propiedades
La propiedad mas citada es la no negatividad, a veces llamada desigualdad de Gibbs:
$ {\displaystyle D_{\mathrm{KL}}(P \parallel Q) \geq 0,} $
con igualdad si y solo si $ P = Q $ en casi todo punto. Esto se sigue de la desigualdad de Jensen aplicada a la funcion convexa $ -\log $. La divergencia KL es ademas conjuntamente convexa en el par $ (P, Q) $, lo que hace que la minimizacion respecto a cualquiera de los argumentos este bien planteada en muchas situaciones.
Sin embargo, no es simetrica ni satisface una desigualdad triangular. En general,
$ {\displaystyle D_{\mathrm{KL}}(P \parallel Q) \neq D_{\mathrm{KL}}(Q \parallel P),} $
y la diferencia entre los dos ordenamientos puede ser arbitrariamente grande. La regla de la cadena para la divergencia KL establece que, para distribuciones conjuntas,
$ {\displaystyle D_{\mathrm{KL}}(P(X, Y) \parallel Q(X, Y)) = D_{\mathrm{KL}}(P(X) \parallel Q(X)) + \mathbb{E}_{P(X)}\big[D_{\mathrm{KL}}(P(Y \mid X) \parallel Q(Y \mid X))\big],} $
una descomposicion que es el caballo de batalla detras de la mayoria de las cotas variacionales.
Intuicion desde la teoria de la informacion
La interpretacion mas limpia es la de codificacion. Supongamos que Alicia extrae simbolos de una distribucion $ P $ y que Bob disena un codigo, pero Bob solo conoce una distribucion distinta $ Q $. Bob asignara longitudes de codigo aproximadas $ -\log Q(x) $ bits por simbolo. La longitud esperada del mensaje de Alicia es por tanto $ H(P, Q) $, mientras que la longitud optima, alcanzable con un codigo ajustado a $ P $, es $ H(P) $. La diferencia, $ D_{\mathrm{KL}}(P \parallel Q) $, es el numero esperado de bits desperdiciados por simbolo, y este desperdicio es necesariamente no negativo.
Una segunda interpretacion proviene de la prueba de hipotesis. Si las muestras se extraen de $ P $ y se pregunta con que rapidez una prueba de Neyman-Pearson puede distinguir $ P $ de $ Q $, el exponente asintotico de la tasa de error de tipo II (lema de Stein) es exactamente $ D_{\mathrm{KL}}(P \parallel Q) $. La divergencia KL es por tanto la medida natural de distinguibilidad entre distribuciones en un sentido de eficiencia muestral.
KL directa frente a inversa
Cuando se ajusta una distribucion aproximada $ Q_\theta $ a un objetivo $ P $, la eleccion de cual argumento poner primero cambia cualitativamente el ajuste resultante. Minimizar la forma directa (o de proyeccion de momentos)
$ {\displaystyle D_{\mathrm{KL}}(P \parallel Q_\theta)} $
penaliza fuertemente cualquier region donde $ P $ tenga masa pero $ Q_\theta $ no, ya que el integrando contiene $ \log(P/Q_\theta) $ ponderado por $ P $. El resultado es un comportamiento de cobertura de masa o busqueda de la media: $ Q_\theta $ se extiende para cubrir todos los modos de $ P $, incluso a costa de colocar masa en regiones de baja probabilidad. La estimacion por maxima verosimilitud contra una familia parametrica equivale exactamente a minimizar la KL directa contra la distribucion empirica.
Minimizar la forma inversa (o de proyeccion de informacion)
$ {\displaystyle D_{\mathrm{KL}}(Q_\theta \parallel P)} $
en cambio penaliza la masa que $ Q_\theta $ coloca donde $ P $ no la tiene. El resultado es un comportamiento de busqueda de modos: $ Q_\theta $ tiende a fijarse en un unico modo de $ P $ e ignorar el resto. Esta es la forma usada dentro de la inferencia variacional (la ELBO es una cota basada en la KL inversa) y dentro de la penalizacion KL en la optimizacion de politicas, donde mantenerse cerca de una politica de referencia es mas importante que cubrir todos los comportamientos que dicha politica podria emitir.
La conclusion practica es que los dos ordenamientos responden preguntas distintas, y un metodo que "minimiza KL" sin especificar cual lo hace es ambiguo de una manera que afecta los resultados.
Usos en aprendizaje automatico
La divergencia KL es el objetivo implicito detras de gran parte del aprendizaje supervisado. Entrenar un clasificador con la Cross-Entropy Loss sobre una salida Softmax Function equivale, salvo una constante, a minimizar la KL directa entre la distribucion empirica de etiquetas y la distribucion predictiva del modelo. La misma observacion se extiende al modelado de lenguaje, donde la entropia cruzada del siguiente token es la KL directa contra la distribucion empirica del siguiente token, y a la destilacion de conocimiento, donde el estudiante se entrena para minimizar la KL contra la distribucion predictiva suavizada del profesor.
En la inferencia variacional y en los autocodificadores variacionales, la cota inferior de la evidencia contiene un termino de KL inversa $ D_{\mathrm{KL}}(q_\phi(z \mid x) \parallel p(z)) $ que empuja la posterior aproximada hacia la prior. En la optimizacion de politicas, tanto los metodos de region de confianza (TRPO) como los sustitutos recortados (PPO) usan una restriccion o penalizacion KL entre la politica nueva y la antigua para evitar pasos de actualizacion destructivos. En el aprendizaje por refuerzo a partir de retroalimentacion humana, un termino KL contra la politica de referencia ajustada de forma supervisada impide que el optimizador derive hacia explotaciones del modelo de recompensa.
La KL tambien aparece en la seleccion de modelos (el criterio de informacion de Akaike es un estimador basado en KL del ajuste fuera de muestra) y en la informacion mutua, que es ella misma una divergencia KL: $ I(X; Y) = D_{\mathrm{KL}}(P(X, Y) \parallel P(X) P(Y)) $.
Divergencias relacionadas
Varias variantes abordan debilidades particulares. La divergencia de Jensen-Shannon
$ {\displaystyle D_{\mathrm{JS}}(P, Q) = \tfrac{1}{2} D_{\mathrm{KL}}(P \parallel M) + \tfrac{1}{2} D_{\mathrm{KL}}(Q \parallel M),\quad M = \tfrac{1}{2}(P + Q)} $
es simetrica, siempre finita y esta acotada superiormente por $ \log 2 $; su raiz cuadrada es una metrica genuina. Las divergencias de Renyi $ D_\alpha(P \parallel Q) $ generalizan la KL con un orden ajustable $ \alpha $ y recuperan la KL cuando $ \alpha \to 1 $. Tanto la KL como la JS son miembros de la familia de las f-divergencias, que es el marco natural para los objetivos de las f-GAN. Las distancias basadas en transporte optimo, como la distancia de Wasserstein, son una familia totalmente distinta que sigue siendo finita e informativa incluso cuando los soportes son disjuntos, que es precisamente el regimen en el que la KL se vuelve infinita.
Estimacion y consideraciones computacionales
En la practica recurren tres problemas. Primero, el requisito de continuidad absoluta: cualquier $ x $ muestreado con $ Q(x) = 0 $ envia la estimacion al infinito. Los profesionales lo evitan suavizando $ Q $ (suavizado de etiquetas, suavizado de Laplace, ruido aditivo) o cambiando a JS o Wasserstein cuando se sospecha que los soportes pueden ser disjuntos. Segundo, los estimadores plug-in de la KL a partir de muestras estan sesgados y tienen alta varianza en alta dimension; los estimadores por vecinos mas cercanos y las cotas variacionales inferiores (como los estimadores Donsker-Varadhan y MINE para la informacion mutua) son alternativas habituales. Tercero, cuando $ P $ y $ Q $ son ambas gaussianas, la KL tiene una forma cerrada que se usa ampliamente dentro de los codificadores de los VAE y dentro de las aproximaciones de Laplace:
$ {\displaystyle D_{\mathrm{KL}}(\mathcal{N}(\mu_1, \Sigma_1) \parallel \mathcal{N}(\mu_2, \Sigma_2)) = \tfrac{1}{2}\Big[\operatorname{tr}(\Sigma_2^{-1} \Sigma_1) + (\mu_2 - \mu_1)^\top \Sigma_2^{-1} (\mu_2 - \mu_1) - k + \log \tfrac{\det \Sigma_2}{\det \Sigma_1}\Big],} $
donde $ k $ es la dimension. Esta forma cerrada es una de las razones por las que las suposiciones gaussianas son tan habituales en la maquinaria variacional.
Limitaciones
La divergencia KL no es una distancia y por tanto no debe tratarse como tal. La asimetria sorprende a los profesionales que esperan que $ D_{\mathrm{KL}}(P \parallel Q) $ se comporte como una norma; el incumplimiento de la desigualdad triangular rompe cualquier intento de acotar errores componiendo terminos KL aditivamente. La patologia de divergencia infinita cuando los soportes difieren es un problema serio en escenarios adversariales, donde el generador y los datos pueden vivir en variedades de menor dimension que no se solapan. Las estimaciones basadas en muestras sufren la maldicion de la dimensionalidad, y las estimaciones Monte Carlo ingenuas pueden tener varianza no acotada cuando $ P $ y $ Q $ estan muy alejadas. Nada de esto convierte a la KL en la herramienta equivocada, pero cada uno de estos modos de fallo ha motivado una alternativa especifica (Loss Functions basadas en Wasserstein, JS o criterios hibridos) que es preferible en su regimen respectivo.
Referencias
- ↑ Kullback, S. and Leibler, R. A. On Information and Sufficiency. Annals of Mathematical Statistics, 1951.
- ↑ Cover, T. M. and Thomas, J. A. Elements of Information Theory, 2nd edition. Wiley, 2006.
- ↑ MacKay, D. J. C. Information Theory, Inference, and Learning Algorithms. Cambridge University Press, 2003.
- ↑ Kingma, D. P. and Welling, M. Auto-Encoding Variational Bayes. Template:Cite arxiv
- ↑ Schulman, J. et al. Proximal Policy Optimization Algorithms. Template:Cite arxiv
- ↑ Ouyang, L. et al. Training Language Models to Follow Instructions with Human Feedback. Template:Cite arxiv