Entropy/es
| Article | |
|---|---|
| Topic area | Information Theory |
| Prerequisites | Probability, Random Variable |
Visión general
La entropía es una medida de la incertidumbre, la aleatoriedad o el contenido informativo promedio de una distribución de probabilidad sobre una variable aleatoria. Introducida por Claude Shannon en 1948 como fundamento de la teoría de la información, cuantifica cuán impredecible es un resultado en promedio: una moneda equilibrada tiene mayor entropía que una sesgada, y una distribución uniforme sobre muchos resultados tiene mayor entropía que una concentrada. En el aprendizaje automático, la entropía sustenta las funciones de pérdida para clasificación, los criterios de partición de los árboles de decisión, las primas de exploración en aprendizaje por refuerzo y los objetivos variacionales utilizados para entrenar modelos generativos. También proporciona el lenguaje utilizado para comparar distribuciones a través de la entropía cruzada y la divergencia de Kullback-Leibler.
Intuición
Imagine recibir mensajes de una fuente cuyo alfabeto se conoce, pero cuyas salidas específicas no. Si la fuente emite casi siempre el mismo símbolo, observarlo aporta muy poca información nueva; si todos los símbolos son igualmente probables, cada observación es máximamente informativa. La entropía captura esta informatividad media en unidades de bits (cuando el logaritmo es de base 2) o nats (logaritmo natural).
Una interpretación común es el número esperado de preguntas de sí/no necesarias para identificar un resultado bajo una estrategia óptima de cuestionamiento. Una distribución uniforme sobre ocho resultados tiene una entropía de tres bits, lo que coincide con las tres preguntas binarias requeridas para aislar una de ocho posibilidades. Una distribución sesgada requiere menos preguntas en promedio porque los resultados probables pueden identificarse con palabras de código más cortas, lo cual es la base de la codificación entrópica en compresión de datos.
Formulación discreta
Para una variable aleatoria discreta $ X $ que toma valores en un alfabeto finito $ \mathcal{X} $ con función de masa de probabilidad $ p(x) = \Pr(X = x) $, la entropía de Shannon es
$ {\displaystyle H(X) = -\sum_{x \in \mathcal{X}} p(x) \log p(x),} $
con la convención $ 0 \log 0 = 0 $. La elección de la base del logaritmo determina la unidad: la base 2 da bits, la base $ e $ da nats y la base 10 da hartleys. La entropía depende solo de las probabilidades, no de las etiquetas de los resultados.
Entre las propiedades importantes se incluyen:
- No negatividad: $ H(X) \geq 0 $, con igualdad solo cuando un resultado tiene probabilidad uno.
- Máximo en la uniforme: $ H(X) \leq \log |\mathcal{X}| $, alcanzado cuando $ p $ es uniforme.
- Concavidad: $ H $ es una función cóncava de $ p $, lo que sustenta la no negatividad de la información mutua.
- Invariancia ante reetiquetado: permutar los resultados deja $ H(X) $ sin cambios.
Información conjunta, condicional y mutua
Para dos variables aleatorias $ X $ e $ Y $ con distribución conjunta $ p(x, y) $, la entropía conjunta es
$ {\displaystyle H(X, Y) = -\sum_{x, y} p(x, y) \log p(x, y),} $
y la entropía condicional de $ Y $ dado $ X $ es
$ {\displaystyle H(Y \mid X) = -\sum_{x, y} p(x, y) \log p(y \mid x).} $
Estas satisfacen la regla de la cadena $ H(X, Y) = H(X) + H(Y \mid X) $, expresando que la incertidumbre del par es igual a la incertidumbre de la primera variable más la incertidumbre residual de la segunda una vez conocida la primera. La reducción de la incertidumbre sobre $ Y $ tras observar $ X $ es la información mutua,
$ {\displaystyle I(X; Y) = H(Y) - H(Y \mid X) = H(X) + H(Y) - H(X, Y),} $
que es simétrica, no negativa, y cero si y solo si $ X $ e $ Y $ son independientes. La información mutua se utiliza ampliamente como una medida libre de modelo de la dependencia estadística y como señal de entrenamiento en el aprendizaje de representaciones.
Entropía diferencial
Para una variable aleatoria continua con densidad $ f(x) $, la cantidad análoga es la entropía diferencial,
$ {\displaystyle h(X) = -\int f(x) \log f(x) \, dx.} $
A diferencia del caso discreto, la entropía diferencial puede ser negativa y no es invariante ante cambios de variable, por lo que no debe interpretarse como un contenido informativo absoluto. No obstante, sus diferencias y formas condicionales siguen siendo significativas, y aparece a lo largo de la teoría de la información continua. Entre las distribuciones en la recta real con media y varianza fijas, la gaussiana maximiza de forma única la entropía diferencial, un resultado que motiva el uso de gaussianas como priores de máxima entropía cuando solo se conocen los dos primeros momentos.
Relación con la entropía cruzada y la divergencia KL
Si $ p $ es una distribución verdadera y $ q $ es una distribución del modelo, la entropía cruzada es
$ {\displaystyle H(p, q) = -\sum_{x} p(x) \log q(x) = H(p) + D_{\mathrm{KL}}(p \,\|\, q),} $
donde $ D_{\mathrm{KL}}(p \,\|\, q) $ es la divergencia de Kullback-Leibler. Dado que $ H(p) $ no depende de $ q $, minimizar la entropía cruzada con respecto a los parámetros del modelo es equivalente a minimizar la divergencia KL entre el modelo y la distribución de los datos. Esta identidad es el puente entre la entropía y la pérdida de entropía cruzada utilizada para entrenar clasificadores probabilísticos, modelos de lenguaje y muchos otros sistemas modernos.
Aplicaciones en aprendizaje automático
La entropía y sus derivadas aparecen por todo el campo:
- Árboles de decisión utilizan la ganancia de información $ I(Y; X_j) = H(Y) - H(Y \mid X_j) $ para elegir las particiones que más reducen la incertidumbre de la etiqueta. ID3 y C4.5 se construyen sobre este criterio; las variantes CART también admiten la impureza de Gini, una medida cóncava estrechamente relacionada.
- Funciones de pérdida de clasificación minimizan la entropía cruzada entre la distribución empírica de las etiquetas y las predicciones del modelo, equivalentemente la log-verosimilitud negativa, proporcionando gradientes bien calibrados para salidas softmax y sigmoides.
- Aprendizaje por refuerzo añade una bonificación de entropía al objetivo de la política en algoritmos como el actor-crítico suave y los gradientes de política con regularización entrópica, fomentando la exploración estocástica y evitando la convergencia prematura a políticas deterministas.
- Inferencia variacional y la cota inferior de la evidencia se descomponen en un término de reconstrucción y un término de entropía o KL, permitiendo entrenar modelos de variables latentes como los autoencoders variacionales con objetivos similares a la máxima verosimilitud.
- Modelado de máxima entropía selecciona la distribución con la mayor entropía consistente con las restricciones observadas, un principio que recupera los clasificadores softmax, los modelos de la familia exponencial y muchas estadísticas físicas a partir de un único axioma teórico-informativo.
- Aprendizaje activo y diseño bayesiano de experimentos clasifican las consultas candidatas según su ganancia de información esperada, eligiendo las entradas que más reducen la incertidumbre posterior.
Estimación a partir de datos
Estimar la entropía a partir de muestras finitas no es trivial. El estimador ingenuo por sustitución, que reemplaza las frecuencias empíricas en la fórmula de la entropía, está sesgado a la baja, especialmente cuando el alfabeto es grande o la distribución tiene una cola larga. Estimadores con sesgo corregido como Miller-Madow, jackknife y el estimador NSB reducen este sesgo bajo distintas hipótesis. Para variables continuas, son comunes los estimadores por k vecinos más cercanos (Kozachenko-Leonenko) y los estimadores de densidad por núcleo; la información mutua se estima a menudo mediante cotas basadas en redes neuronales como MINE en entornos de alta dimensionalidad.
Limitaciones y advertencias
La entropía resume una distribución en un único escalar y, por tanto, descarta detalles estructurales: dos distribuciones muy distintas pueden compartir la misma entropía. Supone que las probabilidades están bien definidas y bien estimadas, lo que puede fallar bajo cambio de distribución o en el régimen de pocas muestras. La entropía diferencial no es invariante ante reparametrización, y las cantidades teórico-informativas estimadas a partir de representaciones de redes neuronales son notablemente sensibles a la arquitectura y a las decisiones de discretización. Por último, la entropía es una propiedad de las distribuciones, no de los resultados individuales; afirmaciones como "esta imagen tiene alta entropía" requieren una distribución de referencia para ser significativas.
Véase también
Referencias
- Shannon, C. E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal, 27, 379-423, 623-656.
- Cover, T. M. and Thomas, J. A. (2006). Elements of Information Theory (2.ª ed.). Wiley-Interscience.
- MacKay, D. J. C. (2003). Information Theory, Inference, and Learning Algorithms. Cambridge University Press.
- Goodfellow, I., Bengio, Y. y Courville, A. (2016). Deep Learning. MIT Press, capítulo 3.
- Jaynes, E. T. (1957). Information Theory and Statistical Mechanics. Physical Review, 106(4), 620-630.
- Belghazi, M. I. et al. (2018). Mutual Information Neural Estimation. ICML.