Logistic regression/es
| Article | |
|---|---|
| Topic area | Machine Learning |
| Difficulty | Introductory |
La regresión logística es un modelo estadístico fundamental para la clasificación binaria que predice la probabilidad de un resultado categórico haciendo pasar una combinación lineal de características por la función logística (sigmoide). A pesar de su nombre, es un método de clasificación, no de regresión, y sigue siendo uno de los modelos más utilizados e interpretables en estadística, epidemiología y aprendizaje automático.
Visión general
La regresión logística modela la probabilidad de que una observación pertenezca a la clase positiva como función de las características de entrada. Dado un vector de características $ \mathbf{x} \in \mathbb{R}^d $ y una etiqueta binaria $ y \in \{0, 1\} $, el modelo supone que el logaritmo de las probabilidades (log-odds) de la clase positiva es una función lineal de $ \mathbf{x} $. La salida está restringida al intervalo unitario, lo que la hace directamente interpretable como una probabilidad y muy adecuada para decisiones posteriores, calibración y puntuación de riesgo.
La popularidad de la regresión logística proviene de una combinación poco común de propiedades: es un clasificador probabilístico con una pérdida convexa, los parámetros son fáciles de interpretar como razones de log-odds, el entrenamiento escala a conjuntos de datos masivos mediante descenso de gradiente estocástico, y además funciona como capa final de la mayoría de las redes neuronales modernas usadas para clasificación binaria.
Conceptos clave
- Función sigmoide (logística): la no linealidad de aplastamiento $ \sigma(z) = 1/(1 + e^{-z}) $ que mapea cualquier número real al intervalo $ (0, 1) $.
- Frontera de decisión lineal: en el espacio de características, el conjunto de puntos donde $ \mathbf{w}^{\!\top}\mathbf{x} + b = 0 $ separa las dos clases; por tanto, la regresión logística es un clasificador lineal.
- Log-odds (logit): la inversa de la sigmoide, $ \mathrm{logit}(p) = \log\frac{p}{1-p} $; la regresión logística supone que el logit es lineal en las características.
- Estimación por máxima verosimilitud: los parámetros se ajustan maximizando la probabilidad de las etiquetas observadas bajo el modelo.
- Pérdida de entropía cruzada: la log-verosimilitud negativa del modelo de Bernoulli, equivalente a la entropía cruzada utilizada en aprendizaje profundo.
- Optimización convexa: la pérdida es convexa en los parámetros, por lo que cualquier mínimo local es global.
Historia
La función logística fue introducida por el matemático belga Pierre François Verhulst en 1838 para modelar el crecimiento de poblaciones bajo restricciones de recursos. Su uso como herramienta estadística creció a principios del siglo XX en química y biología, donde describía reacciones autocatalíticas y curvas dosis-respuesta.
La formulación estadística moderna tomó forma a mediados del siglo XX. Joseph Berkson popularizó el término logit en 1944 como alternativa al modelo probit favorecido por Chester Bliss y R. A. Fisher. El artículo de David Cox de 1958 "The Regression Analysis of Binary Sequences" estableció la regresión logística como herramienta estándar para resultados binarios en estadística, y Walker y Duncan (1967) la extendieron a múltiples covariables.
En las décadas de 1970 y 1980, la regresión logística se convirtió en el modelo por defecto para estudios de casos y controles en epidemiología, en parte porque el odds ratio que produce es invariante al muestreo basado en el resultado. Con el auge del aprendizaje automático, el modelo encontró una segunda vida como clasificador de referencia y como capa de salida de las redes neuronales. La regresión logística multinomial, que generaliza el modelo a más de dos clases mediante la función softmax, es el clasificador básico que subyace a casi todos los sistemas modernos de clasificación profunda.
Enfoques principales
Especificación del modelo
Para una etiqueta binaria $ y \in \{0, 1\} $, la regresión logística modela
- $ P(y = 1 \mid \mathbf{x}) = \sigma(\mathbf{w}^{\!\top}\mathbf{x} + b) = \frac{1}{1 + e^{-(\mathbf{w}^{\!\top}\mathbf{x} + b)}} $
Equivalentemente, los log-odds son lineales:
- $ \log \frac{P(y=1 \mid \mathbf{x})}{P(y=0 \mid \mathbf{x})} = \mathbf{w}^{\!\top}\mathbf{x} + b $
Un incremento unitario en $ x_j $ multiplica los odds de la clase positiva por $ e^{w_j} $, manteniendo fijas las demás características. Esta interpretación directa de los coeficientes como razones de log-odds es una de las fortalezas distintivas del modelo.
Máxima verosimilitud y entropía cruzada
Dado un conjunto de datos $ \{(\mathbf{x}_i, y_i)\}_{i=1}^{N} $, la verosimilitud bajo el modelo de Bernoulli es
- $ \mathcal{L}(\mathbf{w}, b) = \prod_{i=1}^{N} p_i^{y_i}(1 - p_i)^{1 - y_i}, \quad p_i = \sigma(\mathbf{w}^{\!\top}\mathbf{x}_i + b) $
Tomar el logaritmo negativo da la pérdida de entropía cruzada binaria:
- $ \mathcal{J}(\mathbf{w}, b) = -\frac{1}{N}\sum_{i=1}^{N} \big[y_i \log p_i + (1 - y_i)\log(1 - p_i)\big] $
Esta pérdida es convexa, y su gradiente tiene la forma elegante
- $ \nabla_{\mathbf{w}} \mathcal{J} = \frac{1}{N} \sum_{i=1}^{N} (p_i - y_i)\,\mathbf{x}_i $
es decir, el promedio de los vectores de características ponderados por el error de predicción.
Optimización
A diferencia de la regresión lineal, la regresión logística no tiene solución en forma cerrada. Las opciones de optimización estándar incluyen:
- Mínimos cuadrados ponderados iterativos (IRLS): el algoritmo estadístico clásico, equivalente al método de Newton sobre la log-verosimilitud; converge en pocas iteraciones en problemas pequeños.
- Descenso de gradiente y L-BFGS: prácticos para problemas de escala media donde IRLS consume demasiada memoria.
- Descenso de gradiente estocástico: el método por defecto para entornos a gran escala y en línea, con la misma forma de gradiente que una red neuronal de una sola capa.
Regularización
Para evitar el sobreajuste y estabilizar las estimaciones cuando las características están correlacionadas o son numerosas, se añade una penalización a la pérdida:
- $ \mathcal{J}_{\mathrm{reg}}(\mathbf{w}) = \mathcal{J}(\mathbf{w}) + \lambda\, R(\mathbf{w}) $
La regularización L2 (ridge), $ R(\mathbf{w}) = \tfrac{1}{2}\|\mathbf{w}\|_2^2 $, contrae los pesos hacia cero y corresponde a una previa gaussiana. La regularización L1 (lasso), $ R(\mathbf{w}) = \|\mathbf{w}\|_1 $, promueve la dispersión y actúa como selección de características. Elastic Net combina ambas. Véase Overfitting and Regularization para un tratamiento más amplio.
Extensión multinomial
Para $ K > 2 $ clases, la regresión logística se generaliza a la regresión logística multinomial (también llamada regresión softmax):
- $ P(y = k \mid \mathbf{x}) = \frac{\exp(\mathbf{w}_k^{\!\top}\mathbf{x} + b_k)}{\sum_{j=1}^{K} \exp(\mathbf{w}_j^{\!\top}\mathbf{x} + b_j)} $
Esto es exactamente la función softmax aplicada a una puntuación lineal, y constituye la capa de salida de prácticamente todos los clasificadores multiclase modernos construidos con redes neuronales.
Conexiones
La regresión logística se sitúa en la encrucijada de varios temas centrales de la estadística y el aprendizaje automático. Estructuralmente, es el caso más simple de una red neuronal: una sola neurona con activación sigmoide. Su función de pérdida es exactamente la entropía cruzada utilizada para entrenar clasificadores profundos, y el cálculo del gradiente es una instancia de un solo paso de retropropagación. El optimizador preferido en la práctica moderna —el descenso de gradiente estocástico— se desarrolló y analizó originalmente en el contexto de modelos lineales generalizados como este.
La regresión logística también es un modelo lineal generalizado (GLM) con respuesta de Bernoulli y enlace canónico logit, lo que la sitúa en la misma familia que la regresión de Poisson y la regresión lineal (con respuesta gaussiana y enlace identidad). Está estrechamente relacionada con el análisis discriminante lineal (LDA): ambos producen fronteras de decisión lineales, pero LDA modela $ P(\mathbf{x} \mid y) $ mientras que la regresión logística modela $ P(y \mid \mathbf{x}) $ directamente, lo que la convierte en un clasificador discriminativo en lugar de generativo. La forma multinomial conecta directamente con la función softmax y es la capa final estándar para clasificadores que operan tanto sobre embeddings de palabras como sobre las salidas de los mecanismos de atención.
Véase también
- Linear Regression
- Cross-Entropy Loss
- Softmax Function
- Gradient Descent
- Stochastic Gradient Descent
- Neural Networks
- Overfitting and Regularization
- Loss Functions
Referencias
- Cox, D. R. (1958). "The Regression Analysis of Binary Sequences". Journal of the Royal Statistical Society, Series B, 20(2), 215–242.
- Berkson, J. (1944). "Application of the Logistic Function to Bio-Assay". Journal of the American Statistical Association, 39(227), 357–365.
- Hosmer, D. W., Lemeshow, S. y Sturdivant, R. X. (2013). Applied Logistic Regression (3.ª ed.). Wiley.
- McCullagh, P. y Nelder, J. A. (1989). Generalized Linear Models (2.ª ed.). Chapman and Hall.
- Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer, Capítulo 4.
- Hastie, T., Tibshirani, R. y Friedman, J. (2009). The Elements of Statistical Learning (2.ª ed.). Springer, Capítulo 4.