Linear Regression/es: Difference between revisions
([deploy-bot] Deploy from CI (775ba6e)) Tag: ci-deploy |
([deploy-bot] Deploy from CI (8c92aeb)) Tags: ci-deploy Manual revert |
||
| (2 intermediate revisions by the same user not shown) | |||
Latest revision as of 07:09, 24 April 2026
| Article | |
|---|---|
| Topic area | Statistics |
| Difficulty | Introductory |
La regresion lineal es un metodo estadistico fundamental que modela la relacion entre una variable dependiente y una o mas variables independientes ajustando una ecuacion lineal a los datos observados. Es una de las tecnicas mas antiguas y ampliamente utilizadas en estadistica y aprendizaje automatico, sirviendo tanto como herramienta predictiva practica como bloque de construccion para comprender modelos mas complejos.
Planteamiento del problema
Dado un conjunto de datos de $ N $ observaciones $ \{(\mathbf{x}_i, y_i)\}_{i=1}^{N} $, donde $ \mathbf{x}_i \in \mathbb{R}^d $ es un vector de caracteristicas y $ y_i \in \mathbb{R} $ es el objetivo, la regresion lineal asume la relacion:
- $ y_i = \mathbf{w}^{\!\top} \mathbf{x}_i + b + \epsilon_i $
donde $ \mathbf{w} \in \mathbb{R}^d $ es el vector de pesos, $ b $ es el sesgo (intercepto) y $ \epsilon_i $ es el termino de error. Al absorber el sesgo en el vector de pesos (anadiendo un 1 a cada $ \mathbf{x}_i $), esto se simplifica a $ y_i = \mathbf{w}^{\!\top} \mathbf{x}_i + \epsilon_i $.
Minimos cuadrados ordinarios
El metodo de minimos cuadrados ordinarios (MCO) encuentra los pesos que minimizan la suma de los residuos al cuadrado:
- $ \mathcal{L}(\mathbf{w}) = \sum_{i=1}^{N} (y_i - \mathbf{w}^{\!\top} \mathbf{x}_i)^2 = \|\mathbf{y} - X\mathbf{w}\|^2 $
donde $ X \in \mathbb{R}^{N \times d} $ es la matriz de diseno y $ \mathbf{y} \in \mathbb{R}^N $ es el vector de objetivos.
Solucion en forma cerrada
Igualando el gradiente a cero se obtienen las ecuaciones normales:
- $ \nabla_{\mathbf{w}} \mathcal{L} = -2 X^{\!\top}(\mathbf{y} - X\mathbf{w}) = 0 $
- $ \hat{\mathbf{w}} = (X^{\!\top} X)^{-1} X^{\!\top} \mathbf{y} $
Esta solucion existe y es unica cuando $ X^{\!\top} X $ es invertible (es decir, las caracteristicas son linealmente independientes). El coste computacional es $ O(Nd^2 + d^3) $, lo cual es eficiente para $ d $ moderado pero se vuelve costoso para problemas de alta dimensionalidad.
Enfoque por descenso de gradiente
Cuando la solucion en forma cerrada es impracticable (valores grandes de $ d $ o $ N $), se utiliza la optimizacion iterativa mediante descenso de gradiente. El gradiente es:
- $ \nabla_{\mathbf{w}} \mathcal{L} = -\frac{2}{N} X^{\!\top}(\mathbf{y} - X\mathbf{w}) $
La regla de actualizacion es $ \mathbf{w} \leftarrow \mathbf{w} - \eta \nabla_{\mathbf{w}} \mathcal{L} $, donde $ \eta $ es la tasa de aprendizaje. Las variantes estocastica y por mini-lotes escalan a millones de puntos de datos.
Supuestos de MCO
El estimador MCO clasico es BLUE (Mejor Estimador Lineal Insesgado) bajo las condiciones de Gauss-Markov:
- Linealidad: La relacion verdadera entre las caracteristicas y el objetivo es lineal.
- Independencia: Las observaciones son independientes entre si.
- Homocedasticidad: La varianza del error $ \mathrm{Var}(\epsilon_i) = \sigma^2 $ es constante en todas las observaciones.
- Sin multicolinealidad perfecta: Ninguna caracteristica es una combinacion lineal exacta de otras.
- Exogeneidad: $ E[\epsilon_i \mid \mathbf{x}_i] = 0 $ — los errores no estan correlacionados con las caracteristicas.
Las violaciones de estos supuestos no necesariamente hacen que la regresion lineal sea inutil, pero pueden invalidar los intervalos de confianza y las pruebas de hipotesis derivadas del modelo.
Metricas de evaluacion
| Metrica | Formula | Interpretacion |
|---|---|---|
| MSE | $ \frac{1}{N}\sum(y_i - \hat{y}_i)^2 $ | Error cuadratico promedio; penaliza errores grandes |
| RMSE | $ \sqrt{\mathrm{MSE}} $ | En las mismas unidades que el objetivo |
| MAE | $ \frac{1}{N}\sum|y_i - \hat{y}_i| $ | Error absoluto promedio; robusto a valores atipicos |
| R-cuadrado | $ 1 - \frac{\sum(y_i - \hat{y}_i)^2}{\sum(y_i - \bar{y})^2} $ | Proporcion de varianza explicada (0 a 1) |
Un $ R^2 $ de 1 indica prediccion perfecta, mientras que $ R^2 = 0 $ significa que el modelo no es mejor que predecir la media. El R-cuadrado ajustado penaliza por el numero de caracteristicas, previniendo la inflacion artificial al anadir predictores irrelevantes.
Regresion multiple
Cuando $ d > 1 $, el modelo se denomina regresion lineal multiple. Cada coeficiente $ w_j $ representa el cambio esperado en $ y $ por unidad de cambio en $ x_j $, manteniendo todas las demas caracteristicas constantes. Interpretar los coeficientes requiere cautela cuando las caracteristicas estan correlacionadas (multicolinealidad), ya que los coeficientes individuales pueden volverse inestables aunque el modelo global ajuste bien.
Variantes regularizadas
Cuando el numero de caracteristicas es grande en relacion con el numero de observaciones, o cuando las caracteristicas estan correlacionadas, MCO puede sobreajustar. La regularizacion anade una penalizacion a la funcion de perdida:
Regresion Ridge (L2)
- $ \mathcal{L}_{\mathrm{ridge}} = \|\mathbf{y} - X\mathbf{w}\|^2 + \lambda \|\mathbf{w}\|_2^2 $
La solucion en forma cerrada se convierte en $ \hat{\mathbf{w}} = (X^{\!\top} X + \lambda I)^{-1} X^{\!\top} \mathbf{y} $. Ridge reduce los coeficientes hacia cero pero nunca los establece exactamente en cero.
Regresion Lasso (L1)
- $ \mathcal{L}_{\mathrm{lasso}} = \|\mathbf{y} - X\mathbf{w}\|^2 + \lambda \|\mathbf{w}\|_1 $
Lasso puede llevar los coeficientes exactamente a cero, realizando una seleccion automatica de caracteristicas. No tiene solucion en forma cerrada y se resuelve tipicamente mediante descenso por coordenadas.
Elastic Net
Elastic Net combina ambas penalizaciones: $ \lambda_1 \|\mathbf{w}\|_1 + \lambda_2 \|\mathbf{w}\|_2^2 $, equilibrando dispersidad y estabilidad.
Consideraciones practicas
- Escalado de caracteristicas: Estandarizar las caracteristicas (media cero, varianza unitaria) mejora la convergencia del descenso de gradiente y hace que la regularizacion sea equitativa entre las caracteristicas.
- Caracteristicas polinomicas: Anadir terminos polinomicos (por ejemplo, $ x^2, x_1 x_2 $) permite a la regresion lineal capturar relaciones no lineales.
- Valores atipicos: MCO es sensible a los valores atipicos debido a la perdida cuadratica. Las alternativas robustas incluyen la regresion de Huber y RANSAC.
- Graficos de diagnostico: Los graficos de residuos ayudan a detectar violaciones de los supuestos (no linealidad, heterocedasticidad, no normalidad).
Vease tambien
- Stochastic Gradient Descent
- Logistic regression
- Loss Functions
- Overfitting and Regularization
- Neural Networks
Referencias
- Hastie, T., Tibshirani, R. and Friedman, J. (2009). The Elements of Statistical Learning. Springer, Chapter 3.
- Montgomery, D. C., Peck, E. A. and Vining, G. G. (2012). Introduction to Linear Regression Analysis. Wiley.
- Hoerl, A. E. and Kennard, R. W. (1970). "Ridge Regression: Biased Estimation for Nonorthogonal Problems". Technometrics.
- Tibshirani, R. (1996). "Regression Shrinkage and Selection via the Lasso". Journal of the Royal Statistical Society, Series B.