Linear Regression/es: Difference between revisions

Article
Topic area	Statistics
Difficulty	Introductory

Latest revision as of 07:09, 24 April 2026

Languages: English | Español | 中文

La regresion lineal es un metodo estadistico fundamental que modela la relacion entre una variable dependiente y una o mas variables independientes ajustando una ecuacion lineal a los datos observados. Es una de las tecnicas mas antiguas y ampliamente utilizadas en estadistica y aprendizaje automatico, sirviendo tanto como herramienta predictiva practica como bloque de construccion para comprender modelos mas complejos.

Planteamiento del problema

Dado un conjunto de datos de $$ N $$ observaciones $\{(\mathbf{x}_i, y_i)\}_{i=1}^{N}$ , donde $\mathbf{x}_i \in \mathbb{R}^d$ es un vector de caracteristicas y $y_i \in \mathbb{R}$ es el objetivo, la regresion lineal asume la relacion:

y_i = \mathbf{w}^{\!\top} \mathbf{x}_i + b + \epsilon_i

donde $\mathbf{w} \in \mathbb{R}^d$ es el vector de pesos, $$ b $$ es el sesgo (intercepto) y $\epsilon_i$ es el termino de error. Al absorber el sesgo en el vector de pesos (anadiendo un 1 a cada $\mathbf{x}_i$ ), esto se simplifica a $y_i = \mathbf{w}^{\!\top} \mathbf{x}_i + \epsilon_i$ .

Minimos cuadrados ordinarios

El metodo de minimos cuadrados ordinarios (MCO) encuentra los pesos que minimizan la suma de los residuos al cuadrado:

\mathcal{L}(\mathbf{w}) = \sum_{i=1}^{N} (y_i - \mathbf{w}^{\!\top} \mathbf{x}_i)^2 = \|\mathbf{y} - X\mathbf{w}\|^2

donde $X \in \mathbb{R}^{N \times d}$ es la matriz de diseno y $\mathbf{y} \in \mathbb{R}^N$ es el vector de objetivos.

Solucion en forma cerrada

Igualando el gradiente a cero se obtienen las ecuaciones normales:

\nabla_{\mathbf{w}} \mathcal{L} = -2 X^{\!\top}(\mathbf{y} - X\mathbf{w}) = 0

\hat{\mathbf{w}} = (X^{\!\top} X)^{-1} X^{\!\top} \mathbf{y}

Esta solucion existe y es unica cuando $X^{\!\top} X$ es invertible (es decir, las caracteristicas son linealmente independientes). El coste computacional es $$ O(Nd^2 + d^3) $$ , lo cual es eficiente para $$ d $$ moderado pero se vuelve costoso para problemas de alta dimensionalidad.

Enfoque por descenso de gradiente

Cuando la solucion en forma cerrada es impracticable (valores grandes de $$ d $$ o $$ N $$ ), se utiliza la optimizacion iterativa mediante descenso de gradiente. El gradiente es:

\nabla_{\mathbf{w}} \mathcal{L} = -\frac{2}{N} X^{\!\top}(\mathbf{y} - X\mathbf{w})

La regla de actualizacion es $\mathbf{w} \leftarrow \mathbf{w} - \eta \nabla_{\mathbf{w}} \mathcal{L}$ , donde $\eta$ es la tasa de aprendizaje. Las variantes estocastica y por mini-lotes escalan a millones de puntos de datos.

Supuestos de MCO

El estimador MCO clasico es BLUE (Mejor Estimador Lineal Insesgado) bajo las condiciones de Gauss-Markov:

Linealidad: La relacion verdadera entre las caracteristicas y el objetivo es lineal.
Independencia: Las observaciones son independientes entre si.
Homocedasticidad: La varianza del error $\mathrm{Var}(\epsilon_i) = \sigma^2$ es constante en todas las observaciones.
Sin multicolinealidad perfecta: Ninguna caracteristica es una combinacion lineal exacta de otras.
Exogeneidad: $E[\epsilon_i \mid \mathbf{x}_i] = 0$ — los errores no estan correlacionados con las caracteristicas.

Las violaciones de estos supuestos no necesariamente hacen que la regresion lineal sea inutil, pero pueden invalidar los intervalos de confianza y las pruebas de hipotesis derivadas del modelo.

Metricas de evaluacion

Metrica	Formula	Interpretacion
MSE	$\frac{1}{N}\sum(y_i - \hat{y}_i)^2$	Error cuadratico promedio; penaliza errores grandes
RMSE	$\sqrt{\mathrm{MSE}}$	En las mismas unidades que el objetivo
MAE	$\frac{1}{N}\sum\|y_i - \hat{y}_i\|$	Error absoluto promedio; robusto a valores atipicos
R-cuadrado	$1 - \frac{\sum(y_i - \hat{y}_i)^2}{\sum(y_i - \bar{y})^2}$	Proporcion de varianza explicada (0 a 1)

Un $$ R^2 $$ de 1 indica prediccion perfecta, mientras que $$ R^2 = 0 $$ significa que el modelo no es mejor que predecir la media. El R-cuadrado ajustado penaliza por el numero de caracteristicas, previniendo la inflacion artificial al anadir predictores irrelevantes.

Regresion multiple

Cuando $$ d > 1 $$ , el modelo se denomina regresion lineal multiple. Cada coeficiente $$ w_j $$ representa el cambio esperado en $$ y $$ por unidad de cambio en $$ x_j $$ , manteniendo todas las demas caracteristicas constantes. Interpretar los coeficientes requiere cautela cuando las caracteristicas estan correlacionadas (multicolinealidad), ya que los coeficientes individuales pueden volverse inestables aunque el modelo global ajuste bien.

Variantes regularizadas

Cuando el numero de caracteristicas es grande en relacion con el numero de observaciones, o cuando las caracteristicas estan correlacionadas, MCO puede sobreajustar. La regularizacion anade una penalizacion a la funcion de perdida:

Regresion Ridge (L2)

\mathcal{L}_{\mathrm{ridge}} = \|\mathbf{y} - X\mathbf{w}\|^2 + \lambda \|\mathbf{w}\|_2^2

La solucion en forma cerrada se convierte en $\hat{\mathbf{w}} = (X^{\!\top} X + \lambda I)^{-1} X^{\!\top} \mathbf{y}$ . Ridge reduce los coeficientes hacia cero pero nunca los establece exactamente en cero.

Regresion Lasso (L1)

\mathcal{L}_{\mathrm{lasso}} = \|\mathbf{y} - X\mathbf{w}\|^2 + \lambda \|\mathbf{w}\|_1

Lasso puede llevar los coeficientes exactamente a cero, realizando una seleccion automatica de caracteristicas. No tiene solucion en forma cerrada y se resuelve tipicamente mediante descenso por coordenadas.

Elastic Net

Elastic Net combina ambas penalizaciones: $\lambda_1 \|\mathbf{w}\|_1 + \lambda_2 \|\mathbf{w}\|_2^2$ , equilibrando dispersidad y estabilidad.

Consideraciones practicas

Escalado de caracteristicas: Estandarizar las caracteristicas (media cero, varianza unitaria) mejora la convergencia del descenso de gradiente y hace que la regularizacion sea equitativa entre las caracteristicas.
Caracteristicas polinomicas: Anadir terminos polinomicos (por ejemplo, $$ x^2, x_1 x_2 $$ ) permite a la regresion lineal capturar relaciones no lineales.
Valores atipicos: MCO es sensible a los valores atipicos debido a la perdida cuadratica. Las alternativas robustas incluyen la regresion de Huber y RANSAC.
Graficos de diagnostico: Los graficos de residuos ayudan a detectar violaciones de los supuestos (no linealidad, heterocedasticidad, no normalidad).

Vease tambien

Referencias

Hastie, T., Tibshirani, R. and Friedman, J. (2009). The Elements of Statistical Learning. Springer, Chapter 3.
Montgomery, D. C., Peck, E. A. and Vining, G. G. (2012). Introduction to Linear Regression Analysis. Wiley.
Hoerl, A. E. and Kennard, R. W. (1970). "Ridge Regression: Biased Estimation for Nonorthogonal Problems". Technometrics.
Tibshirani, R. (1996). "Regression Shrinkage and Selection via the Lasso". Journal of the Royal Statistical Society, Series B.

Revision as of 04:01, 24 April 2026 (view source) DeployBot (talk \| contribs) ([deploy-bot] Deploy from CI (775ba6e)) Tag: ci-deploy		Latest revision as of 07:09, 24 April 2026 (view source) DeployBot (talk \| contribs) ([deploy-bot] Deploy from CI (8c92aeb)) Tags: ci-deploy Manual revert
(2 intermediate revisions by the same user not shown)

Article
Topic area	Statistics
Difficulty	Introductory