Mean Squared Error/es
| Article | |
|---|---|
| Topic area | supervised learning |
| Prerequisites | Loss function, Linear regression, Maximum likelihood estimation |
Visión general
El error cuadrático medio (MSE, por sus siglas en inglés) es la función de pérdida más utilizada en regresión: el promedio de las diferencias al cuadrado entre los valores predichos y los valores objetivo. Para predicciones $ \hat{y}_i $ y objetivos $ y_i $ sobre $ n $ ejemplos, $ \mathrm{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $. Es convexa, suave y admite soluciones de forma cerrada en contextos lineales, lo que la hizo el objetivo predeterminado para la regresión por mínimos cuadrados desde Gauss y Legendre. En el aprendizaje automático moderno, el MSE es la pérdida estándar para objetivos continuos, la cantidad natural en el análisis sesgo-varianza y el objetivo de máxima verosimilitud cuando el ruido de medición es gaussiano con varianza constante. Su principal debilidad es la fuerte ponderación de los errores grandes, lo que la hace sensible a valores atípicos y a la escala.
Definición
Dado un conjunto de datos de $ n $ pares entrada-salida $ \{(x_i, y_i)\}_{i=1}^{n} $ y un predictor $ f $ que produce $ \hat{y}_i = f(x_i) $, el error cuadrático medio empírico es
$ {\displaystyle \mathrm{MSE}(f) = \frac{1}{n} \sum_{i=1}^{n} \bigl(y_i - f(x_i)\bigr)^2.} $
La cantidad poblacional correspondiente, el error cuadrático esperado o riesgo bajo la distribución conjunta $ p(x, y) $, es
$ {\displaystyle R(f) = \mathbb{E}_{(x, y) \sim p}\!\left[(y - f(x))^2\right].} $
Un ejercicio estándar muestra que el minimizador de $ R $ sobre todas las funciones medibles es la media condicional $ f^*(x) = \mathbb{E}[y \mid x] $, razón por la cual los modelos entrenados con MSE se interpretan como regresores de la esperanza condicional. La raíz cuadrada $ \sqrt{\mathrm{MSE}} $ es la raíz del error cuadrático medio (RMSE), expresada en las mismas unidades que el objetivo.
Al estimar un parámetro $ \theta $ a partir de datos, la misma cantidad aparece en estadística como el MSE de un estimador $ \hat{\theta} $: $ \mathbb{E}[(\hat{\theta} - \theta)^2] $. Los dos usos — pérdida para predicción, riesgo para estimación — son conceptualmente distintos pero matemáticamente idénticos.
Interpretación estadística
El MSE es la log-verosimilitud negativa (salvo constantes) de un modelo aditivo de ruido gaussiano $ y = f(x) + \varepsilon $ con $ \varepsilon \sim \mathcal{N}(0, \sigma^2) $ y $ \sigma^2 $ conocido y constante. La log-verosimilitud del conjunto de datos es
$ {\displaystyle \log p(y \mid x; f) = -\frac{1}{2\sigma^2} \sum_{i=1}^{n} (y_i - f(x_i))^2 + \text{const},} $
de modo que la estimación por máxima verosimilitud de $ f $ bajo ruido gaussiano es exactamente la minimización empírica del MSE. Esta conexión justifica el MSE siempre que los residuos sean aproximadamente gaussianos y homocedásticos; cuando no lo son — errores de cola pesada, ruido multiplicativo, datos de conteo — otras pérdidas como el error absoluto medio, la pérdida de Huber o un objetivo apropiado de modelo lineal generalizado son estadísticamente más adecuadas.
La perspectiva gaussiana también ofrece la contraparte bayesiana natural: con un prior gaussiano sobre los parámetros de $ f $, el MSE más regularización L2 es el log-posterior negativo, recuperando la regresión ridge. El coeficiente de regularización corresponde a la razón entre la varianza del prior y la del ruido.
Descomposición sesgo-varianza
El error cuadrático esperado de un estimador $ \hat{f}(x) $ en un punto $ x $ se descompone como
$ {\displaystyle \mathbb{E}\!\left[(y - \hat{f}(x))^2\right] = \underbrace{\bigl(\mathbb{E}[\hat{f}(x)] - f^*(x)\bigr)^2}_{\text{bias}^2} + \underbrace{\mathbb{E}\!\left[(\hat{f}(x) - \mathbb{E}[\hat{f}(x)])^2\right]}_{\text{variance}} + \underbrace{\mathrm{Var}(\varepsilon)}_{\text{irreducible}}.} $
Esta descomposición es específica de la pérdida cuadrática — las expresiones análogas para otras pérdidas implican términos cruzados o no admiten una descomposición limpia — y convierte al MSE en la métrica natural para analizar el compromiso fundamental del aprendizaje supervisado. Aumentar la capacidad del modelo suele reducir el sesgo e inflar la varianza; la regularización, los conjuntos (ensembles) y la parada temprana pueden entenderse como técnicas de reducción de varianza. El término irreducible acota inferiormente el error de prueba alcanzable: incluso el predictor óptimo de Bayes incurre en $ \mathrm{Var}(\varepsilon) $.
Propiedades y gradiente
La pérdida por ejemplo $ \ell(y, \hat{y}) = (y - \hat{y})^2 $ es convexa en $ \hat{y} $, infinitamente diferenciable y crece cuadráticamente. Su derivada respecto de la predicción es
$ {\displaystyle \frac{\partial \ell}{\partial \hat{y}} = -2 (y - \hat{y}),} $
de modo que la magnitud del gradiente escala linealmente con el residuo. Este gradiente lineal en el residuo es conveniente para el descenso por gradiente e implica que los ejemplos bien ajustados contribuyen casi nada a la actualización, mientras que los residuos grandes dominan. Combinado con la inicialización de pesos y la escala de la tasa de aprendizaje, esto explica por qué el entrenamiento con MSE en redes profundas puede progresar lentamente cuando las predicciones están cerca del objetivo pero unos pocos ejemplos siguen muy lejos.
Para un modelo lineal $ \hat{y} = w^\top x + b $, el objetivo MSE es una forma cuadrática semidefinida positiva en $ (w, b) $ y admite la solución cerrada de las ecuaciones normales $ w^* = (X^\top X)^{-1} X^\top y $ cuando $ X^\top X $ es invertible. El teorema de Gauss-Markov garantiza que este estimador es el mejor estimador lineal insesgado bajo ruido homocedástico no correlacionado — la razón histórica por la que el MSE se convirtió en el criterio de regresión predeterminado.
Variantes
Varias modificaciones del MSE abordan sus limitaciones o lo especializan para tareas particulares:
- Raíz del error cuadrático medio (RMSE) — $ \sqrt{\mathrm{MSE}} $. Reportada en las unidades originales del objetivo; preferida para evaluación legible por humanos pero equivalente al MSE para ordenar modelos.
- Error cuadrático logarítmico medio (MSLE) — $ \frac{1}{n} \sum (\log(1 + y_i) - \log(1 + \hat{y}_i))^2 $. Penaliza el error relativo en lugar del absoluto; apropiado para objetivos que abarcan varios órdenes de magnitud, como precios o conteos.
- MSE ponderado — $ \frac{1}{n} \sum w_i (y_i - \hat{y}_i)^2 $. Permite reponderar por ejemplo para corregir el desequilibrio de clases, hacer muestreo por importancia o corregir la heterocedasticidad (con $ w_i = 1/\sigma_i^2 $, el objetivo de mínimos cuadrados generalizados).
- Error porcentual cuadrático medio (MSPE) — $ \frac{1}{n} \sum ((y_i - \hat{y}_i)/y_i)^2 $. Libre de escala pero indefinido o inestable cuando $ y_i \approx 0 $.
- MSE truncado o recortado — limita o elimina los residuos más grandes antes de promediar, una solución práctica de robustez cuando un pequeño número de valores atípicos domina.
- Error cuadrático integrado medio (MISE) — el análogo en espacio de funciones utilizado para evaluar estimadores de densidad y suavizadores de núcleo.
Comparación con otras pérdidas de regresión
La elección de la pérdida de regresión está dominada por la distribución del ruido y el perfil de robustez deseado:
- Error absoluto medio (MAE) usa $ |y - \hat{y}| $. El predictor óptimo es la mediana condicional en lugar de la media, y el gradiente tiene magnitud constante, lo que hace al MAE más robusto frente a valores atípicos pero más difícil de optimizar cerca del error cero. El MAE es el objetivo de máxima verosimilitud bajo ruido laplaciano.
- Pérdida de Huber interpola: cuadrática para residuos pequeños, lineal para los grandes. Conserva la suavidad del MSE cerca de cero acotando a la vez la magnitud del gradiente para los valores atípicos, y es un valor predeterminado común en regresión robusta.
- Pérdida de cuantil (pérdida pinball) apunta a un cuantil especificado en lugar de la media y subyace a la regresión por cuantiles y al pronóstico probabilístico.
- Log-cosh — $ \log(\cosh(y - \hat{y})) $ — es aproximadamente MSE para residuos pequeños y aproximadamente MAE para los grandes, totalmente diferenciable en todas partes.
- Pérdida de entropía cruzada es el análogo predeterminado para clasificación y estimación de densidad; usar MSE sobre los logits de clasificación es generalmente inferior porque los gradientes se desvanecen para predicciones erróneas confiadas.
Cuando los residuos son aproximadamente gaussianos y los valores atípicos son raros, el MSE es estadísticamente óptimo. Cuando el ruido es de cola pesada, asimétrico o dependiente de la escala, una pérdida adaptada suele superarlo.
Limitaciones
El término al cuadrado da al MSE varios modos de fallo bien conocidos:
- Sensibilidad a valores atípicos. Un único ejemplo con un residuo grande puede dominar el gradiente y la estimación de los parámetros. Las alternativas robustas o el preprocesamiento (winsorización, transformaciones logarítmicas) son aconsejables cuando hay valores atípicos.
- Dependencia de la escala. Los valores de MSE no son directamente comparables entre conjuntos de datos o tareas. Las variantes normalizadas (RMSE dividida por la desviación estándar del objetivo, R^2) son preferibles para la comparación entre tareas.
- Apuntar a la media. El predictor óptimo del MSE es la media condicional. Para distribuciones condicionales sesgadas esto puede ser una pobre estimación puntual; las pérdidas de cuantil o expectil dan resúmenes diferentes.
- Engañoso en objetivos acotados. Para probabilidades, porcentajes u otros objetivos acotados, el MSE no respeta el límite y puede producir predicciones fuera del rango válido.
- Gradientes evanescentes con salidas sigmoides. Combinar el MSE con una activación de salida saturante produce gradientes proporcionales a $ (y - \hat{y}) \sigma'(z) $, que pueden ser extremadamente pequeños para predicciones erróneas confiadas; la entropía cruzada evita esta patología.
- Sin calibración probabilística. El entrenamiento con MSE produce una estimación puntual, no una distribución predictiva. Métodos como la regresión por procesos gaussianos o los conjuntos profundos son necesarios cuando se requiere cuantificación de la incertidumbre.
A pesar de estas advertencias, el MSE sigue siendo la pérdida de regresión predeterminada en computación científica, estadística y aprendizaje automático debido a su tratabilidad matemática, su conexión con la verosimilitud gaussiana y su compatibilidad con la descomposición sesgo-varianza que organiza gran parte de la teoría del aprendizaje supervisado.