Mean Absolute Error/es

    From Marovi AI
    This page is a translated version of the page Mean Absolute Error and the translation is 100% complete.
    Other languages:
    Article
    Topic area Machine Learning
    Prerequisites Loss Function, Regression, Gradient Descent


    Resumen

    El error absoluto medio (MAE), también llamado pérdida L1 o desviación absoluta media, es una medida del error de predicción que promedia las diferencias absolutas entre los valores predichos y los valores observados. Dado un conjunto de datos con $ n $ muestras, predicciones $ \hat{y}_i $ y objetivos reales $ y_i $, el MAE se define como

    $ {\displaystyle \mathrm{MAE} = \frac{1}{n} \sum_{i=1}^{n} \left| y_i - \hat{y}_i \right|.} $

    MAE cumple dos funciones distintas en el aprendizaje automático: como métrica de evaluación para modelos de regresión y como función de pérdida de entrenamiento que el modelo minimiza directamente. En ambos roles su propiedad definitoria es que los errores entran de forma lineal en lugar de cuadrática, lo que hace que MAE sea menos sensible a valores atípicos grandes que el error cuadrático medio. La métrica se expresa en las mismas unidades físicas que la variable objetivo, por lo que un MAE de 3,2 en un modelo de precios de viviendas en dólares significa que las predicciones se desvían en promedio 3,2 dólares, lo que otorga al MAE un significado directamente interpretable del que carecen las métricas basadas en el error cuadrático.

    Intuición

    Cada modelo de regresión produce un residuo $ r_i = y_i - \hat{y}_i $ para cada ejemplo. Una función de pérdida resume este vector de residuos en un único escalar que capta "cuán equivocado" está el modelo. MAE aplica la función de valor absoluto elemento por elemento y luego promedia, tratando sobreestimaciones y subestimaciones de forma simétrica y ponderando todos los residuos en proporción a su tamaño. Un residuo de 10 contribuye al MAE diez veces más que un residuo de 1, mientras que bajo el error cuadrático medio contribuiría cien veces más.

    Una interpretación estadística útil proviene del problema de optimización que resuelve MAE. Si el modelo se reduce a una única predicción constante $ c $ y se minimiza $ \sum_i |y_i - c| $ sobre $ c $, el minimizador es la mediana de los objetivos, no la media. Esto convierte a MAE en la pérdida natural cuando interesa la mediana condicional de la respuesta en lugar de su media condicional. En cambio, minimizar el error cuadrático devuelve la media condicional. La elección entre MAE y error cuadrático refleja, por tanto, una decisión de modelado sobre qué tendencia central de la distribución de la respuesta resume mejor un valor "típico".

    Formulación

    Sea $ f_\theta : \mathcal{X} \to \mathbb{R} $ un modelo parametrizado con parámetros $ \theta $, aplicado a entradas $ x_i \in \mathcal{X} $. El MAE empírico es

    $ {\displaystyle \mathcal{L}_{\mathrm{MAE}}(\theta) = \frac{1}{n} \sum_{i=1}^{n} \left| y_i - f_\theta(x_i) \right|.} $

    Para regresión multisalida con vectores objetivo $ \mathbf{y}_i \in \mathbb{R}^d $, el MAE se generaliza promediando las diferencias absolutas tanto sobre las muestras como sobre las dimensiones de salida:

    $ {\displaystyle \mathcal{L}_{\mathrm{MAE}} = \frac{1}{n d} \sum_{i=1}^{n} \sum_{j=1}^{d} \left| y_{ij} - \hat{y}_{ij} \right|.} $

    Esto equivale a la norma L1 media de los vectores de residuos dividida entre $ d $, y algunos paquetes de software omiten el factor $ 1/d $ y reportan en su lugar la forma sumada sobre las dimensiones. Al evaluar un modelo, el MAE se calcula sobre un conjunto de prueba separado; al entrenar, la misma expresión (típicamente sin la normalización $ 1/n $ para un minilote) se usa como función de pérdida y se minimiza mediante descenso de gradiente o una variante.

    La justificación probabilística del MAE proviene de la estimación de máxima verosimilitud bajo un modelo de ruido con distribución de Laplace. Si suponemos $ y_i = f_\theta(x_i) + \varepsilon_i $ con $ \varepsilon_i \sim \mathrm{Laplace}(0, b) $ de forma independiente, la log-verosimilitud se reduce a una constante menos un múltiplo de $ \sum_i |y_i - f_\theta(x_i)| $, por lo que la estimación de máxima verosimilitud bajo ruido laplaciano es idéntica a la minimización del MAE. Esto contrasta con el supuesto de ruido gaussiano que justifica el error cuadrático.

    Optimización y gradientes

    El gradiente de $ |r| $ con respecto a $ r $ es la función signo $ \mathrm{sign}(r) $, definida como $ +1 $ para $ r $ positivo, $ -1 $ para $ r $ negativo, e indefinida en cero. Por la regla de la cadena, el gradiente del MAE con respecto a los parámetros del modelo es

    $ {\displaystyle \nabla_\theta \mathcal{L}_{\mathrm{MAE}} = -\frac{1}{n} \sum_{i=1}^{n} \mathrm{sign}(y_i - f_\theta(x_i)) \, \nabla_\theta f_\theta(x_i).} $

    De ello se siguen dos consecuencias prácticas. Primero, la magnitud del gradiente es constante respecto al tamaño del residuo: una predicción desviada por una cantidad mínima y una predicción desviada por una cantidad enorme contribuyen actualizaciones de gradiente de la misma magnitud (solo cambia el signo del residuo). Esto es lo que hace al MAE robusto frente a los valores atípicos, pero también lo que hace que la convergencia cerca del óptimo sea lenta, ya que el gradiente no se atenúa de forma natural a medida que el modelo se acerca a los objetivos. Segundo, el valor absoluto no es diferenciable en cero, lo que puede causar problemas numéricos en optimizadores basados en gradiente cuando los residuos alcanzan exactamente cero. En la práctica, los frameworks devuelven cero como subgradiente en ese punto, y los residuos exactamente nulos son raros en regresión continua.

    Para mitigar la lenta convergencia en las etapas tardías, los profesionales suelen combinar MAE con optimizadores adaptativos como Adam, que reescalan los gradientes por parámetro, o cambian a una variante suavizada como la pérdida de Huber, que es cuadrática cerca de cero y lineal en las colas.

    Variantes

    Varias pérdidas estrechamente relacionadas extienden o suavizan el MAE.

    El error porcentual absoluto medio (MAPE) divide cada error absoluto entre $ |y_i| $ antes de promediar, produciendo una medida sin unidades útil al comparar pronósticos en series de distintas escalas. MAPE no está definido cuando algún $ y_i = 0 $ y es asimétrico entre sobre- y subpredicción, lo que ha motivado alternativas como el MAPE simétrico.

    La pérdida de Huber, $ \rho_\delta(r) = \tfrac{1}{2} r^2 $ para $ |r| \leq \delta $ y $ \delta(|r| - \tfrac{1}{2} \delta) $ en caso contrario, se comporta como el error cuadrático cerca de cero y como el MAE en las colas, combinando los gradientes suaves del error cuadrático medio con la robustez del MAE frente a los valores atípicos.

    La regresión cuantílica generaliza el MAE para estimar cuantiles arbitrarios reemplazando el valor absoluto simétrico por la pérdida pinball asimétrica $ \rho_\tau(r) = \max(\tau r, (\tau - 1) r) $, donde $ \tau \in (0, 1) $ selecciona el cuantil objetivo. Fijar $ \tau = 0{,}5 $ recupera el MAE salvo un factor de dos y estima la mediana condicional.

    La pérdida log-cosh aproxima al MAE en las colas a la vez que se mantiene suave y dos veces diferenciable en todas partes, lo que la hace conveniente para métodos de optimización de segundo orden.

    MAE frente al error cuadrático medio

    La comparación más habitual es entre el MAE y el error cuadrático medio (MSE). MSE eleva al cuadrado los residuos antes de promediar, lo que tiene tres efectos acoplados: los residuos grandes dominan la pérdida, la superficie de pérdida es suave y cuadrática cerca del óptimo (lo que ayuda a la convergencia) y el estimador resultante apunta a la media condicional. El MAE mantiene la pérdida lineal en el residuo, trata todos los residuos de forma proporcional, tiene gradientes de magnitud constante y apunta a la mediana condicional.

    En conjuntos de datos con ruido de distribución de cola pesada o contaminación sistemática por valores atípicos, MAE es preferible: un único residuo de tamaño 100 aporta 100 al MAE pero 10000 al error cuadrático sumado, por lo que los modelos entrenados con MSE distorsionarán sus predicciones para perseguir el atípico, mientras que los entrenados con MAE lo ignorarán en gran medida. En conjuntos de datos donde los errores son aproximadamente gaussianos y donde pequeñas reducciones de varianza importan, MSE es preferible: converge más rápido, su señal de gradiente con residuos pequeños es informativa en lugar de constante, y su objetivo de media condicional es el estadístico de resumen más estándar.

    Un compromiso práctico es evaluar los modelos con MAE por su interpretabilidad mientras se entrena con MSE o la pérdida de Huber por estabilidad de la optimización, y muchos benchmarks publicados reportan ambas métricas para caracterizar distintos aspectos del error del modelo.

    Limitaciones

    El MAE tiene debilidades conocidas que deben informar su uso. Su propiedad de gradiente constante puede estancar la optimización una vez que los residuos son pequeños, lo que exige cronogramas de tasa de aprendizaje cuidadosos u optimizadores adaptativos. La no diferenciabilidad en cero, aunque suele manejarse con métodos de subgradiente, puede interactuar mal con técnicas que suponen suavidad estricta, como algunos métodos de segundo orden.

    Como todos los resúmenes de un solo número, el MAE colapsa toda la distribución de residuos en un único valor. Dos modelos con un MAE idéntico pueden tener distribuciones de residuos muy distintas: uno con muchos errores pequeños y otro con predicciones mayormente perfectas pero con unos cuantos errores moderados. Reportar el MAE junto con el error absoluto mediano, la distribución de residuos o resúmenes basados en cuantiles ofrece una imagen más completa.

    Por último, el MAE depende de la escala, por lo que no puede compararse entre problemas de regresión con escalas de objetivo distintas sin normalización. Alternativas independientes de la escala como MAPE, MAE normalizado (dividiendo por el rango o la desviación estándar del objetivo) o R-cuadrado abordan esto cuando se requiere comparación entre tareas.

    Referencias

    [1]

    [2]

    [3]

    [4]

    1. Template:Cite arxiv
    2. Willmott, C. J., and Matsuura, K. "Advantages of the mean absolute error (MAE) over the root mean square error (RMSE) in assessing average model performance." Climate Research, 30(1), 79-82, 2005.
    3. Chai, T., and Draxler, R. R. "Root mean square error (RMSE) or mean absolute error (MAE)? Arguments against avoiding RMSE in the literature." Geoscientific Model Development, 7(3), 1247-1250, 2014.
    4. Hastie, T., Tibshirani, R., and Friedman, J. The Elements of Statistical Learning, 2nd ed., Springer, 2009.