Loss Functions/es: Difference between revisions

Article
Topic area	Machine Learning
Difficulty	Introductory

Latest revision as of 07:09, 24 April 2026

Languages: English | Español | 中文

Las funciones de perdida (tambien llamadas funciones de coste o funciones objetivo) cuantifican cuan lejos estan las predicciones de un modelo del resultado deseado. Minimizar la funcion de perdida es el objetivo central del proceso de entrenamiento en el aprendizaje automatico: el algoritmo de optimizacion ajusta los parametros del modelo para reducir la perdida al minimo posible.

Proposito

Una funcion de perdida mapea la prediccion del modelo $\hat{y}$ y el objetivo verdadero $$ y $$ a un numero real no negativo. Formalmente, para un unico ejemplo:

\ell: \mathcal{Y} \times \mathcal{Y} \to \mathbb{R}_{\geq 0}

Sobre un conjunto de datos de $$ N $$ ejemplos, la perdida total es tipicamente el promedio:

L(\theta) = \frac{1}{N}\sum_{i=1}^{N}\ell\bigl(y_i,\, \hat{y}_i(\theta)\bigr)

La eleccion de la funcion de perdida codifica la estructura del problema — que tipo de errores importan y con que severidad deben ser penalizados. Una funcion de perdida mal elegida puede llevar a un modelo que optimiza el objetivo equivocado.

Error cuadratico medio

El error cuadratico medio (MSE, por sus siglas en ingles) es la perdida predeterminada para tareas de regresion:

L_{\text{MSE}} = \frac{1}{N}\sum_{i=1}^{N}(y_i - \hat{y}_i)^2

El MSE penaliza los errores grandes de forma cuadratica, lo que lo hace sensible a valores atipicos. Su gradiente es directo:

\frac{\partial}{\partial \hat{y}_i} (y_i - \hat{y}_i)^2 = -2(y_i - \hat{y}_i)

Una variante estrechamente relacionada es el error absoluto medio (MAE), $\frac{1}{N}\sum|y_i - \hat{y}_i|$ , que es mas robusto ante valores atipicos pero tiene un gradiente no suave en cero. La perdida de Huber combina ambas: se comporta como el MSE para errores pequenos y como el MAE para errores grandes.

Perdida de entropia cruzada

La perdida de entropia cruzada es la opcion estandar para tareas de clasificacion. Mide la disimilitud entre la distribucion de probabilidad predicha y la distribucion de la etiqueta verdadera.

Entropia cruzada binaria

Para clasificacion binaria con probabilidad predicha $$ p $$ y etiqueta verdadera $y \in \{0, 1\}$ :

L_{\text{BCE}} = -\frac{1}{N}\sum_{i=1}^{N}\bigl[y_i \log p_i + (1 - y_i)\log(1 - p_i)\bigr]

Esta perdida se minimiza cuando la probabilidad predicha coincide perfectamente con la etiqueta verdadera ( $$ p = 1 $$ cuando $$ y = 1 $$ y $$ p = 0 $$ cuando $$ y = 0 $$ ).

Entropia cruzada categorica

Para clasificacion multiclase con $$ C $$ clases y vector de probabilidad predicho $\hat{\mathbf{y}}$ :

L_{\text{CE}} = -\frac{1}{N}\sum_{i=1}^{N}\sum_{c=1}^{C} y_{i,c} \log \hat{y}_{i,c}

Cuando las etiquetas verdaderas estan codificadas en formato one-hot, solo sobrevive el termino correspondiente a la clase correcta.

Perdida de bisagra

La perdida de bisagra esta asociada con las maquinas de vectores de soporte (SVM) y los clasificadores de margen maximo. Para un problema de clasificacion binaria con etiquetas $y \in \{-1, +1\}$ y salida cruda del modelo $$ s $$ :

L_{\text{hinge}} = \frac{1}{N}\sum_{i=1}^{N}\max(0,\; 1 - y_i \, s_i)

La perdida de bisagra es cero cuando la prediccion tiene el signo correcto con un margen de al menos 1, y aumenta linealmente en caso contrario. Dado que no es diferenciable en el punto de bisagra, se utilizan metodos de subgradiente para la optimizacion.

Otras funciones de perdida comunes

Perdida	Formula	Uso tipico
Huber	$\begin{cases}\tfrac{1}{2}(y-\hat{y})^2 & \|y-\hat{y}\|\leq\delta \\ \delta(\|y-\hat{y}\|-\tfrac{\delta}{2}) & \text{otherwise}\end{cases}$	Regresion robusta
Divergencia KL	$\sum_c p_c \log\frac{p_c}{q_c}$	Ajuste de distribuciones, VAE
Perdida focal	$-\alpha(1-p_t)^\gamma \log p_t$	Clasificacion desbalanceada
Perdida CTC	Programacion dinamica sobre alineamientos	Reconocimiento de voz, OCR
Perdida de tripleta	$\max(0,\; d(a,p) - d(a,n) + m)$	Aprendizaje de metricas, verificacion facial

Eleccion de la perdida adecuada

La funcion de perdida apropiada depende de la tarea:

Regresion — el MSE es la opcion predeterminada; se cambia a MAE o Huber si los valores atipicos son una preocupacion.
Clasificacion binaria — entropia cruzada binaria con salida sigmoide.
Clasificacion multiclase — entropia cruzada categorica con salida softmax.
Clasificacion multietiqueta — entropia cruzada binaria aplicada independientemente por etiqueta.
Ranking o recuperacion — perdida contrastiva, perdida de tripleta o perdidas de ranking por lista.

Una consideracion importante es si la perdida esta calibrada — es decir, si minimizarla produce probabilidades predichas bien calibradas. La entropia cruzada es una regla de puntuacion propia y produce probabilidades calibradas, mientras que la perdida de bisagra no.

Terminos de regularizacion

En la practica, el objetivo total a menudo incluye un termino de regularizacion que penaliza la complejidad del modelo:

J(\theta) = L(\theta) + \lambda \, R(\theta)

donde $\lambda$ controla la intensidad de la regularizacion. Las opciones comunes incluyen la regularizacion L2 ( $R = \|\theta\|_2^2$ ) y la regularizacion L1 ( $R = \|\theta\|_1$ ). Vease Overfitting and Regularization para mas detalles.

Vease tambien

Referencias

Bishop, C. M. (2006). Pattern Recognition and Machine Learning, Chapter 1. Springer.
Goodfellow, I., Bengio, Y. and Courville, A. (2016). Deep Learning, Chapters 6 and 8. MIT Press.
Lin, T.-Y. et al. (2017). "Focal Loss for Dense Object Detection". ICCV.
Murphy, K. P. (2022). Probabilistic Machine Learning: An Introduction. MIT Press.

@@ Line 111: / Line 111: @@
 [[Category:Machine Learning]]
 [[Category:Introductory]]
-<!--v1.2.0 cache-bust-->