Loss Functions/es: Difference between revisions
(Force re-parse after Math source-mode rollout (v1.2.0)) Tags: ci-deploy Reverted |
([deploy-bot] Deploy from CI (8c92aeb)) Tags: ci-deploy Manual revert |
||
| (One intermediate revision by the same user not shown) | |||
| Line 111: | Line 111: | ||
[[Category:Machine Learning]] | [[Category:Machine Learning]] | ||
[[Category:Introductory]] | [[Category:Introductory]] | ||
Latest revision as of 07:09, 24 April 2026
| Article | |
|---|---|
| Topic area | Machine Learning |
| Difficulty | Introductory |
Las funciones de perdida (tambien llamadas funciones de coste o funciones objetivo) cuantifican cuan lejos estan las predicciones de un modelo del resultado deseado. Minimizar la funcion de perdida es el objetivo central del proceso de entrenamiento en el aprendizaje automatico: el algoritmo de optimizacion ajusta los parametros del modelo para reducir la perdida al minimo posible.
Proposito
Una funcion de perdida mapea la prediccion del modelo $ \hat{y} $ y el objetivo verdadero $ y $ a un numero real no negativo. Formalmente, para un unico ejemplo:
- $ \ell: \mathcal{Y} \times \mathcal{Y} \to \mathbb{R}_{\geq 0} $
Sobre un conjunto de datos de $ N $ ejemplos, la perdida total es tipicamente el promedio:
- $ L(\theta) = \frac{1}{N}\sum_{i=1}^{N}\ell\bigl(y_i,\, \hat{y}_i(\theta)\bigr) $
La eleccion de la funcion de perdida codifica la estructura del problema — que tipo de errores importan y con que severidad deben ser penalizados. Una funcion de perdida mal elegida puede llevar a un modelo que optimiza el objetivo equivocado.
Error cuadratico medio
El error cuadratico medio (MSE, por sus siglas en ingles) es la perdida predeterminada para tareas de regresion:
- $ L_{\text{MSE}} = \frac{1}{N}\sum_{i=1}^{N}(y_i - \hat{y}_i)^2 $
El MSE penaliza los errores grandes de forma cuadratica, lo que lo hace sensible a valores atipicos. Su gradiente es directo:
- $ \frac{\partial}{\partial \hat{y}_i} (y_i - \hat{y}_i)^2 = -2(y_i - \hat{y}_i) $
Una variante estrechamente relacionada es el error absoluto medio (MAE), $ \frac{1}{N}\sum|y_i - \hat{y}_i| $, que es mas robusto ante valores atipicos pero tiene un gradiente no suave en cero. La perdida de Huber combina ambas: se comporta como el MSE para errores pequenos y como el MAE para errores grandes.
Perdida de entropia cruzada
La perdida de entropia cruzada es la opcion estandar para tareas de clasificacion. Mide la disimilitud entre la distribucion de probabilidad predicha y la distribucion de la etiqueta verdadera.
Entropia cruzada binaria
Para clasificacion binaria con probabilidad predicha $ p $ y etiqueta verdadera $ y \in \{0, 1\} $:
- $ L_{\text{BCE}} = -\frac{1}{N}\sum_{i=1}^{N}\bigl[y_i \log p_i + (1 - y_i)\log(1 - p_i)\bigr] $
Esta perdida se minimiza cuando la probabilidad predicha coincide perfectamente con la etiqueta verdadera ($ p = 1 $ cuando $ y = 1 $ y $ p = 0 $ cuando $ y = 0 $).
Entropia cruzada categorica
Para clasificacion multiclase con $ C $ clases y vector de probabilidad predicho $ \hat{\mathbf{y}} $:
- $ L_{\text{CE}} = -\frac{1}{N}\sum_{i=1}^{N}\sum_{c=1}^{C} y_{i,c} \log \hat{y}_{i,c} $
Cuando las etiquetas verdaderas estan codificadas en formato one-hot, solo sobrevive el termino correspondiente a la clase correcta.
Perdida de bisagra
La perdida de bisagra esta asociada con las maquinas de vectores de soporte (SVM) y los clasificadores de margen maximo. Para un problema de clasificacion binaria con etiquetas $ y \in \{-1, +1\} $ y salida cruda del modelo $ s $:
- $ L_{\text{hinge}} = \frac{1}{N}\sum_{i=1}^{N}\max(0,\; 1 - y_i \, s_i) $
La perdida de bisagra es cero cuando la prediccion tiene el signo correcto con un margen de al menos 1, y aumenta linealmente en caso contrario. Dado que no es diferenciable en el punto de bisagra, se utilizan metodos de subgradiente para la optimizacion.
Otras funciones de perdida comunes
| Perdida | Formula | Uso tipico |
|---|---|---|
| Huber | $ \begin{cases}\tfrac{1}{2}(y-\hat{y})^2 & |y-\hat{y}|\leq\delta \\ \delta(|y-\hat{y}|-\tfrac{\delta}{2}) & \text{otherwise}\end{cases} $ | Regresion robusta |
| Divergencia KL | $ \sum_c p_c \log\frac{p_c}{q_c} $ | Ajuste de distribuciones, VAE |
| Perdida focal | $ -\alpha(1-p_t)^\gamma \log p_t $ | Clasificacion desbalanceada |
| Perdida CTC | Programacion dinamica sobre alineamientos | Reconocimiento de voz, OCR |
| Perdida de tripleta | $ \max(0,\; d(a,p) - d(a,n) + m) $ | Aprendizaje de metricas, verificacion facial |
Eleccion de la perdida adecuada
La funcion de perdida apropiada depende de la tarea:
- Regresion — el MSE es la opcion predeterminada; se cambia a MAE o Huber si los valores atipicos son una preocupacion.
- Clasificacion binaria — entropia cruzada binaria con salida sigmoide.
- Clasificacion multiclase — entropia cruzada categorica con salida softmax.
- Clasificacion multietiqueta — entropia cruzada binaria aplicada independientemente por etiqueta.
- Ranking o recuperacion — perdida contrastiva, perdida de tripleta o perdidas de ranking por lista.
Una consideracion importante es si la perdida esta calibrada — es decir, si minimizarla produce probabilidades predichas bien calibradas. La entropia cruzada es una regla de puntuacion propia y produce probabilidades calibradas, mientras que la perdida de bisagra no.
Terminos de regularizacion
En la practica, el objetivo total a menudo incluye un termino de regularizacion que penaliza la complejidad del modelo:
- $ J(\theta) = L(\theta) + \lambda \, R(\theta) $
donde $ \lambda $ controla la intensidad de la regularizacion. Las opciones comunes incluyen la regularizacion L2 ($ R = \|\theta\|_2^2 $) y la regularizacion L1 ($ R = \|\theta\|_1 $). Vease Overfitting and Regularization para mas detalles.
Vease tambien
- Gradient Descent
- Neural Networks
- Backpropagation
- Overfitting and Regularization
- Stochastic Gradient Descent
Referencias
- Bishop, C. M. (2006). Pattern Recognition and Machine Learning, Chapter 1. Springer.
- Goodfellow, I., Bengio, Y. and Courville, A. (2016). Deep Learning, Chapters 6 and 8. MIT Press.
- Lin, T.-Y. et al. (2017). "Focal Loss for Dense Object Detection". ICCV.
- Murphy, K. P. (2022). Probabilistic Machine Learning: An Introduction. MIT Press.