DeployBot: [deploy-bot] Deploy from CI (8c92aeb)

2026-04-24T07:09:01Z

[deploy-bot] Deploy from CI (8c92aeb)

← Older revision		Revision as of 07:09, 24 April 2026
Line 111:		Line 111:
	[[Category:Machine Learning]]		[[Category:Machine Learning]]
	[[Category:Introductory]]		[[Category:Introductory]]
	~~<!--v1.2.0 cache-bust-->~~
	~~<!-- pass 2 -->~~

DeployBot: Pass 2 force re-parse

2026-04-24T07:00:58Z

Pass 2 force re-parse

← Older revision		Revision as of 07:00, 24 April 2026
Line 112:		Line 112:
	[[Category:Introductory]]		[[Category:Introductory]]
	<!--v1.2.0 cache-bust-->		<!--v1.2.0 cache-bust-->
			<!-- pass 2 -->

DeployBot: Force re-parse after Math source-mode rollout (v1.2.0)

2026-04-24T06:58:22Z

Force re-parse after Math source-mode rollout (v1.2.0)

← Older revision		Revision as of 06:58, 24 April 2026
Line 111:		Line 111:
	[[Category:Machine Learning]]		[[Category:Machine Learning]]
	[[Category:Introductory]]		[[Category:Introductory]]
			<!--v1.2.0 cache-bust-->

DeployBot: [deploy-bot] Deploy from CI (775ba6e)

2026-04-24T04:01:49Z

[deploy-bot] Deploy from CI (775ba6e)

New page

{{LanguageBar | page = Loss Functions}}
{{ArticleInfobox | topic_area = Machine Learning | difficulty = Introductory | prerequisites = }}
{{ContentMeta | generated_by = claude-opus | model_used = claude-opus-4-6 | generated_date = 2026-03-13}}

Las '''funciones de perdida''' (tambien llamadas '''funciones de coste''' o '''funciones objetivo''') cuantifican cuan lejos estan las predicciones de un modelo del resultado deseado. Minimizar la funcion de perdida es el objetivo central del proceso de entrenamiento en el aprendizaje automatico: el algoritmo de optimizacion ajusta los parametros del modelo para reducir la perdida al minimo posible.

== Proposito ==

Una funcion de perdida mapea la prediccion del modelo <math>\hat{y}</math> y el objetivo verdadero <math>y</math> a un numero real no negativo. Formalmente, para un unico ejemplo:

:<math>\ell: \mathcal{Y} \times \mathcal{Y} \to \mathbb{R}_{\geq 0}</math>

Sobre un conjunto de datos de <math>N</math> ejemplos, la perdida total es tipicamente el promedio:

:<math>L(\theta) = \frac{1}{N}\sum_{i=1}^{N}\ell\bigl(y_i,\, \hat{y}_i(\theta)\bigr)</math>

La eleccion de la funcion de perdida codifica la estructura del problema — que tipo de errores importan y con que severidad deben ser penalizados. Una funcion de perdida mal elegida puede llevar a un modelo que optimiza el objetivo equivocado.

== Error cuadratico medio ==

El '''error cuadratico medio''' (MSE, por sus siglas en ingles) es la perdida predeterminada para tareas de regresion:

:<math>L_{\text{MSE}} = \frac{1}{N}\sum_{i=1}^{N}(y_i - \hat{y}_i)^2</math>

El MSE penaliza los errores grandes de forma cuadratica, lo que lo hace sensible a valores atipicos. Su gradiente es directo:

:<math>\frac{\partial}{\partial \hat{y}_i} (y_i - \hat{y}_i)^2 = -2(y_i - \hat{y}_i)</math>

Una variante estrechamente relacionada es el '''error absoluto medio''' (MAE), <math>\frac{1}{N}\sum|y_i - \hat{y}_i|</math>, que es mas robusto ante valores atipicos pero tiene un gradiente no suave en cero. La '''perdida de Huber''' combina ambas: se comporta como el MSE para errores pequenos y como el MAE para errores grandes.

== Perdida de entropia cruzada ==

La '''perdida de entropia cruzada''' es la opcion estandar para tareas de clasificacion. Mide la disimilitud entre la distribucion de probabilidad predicha y la distribucion de la etiqueta verdadera.

=== Entropia cruzada binaria ===

Para clasificacion binaria con probabilidad predicha <math>p</math> y etiqueta verdadera <math>y \in \{0, 1\}</math>:

:<math>L_{\text{BCE}} = -\frac{1}{N}\sum_{i=1}^{N}\bigl[y_i \log p_i + (1 - y_i)\log(1 - p_i)\bigr]</math>

Esta perdida se minimiza cuando la probabilidad predicha coincide perfectamente con la etiqueta verdadera (<math>p = 1</math> cuando <math>y = 1</math> y <math>p = 0</math> cuando <math>y = 0</math>).

=== Entropia cruzada categorica ===

Para clasificacion multiclase con <math>C</math> clases y vector de probabilidad predicho <math>\hat{\mathbf{y}}</math>:

:<math>L_{\text{CE}} = -\frac{1}{N}\sum_{i=1}^{N}\sum_{c=1}^{C} y_{i,c} \log \hat{y}_{i,c}</math>

Cuando las etiquetas verdaderas estan codificadas en formato one-hot, solo sobrevive el termino correspondiente a la clase correcta.

== Perdida de bisagra ==

La '''perdida de bisagra''' esta asociada con las maquinas de vectores de soporte (SVM) y los clasificadores de margen maximo. Para un problema de clasificacion binaria con etiquetas <math>y \in \{-1, +1\}</math> y salida cruda del modelo <math>s</math>:

:<math>L_{\text{hinge}} = \frac{1}{N}\sum_{i=1}^{N}\max(0,\; 1 - y_i \, s_i)</math>

La perdida de bisagra es cero cuando la prediccion tiene el signo correcto con un margen de al menos 1, y aumenta linealmente en caso contrario. Dado que no es diferenciable en el punto de bisagra, se utilizan metodos de subgradiente para la optimizacion.

== Otras funciones de perdida comunes ==

{| class="wikitable"
|-
! Perdida !! Formula !! Uso tipico
|-
| '''Huber''' || <math>\begin{cases}\tfrac{1}{2}(y-\hat{y})^2 & |y-\hat{y}|\leq\delta \\ \delta(|y-\hat{y}|-\tfrac{\delta}{2}) & \text{otherwise}\end{cases}</math> || Regresion robusta
|-
| '''Divergencia KL''' || <math>\sum_c p_c \log\frac{p_c}{q_c}</math> || Ajuste de distribuciones, VAE
|-
| '''Perdida focal''' || <math>-\alpha(1-p_t)^\gamma \log p_t</math> || Clasificacion desbalanceada
|-
| '''Perdida CTC''' || Programacion dinamica sobre alineamientos || Reconocimiento de voz, OCR
|-
| '''Perdida de tripleta''' || <math>\max(0,\; d(a,p) - d(a,n) + m)</math> || Aprendizaje de metricas, verificacion facial
|}

== Eleccion de la perdida adecuada ==

La funcion de perdida apropiada depende de la tarea:

* '''Regresion''' — el MSE es la opcion predeterminada; se cambia a MAE o Huber si los valores atipicos son una preocupacion.
* '''Clasificacion binaria''' — entropia cruzada binaria con salida sigmoide.
* '''Clasificacion multiclase''' — entropia cruzada categorica con salida softmax.
* '''Clasificacion multietiqueta''' — entropia cruzada binaria aplicada independientemente por etiqueta.
* '''Ranking o recuperacion''' — perdida contrastiva, perdida de tripleta o perdidas de ranking por lista.

Una consideracion importante es si la perdida esta '''calibrada''' — es decir, si minimizarla produce probabilidades predichas bien calibradas. La entropia cruzada es una regla de puntuacion propia y produce probabilidades calibradas, mientras que la perdida de bisagra no.

== Terminos de regularizacion ==

En la practica, el objetivo total a menudo incluye un '''termino de regularizacion''' que penaliza la complejidad del modelo:

:<math>J(\theta) = L(\theta) + \lambda \, R(\theta)</math>

donde <math>\lambda</math> controla la intensidad de la regularizacion. Las opciones comunes incluyen la regularizacion L2 (<math>R = \|\theta\|_2^2</math>) y la regularizacion L1 (<math>R = \|\theta\|_1</math>). Vease [[Overfitting and Regularization]] para mas detalles.

== Vease tambien ==

* [[Gradient Descent]]
* [[Neural Networks]]
* [[Backpropagation]]
* [[Overfitting and Regularization]]
* [[Stochastic Gradient Descent]]

== Referencias ==

* Bishop, C. M. (2006). ''Pattern Recognition and Machine Learning'', Chapter 1. Springer.
* Goodfellow, I., Bengio, Y. and Courville, A. (2016). ''Deep Learning'', Chapters 6 and 8. MIT Press.
* Lin, T.-Y. et al. (2017). "Focal Loss for Dense Object Detection". ''ICCV''.
* Murphy, K. P. (2022). ''Probabilistic Machine Learning: An Introduction''. MIT Press.

[[Category:Machine Learning]]
[[Category:Introductory]]

Loss Functions/es - Revision history

DeployBot: [deploy-bot] Deploy from CI (8c92aeb)

DeployBot: Pass 2 force re-parse

DeployBot: Force re-parse after Math source-mode rollout (v1.2.0)

DeployBot: [deploy-bot] Deploy from CI (775ba6e)