DeployBot: [deploy-bot] Deploy from CI (8c92aeb)

2026-04-24T07:09:00Z

[deploy-bot] Deploy from CI (8c92aeb)

← Older revision		Revision as of 07:09, 24 April 2026
Line 107:		Line 107:
	[[Category:Machine Learning]]		[[Category:Machine Learning]]
	[[Category:Intermediate]]		[[Category:Intermediate]]
	~~<!--v1.2.0 cache-bust-->~~
	~~<!-- pass 2 -->~~

DeployBot: Pass 2 force re-parse

2026-04-24T07:00:35Z

Pass 2 force re-parse

← Older revision		Revision as of 07:00, 24 April 2026
Line 108:		Line 108:
	[[Category:Intermediate]]		[[Category:Intermediate]]
	<!--v1.2.0 cache-bust-->		<!--v1.2.0 cache-bust-->
			<!-- pass 2 -->

DeployBot: Force re-parse after Math source-mode rollout (v1.2.0)

2026-04-24T06:57:59Z

Force re-parse after Math source-mode rollout (v1.2.0)

← Older revision		Revision as of 06:57, 24 April 2026
Line 107:		Line 107:
	[[Category:Machine Learning]]		[[Category:Machine Learning]]
	[[Category:Intermediate]]		[[Category:Intermediate]]
			<!--v1.2.0 cache-bust-->

DeployBot: [deploy-bot] Deploy from CI (775ba6e)

2026-04-24T04:01:47Z

[deploy-bot] Deploy from CI (775ba6e)

New page

{{LanguageBar | page = Cross-Entropy Loss}}
{{ArticleInfobox | topic_area = Machine Learning | difficulty = Intermediate | prerequisites = [[Loss Functions]], [[Softmax Function]]}}
{{ContentMeta | generated_by = claude-opus | model_used = claude-opus-4-6 | generated_date = 2026-03-13}}

La '''perdida de entropia cruzada''' (tambien llamada '''perdida logaritmica''') es la funcion de perdida mas ampliamente utilizada para tareas de clasificacion en el aprendizaje automatico. Con raices en la teoria de la informacion, mide la disimilitud entre la distribucion de la etiqueta verdadera y la distribucion de probabilidad predicha por el modelo, proporcionando un objetivo suave y diferenciable que impulsa a los clasificadores probabilisticos hacia predicciones correctas y con alta confianza.

== Fundamentos de la teoria de la informacion ==

=== Entropia ===

La '''entropia''' de una distribucion de probabilidad discreta <math>p</math> cuantifica su incertidumbre:

:<math>H(p) = -\sum_{k=1}^{K} p_k \log p_k</math>

Para una distribucion determinista (etiqueta one-hot), <math>H(p) = 0</math>. La entropia se maximiza cuando todos los resultados son igualmente probables.

=== Divergencia KL ===

La '''divergencia de Kullback-Leibler''' mide cuanto difiere una distribucion <math>q</math> de una distribucion de referencia <math>p</math>:

:<math>D_{\mathrm{KL}}(p \,\|\, q) = \sum_{k=1}^{K} p_k \log \frac{p_k}{q_k}</math>

La divergencia KL es no negativa e igual a cero si y solo si <math>p = q</math>.

=== Entropia cruzada ===

La '''entropia cruzada''' entre las distribuciones <math>p</math> (verdadera) y <math>q</math> (predicha) es:

:<math>H(p, q) = -\sum_{k=1}^{K} p_k \log q_k = H(p) + D_{\mathrm{KL}}(p \,\|\, q)</math>

Dado que <math>H(p)</math> es constante con respecto a los parametros del modelo, minimizar la entropia cruzada es equivalente a minimizar la divergencia KL — es decir, hacer que la distribucion predicha <math>q</math> sea lo mas cercana posible a la distribucion verdadera <math>p</math>.

== Entropia cruzada binaria ==

Para clasificacion binaria con etiqueta verdadera <math>y \in \{0, 1\}</math> y probabilidad predicha <math>\hat{y} = \sigma(z)</math> (donde <math>\sigma</math> es la [[Softmax Function|funcion sigmoide]]):

:<math>\mathcal{L}_{\mathrm{BCE}} = -\bigl[y \log \hat{y} + (1 - y) \log(1 - \hat{y})\bigr]</math>

Sobre un conjunto de datos de <math>N</math> muestras:

:<math>\mathcal{L} = -\frac{1}{N} \sum_{i=1}^{N} \bigl[y_i \log \hat{y}_i + (1 - y_i) \log(1 - \hat{y}_i)\bigr]</math>

El gradiente con respecto al logit <math>z</math> toma la forma elegantemente simple <math>\hat{y} - y</math>, que es tanto intuitiva como computacionalmente eficiente.

== Entropia cruzada categorica ==

Para clasificacion multiclase con <math>K</math> clases, la etiqueta verdadera es tipicamente un vector one-hot <math>\mathbf{y}</math> con <math>y_c = 1</math> para la clase correcta <math>c</math>. Las probabilidades predichas <math>\hat{\mathbf{y}}</math> se obtienen mediante la [[Softmax Function|funcion softmax]]:

:<math>\mathcal{L}_{\mathrm{CE}} = -\sum_{k=1}^{K} y_k \log \hat{y}_k = -\log \hat{y}_c</math>

Esto se reduce a la probabilidad logaritmica negativa de la clase correcta, razon por la cual la entropia cruzada categorica tambien se denomina '''verosimilitud logaritmica negativa''' en este contexto.

== Estabilidad numerica ==

=== El truco log-sum-exp ===

Calcular ingenuamente <math>\log(\mathrm{softmax}(z_k))</math> implica exponenciar logits potencialmente grandes, causando desbordamiento. El truco '''log-sum-exp''' evita esto:

:<math>\log \hat{y}_k = z_k - \log \sum_{j=1}^{K} e^{z_j} = z_k - \left(m + \log \sum_{j=1}^{K} e^{z_j - m}\right)</math>

donde <math>m = \max_j z_j</math>. Restar el logit maximo asegura que el exponente mas grande sea cero, previniendo el desbordamiento. Todos los principales frameworks de aprendizaje profundo implementan esta operacion fusionada (por ejemplo, <code>CrossEntropyLoss</code> de PyTorch acepta logits crudos).

=== Recorte ===

Las probabilidades predichas deben recortarse lejos de exactamente 0 y 1 para evitar <math>\log(0) = -\infty</math>. Tipicamente se utiliza un epsilon pequeno (por ejemplo, <math>10^{-7}</math>).

== Suavizado de etiquetas ==

El '''suavizado de etiquetas''' (Szegedy et al., 2016) reemplaza el objetivo one-hot rigido con una distribucion suave:

:<math>y_k^{\mathrm{smooth}} = (1 - \alpha)\, y_k + \frac{\alpha}{K}</math>

donde <math>\alpha</math> es una constante pequena (comunmente 0.1). Esto evita que el modelo se vuelva excesivamente confiado, mejora la calibracion y a menudo produce una mejor generalizacion. Es practica estandar en el entrenamiento de grandes clasificadores de imagenes y modelos Transformer.

== Comparacion con otras perdidas ==

{| class="wikitable"
|-
! Perdida !! Formula !! Uso tipico
|-
| '''Entropia cruzada''' || <math>-\sum y_k \log \hat{y}_k</math> || Clasificacion
|-
| '''Error cuadratico medio''' || <math>\frac{1}{K}\sum(y_k - \hat{y}_k)^2</math> || Regresion (inadecuado para clasificacion)
|-
| '''Perdida de bisagra''' || <math>\max(0, 1 - y \cdot z)</math> || Clasificacion tipo SVM
|-
| '''Perdida focal''' || <math>-(1-\hat{y}_c)^\gamma \log \hat{y}_c</math> || Clasificacion desbalanceada
|}

La entropia cruzada tiene gradientes mas pronunciados que el MSE cuando la prediccion es confidencialmente erronea, lo que conduce a una correccion mas rapida de los errores grandes.

== Vease tambien ==

* [[Loss Functions]]
* [[Softmax Function]]
* [[Logistic regression]]
* [[Information theory]]
* [[Neural Networks]]

== Referencias ==

* Shannon, C. E. (1948). "A Mathematical Theory of Communication". ''Bell System Technical Journal''.
* Goodfellow, I., Bengio, Y. and Courville, A. (2016). ''Deep Learning''. MIT Press, Chapter 6.
* Szegedy, C. et al. (2016). "Rethinking the Inception Architecture for Computer Vision". ''CVPR''.
* Lin, T.-Y. et al. (2017). "Focal Loss for Dense Object Detection". ''ICCV''.

[[Category:Machine Learning]]
[[Category:Intermediate]]

Cross-Entropy Loss/es - Revision history

DeployBot: [deploy-bot] Deploy from CI (8c92aeb)

DeployBot: Pass 2 force re-parse

DeployBot: Force re-parse after Math source-mode rollout (v1.2.0)

DeployBot: [deploy-bot] Deploy from CI (775ba6e)