DeployBot: [deploy-bot] Deploy from CI (8c92aeb)

2026-04-24T07:09:01Z

[deploy-bot] Deploy from CI (8c92aeb)

← Older revision		Revision as of 07:09, 24 April 2026
Line 103:		Line 103:
	[[Category:Machine Learning]]		[[Category:Machine Learning]]
	[[Category:Introductory]]		[[Category:Introductory]]
	~~<!--v1.2.0 cache-bust-->~~
	~~<!-- pass 2 -->~~

DeployBot: Pass 2 force re-parse

2026-04-24T07:01:17Z

Pass 2 force re-parse

← Older revision		Revision as of 07:01, 24 April 2026
Line 104:		Line 104:
	[[Category:Introductory]]		[[Category:Introductory]]
	<!--v1.2.0 cache-bust-->		<!--v1.2.0 cache-bust-->
			<!-- pass 2 -->

DeployBot: Force re-parse after Math source-mode rollout (v1.2.0)

2026-04-24T06:58:40Z

Force re-parse after Math source-mode rollout (v1.2.0)

← Older revision		Revision as of 06:58, 24 April 2026
Line 103:		Line 103:
	[[Category:Machine Learning]]		[[Category:Machine Learning]]
	[[Category:Introductory]]		[[Category:Introductory]]
			<!--v1.2.0 cache-bust-->

DeployBot: [deploy-bot] Deploy from CI (775ba6e)

2026-04-24T04:01:50Z

[deploy-bot] Deploy from CI (775ba6e)

New page

{{LanguageBar | page = Softmax Function}}
{{ArticleInfobox | topic_area = Machine Learning | difficulty = Introductory | prerequisites = }}
{{ContentMeta | generated_by = claude-opus | model_used = claude-opus-4-6 | generated_date = 2026-03-13}}

La '''funcion softmax''' (tambien llamada '''funcion exponencial normalizada''') es una funcion matematica que convierte un vector de numeros reales ('''logits''') en una distribucion de probabilidad. Es la activacion de salida estandar para la clasificacion multiclase en redes neuronales y desempena un papel central en modelos que van desde la regresion logistica hasta los grandes modelos de lenguaje.

== Definicion ==

Dado un vector de logits <math>\mathbf{z} = (z_1, z_2, \dots, z_K)</math> para <math>K</math> clases, la funcion softmax produce:

:<math>\sigma(\mathbf{z})_k = \frac{e^{z_k}}{\sum_{j=1}^{K} e^{z_j}}, \qquad k = 1, \dots, K</math>

La salida satisface dos propiedades que la convierten en una distribucion de probabilidad valida:

# <math>\sigma(\mathbf{z})_k > 0</math> para todo <math>k</math> (dado que la funcion exponencial es siempre positiva).
# <math>\sum_{k=1}^{K} \sigma(\mathbf{z})_k = 1</math> (por construccion).

== Intuicion ==

La funcion softmax amplifica las diferencias entre los logits. Un logit mayor que los demas recibe una proporcion desproporcionadamente grande de la masa de probabilidad porque la funcion exponencial crece de forma superlineal. Por ejemplo:

{| class="wikitable"
|-
! Logits !! Salida softmax
|-
| <math>(2.0,\; 1.0,\; 0.1)</math> || <math>(0.659,\; 0.242,\; 0.099)</math>
|-
| <math>(5.0,\; 1.0,\; 0.1)</math> || <math>(0.993,\; 0.005,\; 0.002)</math>
|}

A medida que la brecha entre el logit mas grande y los demas aumenta, la salida se aproxima a un vector one-hot. Este comportamiento de "el ganador se lleva la mayor parte" hace que softmax sea adecuada para la clasificacion donde una unica clase debe dominar.

== Parametro de temperatura ==

Un parametro de '''temperatura''' <math>T > 0</math> controla la nitidez de la distribucion:

:<math>\sigma(\mathbf{z}; T)_k = \frac{e^{z_k / T}}{\sum_{j=1}^{K} e^{z_j / T}}</math>

* <math>T \to 0</math>: La distribucion colapsa en un vector one-hot seleccionando el argmax — equivalente a una decision rigida.
* <math>T = 1</math>: Softmax estandar.
* <math>T \to \infty</math>: La distribucion se aproxima a la uniforme — todas las clases se vuelven igualmente probables.

El escalado por temperatura se utiliza ampliamente en la destilacion de conocimiento (Hinton et al., 2015), donde una distribucion "suave" de un modelo maestro proporciona una senal de entrenamiento mas rica que las etiquetas rigidas. Tambien se utiliza para controlar la aleatoriedad en la generacion de texto a partir de modelos de lenguaje.

== Estabilidad numerica ==

Una implementacion ingenua de softmax puede desbordarse cuando los logits son grandes (por ejemplo, <math>e^{1000}</math> es infinito en punto flotante). La solucion estandar es restar el logit maximo:

:<math>\sigma(\mathbf{z})_k = \frac{e^{z_k - m}}{\sum_{j=1}^{K} e^{z_j - m}}, \qquad m = \max_j z_j</math>

Esto es matematicamente equivalente (la constante se cancela) pero asegura que el exponente mas grande sea <math>e^0 = 1</math>, previniendo el desbordamiento. Todos los principales frameworks de aprendizaje profundo implementan esta version estabilizada automaticamente.

== Relacion con la sigmoide ==

Para el caso especial de <math>K = 2</math> clases, la funcion softmax se reduce a la funcion '''sigmoide''' (logistica). Si se define <math>z = z_1 - z_2</math>, entonces:

:<math>\sigma(\mathbf{z})_1 = \frac{e^{z_1}}{e^{z_1} + e^{z_2}} = \frac{1}{1 + e^{-z}} = \sigma_{\mathrm{sigmoid}}(z)</math>

Por esto, los clasificadores binarios tipicamente utilizan una unica neurona de salida con activacion sigmoide en lugar de dos neuronas con softmax — son matematicamente equivalentes.

== Gradiente ==

El jacobiano de la funcion softmax con respecto a su entrada es:

:<math>\frac{\partial \sigma_k}{\partial z_j} = \sigma_k (\delta_{kj} - \sigma_j)</math>

donde <math>\delta_{kj}</math> es la delta de Kronecker. Cuando se combina con la [[Cross-Entropy Loss|perdida de entropia cruzada]], el gradiente se simplifica a <math>\hat{y}_k - y_k</math>, lo que es computacionalmente eficiente y numericamente estable.

== Uso en clasificacion ==

En un flujo de clasificacion tipico:

# Una red neuronal produce logits crudos <math>\mathbf{z}</math> a partir de su capa lineal final.
# Softmax convierte los logits en probabilidades: <math>\hat{\mathbf{y}} = \sigma(\mathbf{z})</math>.
# La clase predicha es <math>\hat{c} = \arg\max_k \hat{y}_k</math>.
# El entrenamiento utiliza la [[Cross-Entropy Loss|perdida de entropia cruzada]] aplicada a la distribucion predicha y las etiquetas verdaderas.

En la practica, softmax y la entropia cruzada se calculan conjuntamente por estabilidad numerica (la formulacion '''log-softmax'''), y el argmax en el momento de la inferencia puede aplicarse directamente a los logits sin calcular softmax en absoluto.

== Mas alla de la clasificacion ==

Softmax aparece en muchos contextos mas alla de la capa de salida:

* '''Mecanismos de atencion''': Softmax normaliza las puntuaciones de alineamiento en pesos de atencion en la arquitectura [[Attention Mechanisms|Transformer]].
* '''Aprendizaje por refuerzo''': Softmax sobre las estimaciones de valor de accion produce una politica estocastica (exploracion de Boltzmann).
* '''Modelos de mezcla''': Softmax parametriza los coeficientes de mezcla en arquitecturas de mezcla de expertos.

== Vease tambien ==

* [[Cross-Entropy Loss]]
* [[Loss Functions]]
* [[Logistic regression]]
* [[Attention Mechanisms]]
* [[Neural Networks]]

== Referencias ==

* Bishop, C. M. (2006). ''Pattern Recognition and Machine Learning''. Springer, Section 4.3.4.
* Goodfellow, I., Bengio, Y. and Courville, A. (2016). ''Deep Learning''. MIT Press, Section 6.2.2.3.
* Hinton, G., Vinyals, O. and Dean, J. (2015). "Distilling the Knowledge in a Neural Network". ''arXiv:1503.02531''.
* Bridle, J. S. (1990). "Probabilistic Interpretation of Feedforward Classification Network Outputs". ''Neurocomputing''.

[[Category:Machine Learning]]
[[Category:Introductory]]

Softmax Function/es - Revision history

DeployBot: [deploy-bot] Deploy from CI (8c92aeb)

DeployBot: Pass 2 force re-parse

DeployBot: Force re-parse after Math source-mode rollout (v1.2.0)

DeployBot: [deploy-bot] Deploy from CI (775ba6e)