Translations:Softmax Function/19/es
Esto es matemáticamente equivalente (la constante se cancela) pero garantiza que el mayor exponente sea $ e^0 = 1 $, evitando el desbordamiento. Todos los principales frameworks de deep learning implementan automáticamente esta versión estabilizada.