Translations:Attention Mechanisms/17/es
El factor de escala $ \sqrt{d_k} $ evita que los productos punto crezcan demasiado en magnitud a medida que aumenta la dimensión de la clave $ d_k $, lo que llevaría al softmax a regiones de gradientes extremadamente pequeños.