Translations:Attention Mechanisms/17/es: Difference between revisions
(Batch translate Attention Mechanisms unit 17 → es) Tag: translation |
(Batch translate Attention Mechanisms unit 17 → es) Tag: translation |
||
| Line 1: | Line 1: | ||
El factor de escala <math>\sqrt{d_k}</math> evita que los productos punto crezcan en magnitud a medida que aumenta la dimensión de la clave <math>d_k</math>, lo | El factor de escala <math>\sqrt{d_k}</math> evita que los productos punto crezcan en magnitud a medida que aumenta la dimensión de la clave <math>d_k</math>, lo que empujaría al {{Term|softmax|softmax}} a regiones de gradientes extremadamente pequeños. | ||
Latest revision as of 23:36, 27 April 2026
El factor de escala $ \sqrt{d_k} $ evita que los productos punto crezcan en magnitud a medida que aumenta la dimensión de la clave $ d_k $, lo que empujaría al softmax a regiones de gradientes extremadamente pequeños.