Translations:Attention Mechanisms/17/es: Difference between revisions
(Batch translate Attention Mechanisms unit 17 → es) Tag: translation |
(Batch translate Attention Mechanisms unit 17 → es) Tag: translation |
||
| Line 1: | Line 1: | ||
El factor de escala <math>\sqrt{d_k}</math> evita que los productos punto crezcan | El factor de escala <math>\sqrt{d_k}</math> evita que los productos punto crezcan en magnitud a medida que aumenta la dimensión de la clave <math>d_k</math>, lo cual llevaría al softmax a regiones con gradientes extremadamente pequeños. | ||
Revision as of 21:58, 27 April 2026
El factor de escala $ \sqrt{d_k} $ evita que los productos punto crezcan en magnitud a medida que aumenta la dimensión de la clave $ d_k $, lo cual llevaría al softmax a regiones con gradientes extremadamente pequeños.