Translations:Attention Mechanisms/17/es: Difference between revisions

Latest revision as of 23:36, 27 April 2026

Information about message (contribute)

This message has no documentation. If you know where or how this message is used, you can help other translators by adding documentation to this message.

Message definition (Attention Mechanisms)

The scaling factor <math>\sqrt{d_k}</math> prevents the dot products from growing large in magnitude as the key dimension <math>d_k</math> increases, which would push the {{Term|softmax}} into regions of extremely small gradients.

El factor de escala $\sqrt{d_k}$ evita que los productos punto crezcan en magnitud a medida que aumenta la dimensión de la clave $$ d_k $$ , lo que empujaría al softmax a regiones de gradientes extremadamente pequeños.

Revision as of 21:58, 27 April 2026 (view source) DeployBot (talk \| contribs) (Batch translate Attention Mechanisms unit 17 → es) Tag: translation ← Older edit		Latest revision as of 23:36, 27 April 2026 (view source) DeployBot (talk \| contribs) (Batch translate Attention Mechanisms unit 17 → es) Tag: translation
Line 1:		Line 1:
	El factor de escala <math>\sqrt{d_k}</math> evita que los productos punto crezcan en magnitud a medida que aumenta la dimensión de la clave <math>d_k</math>, lo ~~cual llevaría~~ al softmax a regiones ~~con~~ gradientes extremadamente pequeños.		El factor de escala <math>\sqrt{d_k}</math> evita que los productos punto crezcan en magnitud a medida que aumenta la dimensión de la clave <math>d_k</math>, lo que empujaría al {{Term\|softmax\|softmax}} a regiones de gradientes extremadamente pequeños.