All translations
Enter a message name below to show all available translations.
Found 3 translations.
| Name | Current message text |
|---|---|
| h English (en) | where <math>Q</math>, <math>K</math>, and <math>V</math> are matrices of queries, keys, and values respectively, and <math>d_k</math> is the dimensionality of the keys. The scaling factor <math>\sqrt{d_k}</math> prevents the dot products from growing large in magnitude, which would push the {{Term|softmax}} into regions with extremely small gradients. |
| h Spanish (es) | donde <math>Q</math>, <math>K</math> y <math>V</math> son matrices de consultas, claves y valores respectivamente, y <math>d_k</math> es la dimensionalidad de las claves. El factor de escala <math>\sqrt{d_k}</math> evita que los productos punto crezcan demasiado en magnitud, lo que empujaría a la {{Term|softmax|softmax}} hacia regiones con gradientes extremadamente pequeños. |
| h Chinese (zh) | 其中 <math>Q</math>、<math>K</math> 和 <math>V</math> 分别是查询、键和值的矩阵,<math>d_k</math> 是键的维度。缩放因子 <math>\sqrt{d_k}</math> 可以防止点积的数值增长过大,否则会将 {{Term|softmax|softmax}} 推入梯度极小的区域。 |