All translations

Enter a message name below to show all available translations.

Message

Found 3 translations.

NameCurrent message text
 h English (en)where <math>Q</math>, <math>K</math>, and <math>V</math> are matrices of queries, keys, and values respectively, and <math>d_k</math> is the dimensionality of the keys. The scaling factor <math>\sqrt{d_k}</math> prevents the dot products from growing large in magnitude, which would push the {{Term|softmax}} into regions with extremely small gradients.
 h Spanish (es)donde <math>Q</math>, <math>K</math> y <math>V</math> son matrices de consultas, claves y valores respectivamente, y <math>d_k</math> es la dimensionalidad de las claves. El factor de escala <math>\sqrt{d_k}</math> evita que los productos punto crezcan demasiado en magnitud, lo que empujaría a la {{Term|softmax|softmax}} hacia regiones con gradientes extremadamente pequeños.
 h Chinese (zh)其中 <math>Q</math>、<math>K</math> 和 <math>V</math> 分别是查询、键和值的矩阵,<math>d_k</math> 是键的维度。缩放因子 <math>\sqrt{d_k}</math> 可以防止点积的数值增长过大,否则会将 {{Term|softmax|softmax}} 推入梯度极小的区域。