Translations:Attention Mechanisms/17/zh: Difference between revisions
(Batch translate Attention Mechanisms unit 17 → zh) Tag: translation |
(Batch translate Attention Mechanisms unit 17 → zh) Tag: translation |
||
| Line 1: | Line 1: | ||
缩放因子 <math>\sqrt{d_k}</math> | 缩放因子 <math>\sqrt{d_k}</math> 防止点积在键维度 <math>d_k</math> 增大时数值过大,否则会使 softmax 进入梯度极小的区域。 | ||
Revision as of 21:58, 27 April 2026
缩放因子 $ \sqrt{d_k} $ 防止点积在键维度 $ d_k $ 增大时数值过大,否则会使 softmax 进入梯度极小的区域。