Translations:Attention Mechanisms/17/zh

    From Marovi AI

    缩放因子 $ \sqrt{d_k} $ 可防止点积随着键维度 $ d_k $ 的增大而变大,否则会将 softmax 推入梯度极小的区域。