Translations:Attention Mechanisms/17/zh

    From Marovi AI

    縮放因子 $ \sqrt{d_k} $ 可防止點積隨着鍵維度 $ d_k $ 的增大而變大,否則會將 softmax 推入梯度極小的區域。