Translations:Attention Mechanisms/27/es
Dado que la autoatención es invariante a permutaciones (trata la entrada como un conjunto desordenado), la información posicional debe inyectarse explícitamente. El transformer original utiliza codificaciones sinusoidales: