Translations:Attention Mechanisms/27/es
Dado que la autoatención es invariante a permutaciones (trata la entrada como un conjunto no ordenado), la información posicional debe inyectarse de manera explícita. El Transformer original utiliza codificaciones sinusoidales: