Translations:Attention Mechanisms/27/es
Dado que la autoatención es invariante a permutaciones (trata la entrada como un conjunto sin orden), la información posicional debe inyectarse explícitamente. El Transformer original utiliza codificaciones sinusoidales: