Vaswani et al. (2017) introdujeron la formulación utilizada en el Transformer. Dadas matrices de consultas $ Q $, claves $ K $ y valores $ V $: