Vaswani et al. (2017) introdujeron la formulación utilizada en el Transformer. Dadas las matrices de consultas $ Q $, claves $ K $ y valores $ V $: