Vaswani et al. (2017) introdujeron la formulación utilizada en el transformer. Dadas las matrices de consultas $ Q $, claves $ K $ y valores $ V $: