donde $ W_s $, $ W_h $ y $ v $ son parámetros aprendidos. Los pesos de atención se obtienen aplicando softmax: