Translations:Attention Mechanisms/7/es
donde $ W_s $, $ W_h $ y $ v $ son parámetros aprendidos. Los pesos de atención se obtienen aplicando softmax:
donde $ W_s $, $ W_h $ y $ v $ son parámetros aprendidos. Los pesos de atención se obtienen aplicando softmax: