Translations:Attention Mechanisms/3/zh

早期的序列到序列模型使用循环神经网络将整个输入序列编码为单一的固定维向量。这种瓶颈迫使长程依赖被压缩到恒定大小的向量中，从而降低了在长序列上的性能。注意力机制通过让解码器在每个生成步骤查询编码器的每个隐藏状态，并以学习到的相关性分数对其加权，从而解决了这一问题。