All translations

Enter a message name below to show all available translations.

Found 3 translations.

Name	Current message text
^h English (en)	Early sequence-to-sequence models encoded an entire input sequence into a single fixed-dimensional vector using a [[Recurrent Neural Networks\|recurrent neural network]]. This ''bottleneck'' forced long-range dependencies to be compressed into a vector of constant size, degrading performance on long sequences. Attention resolves this by letting the decoder consult every encoder hidden state at each generation step, weighting them by learned relevance scores.
^h Spanish (es)	Los primeros modelos secuencia a secuencia codificaban toda una secuencia de entrada en un único vector de dimensión fija mediante una [[Recurrent Neural Networks\|red neuronal recurrente]]. Este ''cuello de botella'' obligaba a comprimir las dependencias de largo alcance en un vector de tamaño constante, degradando el rendimiento en secuencias largas. La atención resuelve este problema permitiendo que el decodificador consulte cada estado oculto del codificador en cada paso de generación, ponderándolos mediante puntuaciones de relevancia aprendidas.
^h Chinese (zh)	早期的序列到序列模型使用 [[Recurrent Neural Networks\|循环神经网络]] 将整个输入序列编码为一个固定维度的向量。这种''瓶颈''迫使长程依赖被压缩到一个固定大小的向量中,从而降低了长序列上的性能。注意力机制通过让解码器在每个生成步骤都能查询编码器的所有隐藏状态、并按学习到的相关性得分对它们加权,从而解决了这一问题。