Translations:Attention Mechanisms/3/zh - Revision history

DeployBot: Batch translate Attention Mechanisms unit 3 → zh

2026-04-27T23:36:49Z

Batch translate Attention Mechanisms unit 3 → zh

← Older revision		Revision as of 23:36, 27 April 2026
Line 1:		Line 1:
	~~早期的序列到序列模型使用~~ [[Recurrent Neural Networks\|循环神经网络]] ~~将整个输入序列编码为一个固定维度的向量。这种~~''瓶颈''迫使长程依赖被压缩到一个固定大小的向量中,从而降低了长序列上的性能。注意力机制通过让解码器在每个生成步骤都能查询编码器的所有隐藏状态、并按学习到的相关性得分对它们加权,从而解决了这一问题。		早期的{{Term\|sequence-to-sequence\|序列到序列}}模型使用[[Recurrent Neural Networks\|循环神经网络]]将整个输入序列编码为单一的固定维向量。这种''瓶颈''迫使长程依赖被压缩到恒定大小的向量中，从而降低了在长序列上的性能。注意力机制通过让解码器在每个生成步骤查询编码器的每个隐藏状态，并以学习到的相关性分数对其加权，从而解决了这一问题。

DeployBot: Batch translate Attention Mechanisms unit 3 → zh

2026-04-27T21:58:28Z

Batch translate Attention Mechanisms unit 3 → zh

← Older revision		Revision as of 21:58, 27 April 2026
Line 1:		Line 1:
	早期的序列到序列模型使用[[Recurrent Neural Networks\|循环神经网络]]~~将整个输入序列编码为单个固定维度的向量。这种~~''瓶颈''~~迫使长程依赖被压缩到一个大小恒定的向量中~~,~~从而降低了在长序列上的性能。注意力通过让解码器在每个生成步骤都参考每个编码器隐藏状态,并根据学习到的相关性分数对它们进行加权~~,从而解决了这一问题。		早期的序列到序列模型使用 [[Recurrent Neural Networks\|循环神经网络]] 将整个输入序列编码为一个固定维度的向量。这种''瓶颈''迫使长程依赖被压缩到一个固定大小的向量中,从而降低了长序列上的性能。注意力机制通过让解码器在每个生成步骤都能查询编码器的所有隐藏状态、并按学习到的相关性得分对它们加权,从而解决了这一问题。

DeployBot: Batch translate Attention Mechanisms unit 3 → zh

2026-04-27T03:21:24Z

Batch translate Attention Mechanisms unit 3 → zh

New page

早期的序列到序列模型使用[[Recurrent Neural Networks|循环神经网络]]将整个输入序列编码为单个固定维度的向量。这种''瓶颈''迫使长程依赖被压缩到一个大小恒定的向量中,从而降低了在长序列上的性能。注意力通过让解码器在每个生成步骤都参考每个编码器隐藏状态,并根据学习到的相关性分数对它们进行加权,从而解决了这一问题。