|
|
| Line 1: |
Line 1: |
| '''注意力机制'''是一类使神经网络在生成输出的每个元素时能够选择性地关注其输入相关部分的技术。注意力最初被提出是为了克服序列到序列模型中固定长度上下文向量的局限性,如今已成为[[Transformer]]等现代架构的基础构建模块。 | | '''注意力机制'''是一类使神经网络在生成每个输出元素时能够有选择地聚焦于输入相关部分的技术。注意力最初被引入以克服序列到序列模型中固定长度上下文向量的局限性,如今已成为诸如 [[Transformer]] 等现代架构的基础构建模块。 |
Revision as of 21:58, 27 April 2026
注意力机制是一类使神经网络在生成每个输出元素时能够有选择地聚焦于输入相关部分的技术。注意力最初被引入以克服序列到序列模型中固定长度上下文向量的局限性,如今已成为诸如 Transformer 等现代架构的基础构建模块。