All translations

Enter a message name below to show all available translations.

Found 3 translations.

Name	Current message text
^h English (en)	Prior to the {{Term\|transformer}}, dominant sequence transduction models relied on recurrent neural networks (RNNs), particularly {{Term\|long short-term memory\|LSTMs}} and GRUs, often enhanced with {{Term\|attention}} mechanisms. These architectures processed tokens sequentially, creating a fundamental bottleneck that prevented parallelization during training. The {{Term\|transformer}} eliminated this constraint by relying solely on {{Term\|attention}} to draw global dependencies between input and output sequences, enabling far greater parallelism and reducing training times from days to hours on contemporary hardware.
^h Spanish (es)	Antes del {{Term\|transformer}}, los modelos dominantes de transducción de secuencias dependían de redes neuronales recurrentes (RNN), en particular {{Term\|long short-term memory\|LSTMs}} y GRUs, a menudo mejoradas con mecanismos de {{Term\|attention\|atención}}. Estas arquitecturas procesaban los tokens secuencialmente, creando un cuello de botella fundamental que impedía la paralelización durante el entrenamiento. El {{Term\|transformer}} eliminó esta restricción al apoyarse exclusivamente en la {{Term\|attention\|atención}} para captar dependencias globales entre las secuencias de entrada y salida, permitiendo un paralelismo mucho mayor y reduciendo los tiempos de entrenamiento de días a horas en hardware contemporáneo.
^h Chinese (zh)	在 {{Term\|transformer}} 出现之前，主流的序列转导模型依赖于循环神经网络（RNN），尤其是 {{Term\|long short-term memory\|LSTM}} 和 GRU，并通常辅以 {{Term\|attention\|注意力}} 机制。这些架构按顺序处理 token，造成了一个根本性的瓶颈，阻碍了训练期间的并行化。{{Term\|transformer}} 通过完全依赖 {{Term\|attention\|注意力}} 来捕捉输入与输出序列之间的全局依赖关系，消除了这一约束，使并行化能力大幅提升，并将当代硬件上的训练时间从数天缩短至数小时。