All translations
Enter a message name below to show all available translations.
Found 3 translations.
| Name | Current message text |
|---|---|
| h English (en) | Prior to the {{Term|transformer}}, dominant sequence transduction models relied on recurrent neural networks (RNNs), particularly {{Term|long short-term memory|LSTMs}} and GRUs, often enhanced with {{Term|attention}} mechanisms. These architectures processed tokens sequentially, creating a fundamental bottleneck that prevented parallelization during training. The {{Term|transformer}} eliminated this constraint by relying solely on {{Term|attention}} to draw global dependencies between input and output sequences, enabling far greater parallelism and reducing training times from days to hours on contemporary hardware. |
| h Spanish (es) | Antes del {{Term|transformer}}, los modelos dominantes de transducción de secuencias dependían de redes neuronales recurrentes (RNN), en particular {{Term|long short-term memory|LSTMs}} y GRUs, a menudo mejoradas con mecanismos de {{Term|attention|atención}}. Estas arquitecturas procesaban los tokens secuencialmente, creando un cuello de botella fundamental que impedía la paralelización durante el entrenamiento. El {{Term|transformer}} eliminó esta restricción al apoyarse exclusivamente en la {{Term|attention|atención}} para captar dependencias globales entre las secuencias de entrada y salida, permitiendo un paralelismo mucho mayor y reduciendo los tiempos de entrenamiento de días a horas en hardware contemporáneo. |
| h Chinese (zh) | 在 {{Term|transformer}} 出现之前,主流的序列转导模型依赖于循环神经网络(RNN),尤其是 {{Term|long short-term memory|LSTM}} 和 GRU,并通常辅以 {{Term|attention|注意力}} 机制。这些架构按顺序处理 token,造成了一个根本性的瓶颈,阻碍了训练期间的并行化。{{Term|transformer}} 通过完全依赖 {{Term|attention|注意力}} 来捕捉输入与输出序列之间的全局依赖关系,消除了这一约束,使并行化能力大幅提升,并将当代硬件上的训练时间从数天缩短至数小时。 |