Translations:Attention Mechanisms/33/es: Difference between revisions

Latest revision as of 23:36, 27 April 2026

Information about message (contribute)

This message has no documentation. If you know where or how this message is used, you can help other translators by adding documentation to this message.

Message definition (Attention Mechanisms)

* '''Masking''': In autoregressive decoding, future positions are masked (set to <math>-\infty</math> before {{Term|softmax}}) to preserve the causal structure.
* '''Attention {{Term|dropout}}''': Dropping attention weights randomly during training acts as a regulariser and reduces {{Term|overfitting}} to specific alignment patterns.
* '''Key-value caching''': During inference, previously computed key and value vectors are cached to avoid redundant computation, significantly speeding up autoregressive generation.

Enmascaramiento: En la decodificación autorregresiva, las posiciones futuras se enmascaran (se establecen a $-\infty$ antes del softmax) para preservar la estructura causal.
Dropout de atención: Descartar pesos de atención de forma aleatoria durante el entrenamiento actúa como regularizador y reduce el sobreajuste a patrones de alineación específicos.
Caché de clave-valor: Durante la inferencia, los vectores de clave y valor previamente calculados se almacenan en caché para evitar cálculos redundantes, acelerando significativamente la generación autorregresiva.

@@ Line 1: / Line 1: @@
-* '''Enmascaramiento''': En la decodificación autorregresiva, las posiciones futuras se enmascaran (se establecen en <math>-\infty</math> antes del softmax) para preservar la estructura causal.
+* '''Enmascaramiento''': En la decodificación autorregresiva, las posiciones futuras se enmascaran (se establecen a <math>-\infty</math> antes del {{Term|softmax|softmax}}) para preservar la estructura causal.
-* '''Dropout de atención''': Eliminar pesos de atención de forma aleatoria durante el entrenamiento actúa como regularizador y reduce el sobreajuste a patrones de alineación específicos.
+* '''{{Term|dropout|Dropout}} de atención''': Descartar pesos de atención de forma aleatoria durante el entrenamiento actúa como regularizador y reduce el {{Term|overfitting|sobreajuste}} a patrones de alineación específicos.
-* '''Caché de clave-valor''': Durante la inferencia, los vectores de clave y valor calculados previamente se almacenan en caché para evitar cálculos redundantes, acelerando significativamente la generación autorregresiva.
+* '''Caché de clave-valor''': Durante la inferencia, los vectores de clave y valor previamente calculados se almacenan en caché para evitar cálculos redundantes, acelerando significativamente la generación autorregresiva.