Translations:Attention Mechanisms/33/es: Difference between revisions
(Batch translate Attention Mechanisms unit 33 → es) Tag: translation |
(Batch translate Attention Mechanisms unit 33 → es) Tag: translation |
||
| Line 1: | Line 1: | ||
* '''Enmascaramiento''': En la decodificación autorregresiva, las posiciones futuras se enmascaran (se establecen en <math>-\infty</math> antes del softmax) para preservar la estructura causal. | * '''Enmascaramiento''': En la decodificación autorregresiva, las posiciones futuras se enmascaran (se establecen en <math>-\infty</math> antes del softmax) para preservar la estructura causal. | ||
* '''Dropout de atención''': Eliminar pesos de atención | * '''Dropout de atención''': Eliminar pesos de atención aleatoriamente durante el entrenamiento actúa como un regularizador y reduce el sobreajuste a patrones de alineación específicos. | ||
* ''' | * '''Almacenamiento en caché de claves y valores''': Durante la inferencia, los vectores de clave y valor calculados previamente se almacenan en caché para evitar cómputos redundantes, acelerando significativamente la generación autorregresiva. | ||
Revision as of 21:58, 27 April 2026
- Enmascaramiento: En la decodificación autorregresiva, las posiciones futuras se enmascaran (se establecen en $ -\infty $ antes del softmax) para preservar la estructura causal.
- Dropout de atención: Eliminar pesos de atención aleatoriamente durante el entrenamiento actúa como un regularizador y reduce el sobreajuste a patrones de alineación específicos.
- Almacenamiento en caché de claves y valores: Durante la inferencia, los vectores de clave y valor calculados previamente se almacenan en caché para evitar cómputos redundantes, acelerando significativamente la generación autorregresiva.