Translations:Attention Mechanisms/33/es: Difference between revisions
(Batch translate Attention Mechanisms unit 33 → es) Tag: translation |
(Batch translate Attention Mechanisms unit 33 → es) Tag: translation |
||
| (One intermediate revision by the same user not shown) | |||
| Line 1: | Line 1: | ||
* '''Enmascaramiento''': En la decodificación autorregresiva, las posiciones futuras se enmascaran (se establecen | * '''Enmascaramiento''': En la decodificación autorregresiva, las posiciones futuras se enmascaran (se establecen a <math>-\infty</math> antes del {{Term|softmax|softmax}}) para preservar la estructura causal. | ||
* '''Dropout de atención''': | * '''{{Term|dropout|Dropout}} de atención''': Descartar pesos de atención de forma aleatoria durante el entrenamiento actúa como regularizador y reduce el {{Term|overfitting|sobreajuste}} a patrones de alineación específicos. | ||
* '''Caché de clave-valor''': Durante la inferencia, los vectores de clave y valor calculados | * '''Caché de clave-valor''': Durante la inferencia, los vectores de clave y valor previamente calculados se almacenan en caché para evitar cálculos redundantes, acelerando significativamente la generación autorregresiva. | ||
Latest revision as of 23:36, 27 April 2026
- Enmascaramiento: En la decodificación autorregresiva, las posiciones futuras se enmascaran (se establecen a $ -\infty $ antes del softmax) para preservar la estructura causal.
- Dropout de atención: Descartar pesos de atención de forma aleatoria durante el entrenamiento actúa como regularizador y reduce el sobreajuste a patrones de alineación específicos.
- Caché de clave-valor: Durante la inferencia, los vectores de clave y valor previamente calculados se almacenan en caché para evitar cálculos redundantes, acelerando significativamente la generación autorregresiva.