Translations:Attention Mechanisms/33/es

    From Marovi AI
    • Enmascaramiento: En la decodificación autorregresiva, las posiciones futuras se enmascaran (se establecen a $ -\infty $ antes del softmax) para preservar la estructura causal.
    • Dropout de atención: Descartar pesos de atención de forma aleatoria durante el entrenamiento actúa como regularizador y reduce el sobreajuste a patrones de alineación específicos.
    • Caché de clave-valor: Durante la inferencia, los vectores de clave y valor previamente calculados se almacenan en caché para evitar cálculos redundantes, acelerando significativamente la generación autorregresiva.