Translations:Attention Mechanisms/33/es

    From Marovi AI
    Revision as of 21:58, 27 April 2026 by DeployBot (talk | contribs) (Batch translate Attention Mechanisms unit 33 → es)
    • Enmascaramiento: En la decodificación autorregresiva, las posiciones futuras se enmascaran (se establecen en $ -\infty $ antes del softmax) para preservar la estructura causal.
    • Dropout de atención: Eliminar pesos de atención aleatoriamente durante el entrenamiento actúa como un regularizador y reduce el sobreajuste a patrones de alineación específicos.
    • Almacenamiento en caché de claves y valores: Durante la inferencia, los vectores de clave y valor calculados previamente se almacenan en caché para evitar cómputos redundantes, acelerando significativamente la generación autorregresiva.