Translations:Attention Mechanisms/33/es

    From Marovi AI
    Revision as of 04:29, 28 April 2026 by DeployBot (talk | contribs) (Batch translate Attention Mechanisms unit 33 → es)
    (diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
    • Enmascaramiento: En la decodificación autorregresiva, las posiciones futuras se enmascaran (se ponen a $ -\infty $ antes del softmax) para preservar la estructura causal.
    • dropout de atención: descartar aleatoriamente pesos de atención durante el entrenamiento actúa como regularizador y reduce el sobreajuste a patrones de alineamiento específicos.
    • Caché clave-valor: durante la inferencia, los vectores de claves y valores calculados previamente se almacenan en caché para evitar cómputos redundantes, acelerando significativamente la generación autorregresiva.