Translations:Attention Mechanisms/33/es: Difference between revisions

    From Marovi AI
    (Batch translate Attention Mechanisms unit 33 → es)
    Tag: translation
     
    (Batch translate Attention Mechanisms unit 33 → es)
    Tag: translation
    Line 1: Line 1:
    * '''Enmascaramiento''': En la decodificación autorregresiva, las posiciones futuras se enmascaran (se establecen en <math>-\infty</math> antes del softmax) para preservar la estructura causal.
    * '''Enmascaramiento''': En la decodificación autorregresiva, las posiciones futuras se enmascaran (se establecen en <math>-\infty</math> antes del softmax) para preservar la estructura causal.
    * '''Dropout de atención''': Eliminar pesos de atención de forma aleatoria durante el entrenamiento actúa como regularizador y reduce el sobreajuste a patrones de alineación específicos.
    * '''Dropout de atención''': Eliminar pesos de atención aleatoriamente durante el entrenamiento actúa como un regularizador y reduce el sobreajuste a patrones de alineación específicos.
    * '''Caché de clave-valor''': Durante la inferencia, los vectores de clave y valor calculados previamente se almacenan en caché para evitar cálculos redundantes, acelerando significativamente la generación autorregresiva.
    * '''Almacenamiento en caché de claves y valores''': Durante la inferencia, los vectores de clave y valor calculados previamente se almacenan en caché para evitar cómputos redundantes, acelerando significativamente la generación autorregresiva.

    Revision as of 21:58, 27 April 2026

    Information about message (contribute)
    This message has no documentation. If you know where or how this message is used, you can help other translators by adding documentation to this message.
    Message definition (Attention Mechanisms)
    * '''Masking''': In autoregressive decoding, future positions are masked (set to <math>-\infty</math> before {{Term|softmax}}) to preserve the causal structure.
    * '''Attention {{Term|dropout}}''': Dropping attention weights randomly during training acts as a regulariser and reduces {{Term|overfitting}} to specific alignment patterns.
    * '''Key-value caching''': During inference, previously computed key and value vectors are cached to avoid redundant computation, significantly speeding up autoregressive generation.
    • Enmascaramiento: En la decodificación autorregresiva, las posiciones futuras se enmascaran (se establecen en $ -\infty $ antes del softmax) para preservar la estructura causal.
    • Dropout de atención: Eliminar pesos de atención aleatoriamente durante el entrenamiento actúa como un regularizador y reduce el sobreajuste a patrones de alineación específicos.
    • Almacenamiento en caché de claves y valores: Durante la inferencia, los vectores de clave y valor calculados previamente se almacenan en caché para evitar cómputos redundantes, acelerando significativamente la generación autorregresiva.