All translations

Enter a message name below to show all available translations.

Message

Found 3 translations.

NameCurrent message text
 h English (en)* '''Masking''': In autoregressive decoding, future positions are masked (set to <math>-\infty</math> before softmax) to preserve the causal structure.
* '''Attention dropout''': Dropping attention weights randomly during training acts as a regulariser and reduces overfitting to specific alignment patterns.
* '''Key-value caching''': During inference, previously computed key and value vectors are cached to avoid redundant computation, significantly speeding up autoregressive generation.
 h Spanish (es)* '''Enmascaramiento''': En la decodificación autorregresiva, las posiciones futuras se enmascaran (se establecen en <math>-\infty</math> antes del softmax) para preservar la estructura causal.
* '''Dropout de atención''': Eliminar pesos de atención aleatoriamente durante el entrenamiento actúa como un regularizador y reduce el sobreajuste a patrones de alineación específicos.
* '''Almacenamiento en caché de claves y valores''': Durante la inferencia, los vectores de clave y valor calculados previamente se almacenan en caché para evitar cómputos redundantes, acelerando significativamente la generación autorregresiva.
 h Chinese (zh)* '''掩码''':在自回归解码中,未来位置会被掩码(在 softmax 之前设置为 <math>-\infty</math>)以保持因果结构。
* '''注意力 dropout''':在训练期间随机丢弃注意力权重起到正则化作用,减少对特定对齐模式的过拟合。
* '''键值缓存''':在推理期间,先前计算的键向量和值向量会被缓存,以避免冗余计算,显著加速自回归生成。