All translations

Enter a message name below to show all available translations.

Message

Found 3 translations.

NameCurrent message text
 h English (en)* '''Placement''': Apply dropout after the {{Term|activation function}} in fully connected layers. In {{Term|transformer|Transformers}}, dropout is applied to {{Term|attention}} weights and after feed-forward sub-layers.
* '''Rate selection''': Start with <math>p = 0.5</math> for hidden layers. Use higher keep rates (lower dropout) for layers with fewer parameters. Increase dropout for larger models or smaller datasets.
* '''Interaction with {{Term|batch normalization|BatchNorm}}''': Using dropout and [[Batch Normalization]] together requires care, as dropout introduces {{Term|variance}} that can destabilize batch statistics. A common practice is to apply dropout only after the final batch-normalized layer.
* '''Scheduled dropout''': Some training regimes start with no dropout and gradually increase the rate, or vice versa, over the course of training.
 h Spanish (es)* '''Ubicación''': Aplicar dropout después de la {{Term|activation function|función de activación}} en capas totalmente conectadas. En los {{Term|transformer|Transformers}}, el dropout se aplica a los pesos de {{Term|attention|atención}} y después de las subcapas feed-forward.
* '''Selección de la tasa''': Comenzar con <math>p = 0.5</math> para capas ocultas. Usar tasas de retención más altas (menor dropout) para capas con menos parámetros. Aumentar el dropout para modelos más grandes o conjuntos de datos más pequeños.
* '''Interacción con {{Term|batch normalization|BatchNorm}}''': Usar dropout y [[Batch Normalization]] juntos requiere cuidado, ya que el dropout introduce {{Term|variance|varianza}} que puede desestabilizar las estadísticas del lote. Una práctica común es aplicar dropout solo después de la última capa con normalización por lotes.
* '''Dropout programado''': Algunos regímenes de entrenamiento comienzan sin dropout y aumentan gradualmente la tasa, o viceversa, a lo largo del entrenamiento.
 h Chinese (zh)* '''放置位置''':在全连接层中,在{{Term|activation function|激活函数}}之后应用 dropout。在{{Term|transformer|Transformer}}中,dropout 应用于{{Term|attention|注意力}}权重以及前馈子层之后。
* '''率的选择''':对于隐藏层,从 <math>p = 0.5</math> 开始。对于参数较少的层,使用较高的保留率(较低的 dropout)。对于较大的模型或较小的数据集,增加 dropout。
* '''与 {{Term|batch normalization|BatchNorm}} 的交互''':同时使用 dropout 和 [[Batch Normalization]] 需要谨慎,因为 dropout 引入的{{Term|variance|方差}}可能会破坏批统计的稳定性。一种常见做法是仅在最后一个批归一化层之后应用 dropout。
* '''计划性 dropout''':某些训练方案从不使用 dropout 开始,并在训练过程中逐渐提高 dropout 率,或反之亦然。