All translations
Enter a message name below to show all available translations.
Found 3 translations.
| Name | Current message text |
|---|---|
| h English (en) | * '''Placement''': Apply dropout after the {{Term|activation function}} in fully connected layers. In {{Term|transformer|Transformers}}, dropout is applied to {{Term|attention}} weights and after feed-forward sub-layers. * '''Rate selection''': Start with <math>p = 0.5</math> for hidden layers. Use higher keep rates (lower dropout) for layers with fewer parameters. Increase dropout for larger models or smaller datasets. * '''Interaction with {{Term|batch normalization|BatchNorm}}''': Using dropout and [[Batch Normalization]] together requires care, as dropout introduces {{Term|variance}} that can destabilize batch statistics. A common practice is to apply dropout only after the final batch-normalized layer. * '''Scheduled dropout''': Some training regimes start with no dropout and gradually increase the rate, or vice versa, over the course of training. |
| h Spanish (es) | * '''Ubicación''': Aplicar dropout después de la {{Term|activation function|función de activación}} en capas totalmente conectadas. En los {{Term|transformer|Transformers}}, el dropout se aplica a los pesos de {{Term|attention|atención}} y después de las subcapas feed-forward. * '''Selección de la tasa''': Comenzar con <math>p = 0.5</math> para capas ocultas. Usar tasas de retención más altas (menor dropout) para capas con menos parámetros. Aumentar el dropout para modelos más grandes o conjuntos de datos más pequeños. * '''Interacción con {{Term|batch normalization|BatchNorm}}''': Usar dropout y [[Batch Normalization]] juntos requiere cuidado, ya que el dropout introduce {{Term|variance|varianza}} que puede desestabilizar las estadísticas del lote. Una práctica común es aplicar dropout solo después de la última capa con normalización por lotes. * '''Dropout programado''': Algunos regímenes de entrenamiento comienzan sin dropout y aumentan gradualmente la tasa, o viceversa, a lo largo del entrenamiento. |
| h Chinese (zh) | * '''放置位置''':在全连接层中,在{{Term|activation function|激活函数}}之后应用 dropout。在{{Term|transformer|Transformer}}中,dropout 应用于{{Term|attention|注意力}}权重以及前馈子层之后。 * '''率的选择''':对于隐藏层,从 <math>p = 0.5</math> 开始。对于参数较少的层,使用较高的保留率(较低的 dropout)。对于较大的模型或较小的数据集,增加 dropout。 * '''与 {{Term|batch normalization|BatchNorm}} 的交互''':同时使用 dropout 和 [[Batch Normalization]] 需要谨慎,因为 dropout 引入的{{Term|variance|方差}}可能会破坏批统计的稳定性。一种常见做法是仅在最后一个批归一化层之后应用 dropout。 * '''计划性 dropout''':某些训练方案从不使用 dropout 开始,并在训练过程中逐渐提高 dropout 率,或反之亦然。 |