All translations

Enter a message name below to show all available translations.

Found 3 translations.

Name	Current message text
^h English (en)	* '''Placement''': Apply dropout after the {{Term\|activation function}} in fully connected layers. In {{Term\|transformer\|Transformers}}, dropout is applied to {{Term\|attention}} weights and after feed-forward sub-layers. * '''Rate selection''': Start with <math>p = 0.5</math> for hidden layers. Use higher keep rates (lower dropout) for layers with fewer parameters. Increase dropout for larger models or smaller datasets. * '''Interaction with {{Term\|batch normalization\|BatchNorm}}''': Using dropout and [[Batch Normalization]] together requires care, as dropout introduces {{Term\|variance}} that can destabilize batch statistics. A common practice is to apply dropout only after the final batch-normalized layer. * '''Scheduled dropout''': Some training regimes start with no dropout and gradually increase the rate, or vice versa, over the course of training.
^h Spanish (es)	* '''Ubicación''': Aplicar dropout después de la {{Term\|activation function\|función de activación}} en capas totalmente conectadas. En los {{Term\|transformer\|Transformers}}, el dropout se aplica a los pesos de {{Term\|attention\|atención}} y después de las subcapas feed-forward. * '''Selección de la tasa''': Comenzar con <math>p = 0.5</math> para capas ocultas. Usar tasas de retención más altas (menor dropout) para capas con menos parámetros. Aumentar el dropout para modelos más grandes o conjuntos de datos más pequeños. * '''Interacción con {{Term\|batch normalization\|BatchNorm}}''': Usar dropout y [[Batch Normalization]] juntos requiere cuidado, ya que el dropout introduce {{Term\|variance\|varianza}} que puede desestabilizar las estadísticas del lote. Una práctica común es aplicar dropout solo después de la última capa con normalización por lotes. * '''Dropout programado''': Algunos regímenes de entrenamiento comienzan sin dropout y aumentan gradualmente la tasa, o viceversa, a lo largo del entrenamiento.
^h Chinese (zh)	* '''放置位置''':在全连接层中,在{{Term\|activation function\|激活函数}}之后应用 dropout。在{{Term\|transformer\|Transformer}}中,dropout 应用于{{Term\|attention\|注意力}}权重以及前馈子层之后。 * '''率的选择''':对于隐藏层,从 <math>p = 0.5</math> 开始。对于参数较少的层,使用较高的保留率(较低的 dropout)。对于较大的模型或较小的数据集,增加 dropout。 * '''与 {{Term\|batch normalization\|BatchNorm}} 的交互''':同时使用 dropout 和 [[Batch Normalization]] 需要谨慎,因为 dropout 引入的{{Term\|variance\|方差}}可能会破坏批统计的稳定性。一种常见做法是仅在最后一个批归一化层之后应用 dropout。 * '''计划性 dropout''':某些训练方案从不使用 dropout 开始,并在训练过程中逐渐提高 dropout 率,或反之亦然。