All translations

Enter a message name below to show all available translations.

Found 3 translations.

Name	Current message text
^h English (en)	Prior adaptive methods like {{Term\|adagrad}} accumulated squared gradients over the entire training run, causing {{Term\|learning rate\|learning rates}} to decay monotonically to zero — problematic for non-convex problems. RMSProp addressed this by using an exponential moving average, but lacked bias correction. Adam unified these ideas with bias-corrected estimates of both the first moment (mean) and second moment (uncentered variance) of the gradients, providing an effective and computationally efficient optimizer with well-behaved default {{Term\|hyperparameter\|hyperparameters}}.
^h Spanish (es)	Los métodos adaptativos previos, como {{Term\|adagrad\|adagrad}}, acumulaban gradientes al cuadrado a lo largo de toda la ejecución de entrenamiento, lo que provocaba que las {{Term\|learning rate\|tasas de aprendizaje}} decayeran monótonamente hacia cero — algo problemático en problemas no convexos. RMSProp abordó este inconveniente utilizando un promedio móvil exponencial, pero carecía de corrección de sesgo. Adam unificó estas ideas con estimaciones corregidas por sesgo tanto del primer momento (la media) como del segundo momento (la varianza no centrada) de los gradientes, ofreciendo un optimizador eficaz y eficiente desde el punto de vista computacional con {{Term\|hyperparameter\|hiperparámetros}} por defecto que se comportan bien.
^h Chinese (zh)	诸如 {{Term\|adagrad\|adagrad}} 等早期自适应方法在整个训练过程中累积平方梯度，这会导致 {{Term\|learning rate\|学习率}} 单调衰减至零——对非凸问题而言较为棘手。RMSProp 通过使用指数滑动平均解决了这一问题，但缺少偏差校正。Adam 将这些思想统一起来，对梯度的一阶矩（均值）和二阶矩（未中心化方差）都进行偏差校正估计，从而提供一种高效且计算开销低的优化器，并具有表现良好的默认 {{Term\|hyperparameter\|超参数}}。