All translations

Enter a message name below to show all available translations.

Found 3 translations.

Name	Current message text
^h English (en)	* '''{{Term\|momentum}}''' — accumulates a velocity {{Term\|vector}} from past gradients, helping to accelerate {{Term\|convergence}} in ravine-like landscapes. * '''Nesterov {{Term\|accelerated gradient}}''' — a {{Term\|momentum}} variant that evaluates the gradient at a look-ahead position, yielding better theoretical {{Term\|convergence}} rates. * '''Adaptive methods''' ({{Term\|adagrad}}, {{Term\|rmsprop}}, {{Term\|adam}}) — maintain per-parameter {{Term\|learning rate\|learning rates}} that adapt based on the history of gradients. * '''{{Term\|second-order optimization\|Second-order methods}}''' — algorithms like {{Term\|newton method\|Newton's method}} and L-{{Term\|bfgs}} use curvature information (the Hessian or its approximation) for faster {{Term\|convergence}}, but are often too expensive for large-scale problems.
^h Spanish (es)	* '''{{Term\|momentum\|Momento}}''' — acumula un {{Term\|vector}} de velocidad a partir de los gradientes pasados, ayudando a acelerar la {{Term\|convergence\|convergencia}} en paisajes con forma de cañón. * '''{{Term\|accelerated gradient\|Gradiente acelerado}} de Nesterov''' — una variante con {{Term\|momentum\|momento}} que evalúa el gradiente en una posición anticipada, ofreciendo mejores tasas teóricas de {{Term\|convergence\|convergencia}}. * '''Métodos adaptativos''' ({{Term\|adagrad}}, {{Term\|rmsprop}}, {{Term\|adam}}) — mantienen {{Term\|learning rate\|tasas de aprendizaje}} por parámetro que se adaptan en función del historial de gradientes. * '''{{Term\|second-order optimization\|Métodos de segundo orden}}''' — algoritmos como el {{Term\|newton method\|método de Newton}} y L-{{Term\|bfgs}} utilizan información de curvatura (la matriz hessiana o su aproximación) para una {{Term\|convergence\|convergencia}} más rápida, pero suelen ser demasiado costosos para problemas a gran escala.
^h Chinese (zh)	* '''{{Term\|momentum\|动量}}''' — 从过去的梯度中累积一个速度{{Term\|vector\|向量}}，有助于在峡谷状的地形中加速{{Term\|convergence\|收敛}}。 * '''Nesterov {{Term\|accelerated gradient\|加速梯度}}''' — 一种{{Term\|momentum\|动量}}变体，在前瞻位置计算梯度，从而获得更好的理论{{Term\|convergence\|收敛}}速率。 * '''自适应方法'''（{{Term\|adagrad}}、{{Term\|rmsprop}}、{{Term\|adam}}） — 维护按参数自适应的{{Term\|learning rate\|学习率}}，根据梯度历史进行调整。 * '''{{Term\|second-order optimization\|二阶方法}}''' — {{Term\|newton method\|牛顿法}}和 L-{{Term\|bfgs}} 等算法利用曲率信息（Hessian 矩阵或其近似）来加快{{Term\|convergence\|收敛}}，但对大规模问题往往代价过高。