All translations
Enter a message name below to show all available translations.
Found 3 translations.
| Name | Current message text |
|---|---|
| h English (en) | * '''{{Term|momentum}}''' — accumulates a velocity {{Term|vector}} from past gradients, helping to accelerate {{Term|convergence}} in ravine-like landscapes. * '''Nesterov {{Term|accelerated gradient}}''' — a {{Term|momentum}} variant that evaluates the gradient at a look-ahead position, yielding better theoretical {{Term|convergence}} rates. * '''Adaptive methods''' ({{Term|adagrad}}, {{Term|rmsprop}}, {{Term|adam}}) — maintain per-parameter {{Term|learning rate|learning rates}} that adapt based on the history of gradients. * '''{{Term|second-order optimization|Second-order methods}}''' — algorithms like {{Term|newton method|Newton's method}} and L-{{Term|bfgs}} use curvature information (the Hessian or its approximation) for faster {{Term|convergence}}, but are often too expensive for large-scale problems. |
| h Spanish (es) | * '''{{Term|momentum|Momento}}''' — acumula un {{Term|vector}} de velocidad a partir de los gradientes pasados, ayudando a acelerar la {{Term|convergence|convergencia}} en paisajes con forma de cañón. * '''{{Term|accelerated gradient|Gradiente acelerado}} de Nesterov''' — una variante con {{Term|momentum|momento}} que evalúa el gradiente en una posición anticipada, ofreciendo mejores tasas teóricas de {{Term|convergence|convergencia}}. * '''Métodos adaptativos''' ({{Term|adagrad}}, {{Term|rmsprop}}, {{Term|adam}}) — mantienen {{Term|learning rate|tasas de aprendizaje}} por parámetro que se adaptan en función del historial de gradientes. * '''{{Term|second-order optimization|Métodos de segundo orden}}''' — algoritmos como el {{Term|newton method|método de Newton}} y L-{{Term|bfgs}} utilizan información de curvatura (la matriz hessiana o su aproximación) para una {{Term|convergence|convergencia}} más rápida, pero suelen ser demasiado costosos para problemas a gran escala. |
| h Chinese (zh) | * '''{{Term|momentum|动量}}''' — 从过去的梯度中累积一个速度{{Term|vector|向量}},有助于在峡谷状的地形中加速{{Term|convergence|收敛}}。 * '''Nesterov {{Term|accelerated gradient|加速梯度}}''' — 一种{{Term|momentum|动量}}变体,在前瞻位置计算梯度,从而获得更好的理论{{Term|convergence|收敛}}速率。 * '''自适应方法'''({{Term|adagrad}}、{{Term|rmsprop}}、{{Term|adam}}) — 维护按参数自适应的{{Term|learning rate|学习率}},根据梯度历史进行调整。 * '''{{Term|second-order optimization|二阶方法}}''' — {{Term|newton method|牛顿法}}和 L-{{Term|bfgs}} 等算法利用曲率信息(Hessian 矩阵或其近似)来加快{{Term|convergence|收敛}},但对大规模问题往往代价过高。 |