Jump to content

Translations:Gradient Descent/27/zh

From Marovi AI

过大 —— 迭代会振荡或发散。
过小 —— 收敛速度慢得无法接受。
学习率调度 —— 许多实践者先使用较大的学习率，再随时间减小（阶梯衰减、指数衰减、余弦退火）。
线搜索 —— 经典数值方法在每一步选择 $\eta$ 以满足 Wolfe 或 Armijo 等条件，尽管这在深度学习中很少见。

Retrieved from "https://marovi.ai/index.php?title=Translations:Gradient_Descent/27/zh&oldid=17836"