Jump to content

Translations:Gradient Descent/27/zh

From Marovi AI

过大 — 迭代会振荡或发散。
过小 — 收敛速度慢得难以接受。
学习率调度 — 许多从业者从较大的学习率开始，并随时间降低（阶梯衰减、指数衰减、余弦退火）。
线搜索 — 经典数值方法在每步选择 $\eta$ 以满足 Wolfe 或 Armijo 等条件，但在深度学习中很少使用。

Retrieved from "https://marovi.ai/index.php?title=Translations:Gradient_Descent/27/zh&oldid=25186"