Module:Glossary/data

Documentation for this module may be created at Module:Glossary/data/doc
local data = {}

data["stochastic gradient descent"] = {
    short = "An iterative optimization algorithm that estimates gradients from random samples rather than the full dataset, enabling efficient training on large datasets.",
    article = "Stochastic Gradient Descent",
    aliases = { "SGD" },
    es = "Algoritmo de optimización iterativa que estima gradientes a partir de muestras aleatorias en lugar de todo el conjunto de datos.",
    zh = "一种通过随机样本而非完整数据集来估计梯度的迭代优化算法，能够在大规模数据集上高效训练。",
}

data["gradient descent"] = {
    short = "An optimization algorithm that iteratively moves parameters in the direction of steepest decrease of a function.",
    article = "Gradient descent",
    aliases = {},
    es = "Algoritmo de optimización que mueve iterativamente los parámetros en la dirección de mayor descenso de una función.",
    zh = "一种优化算法，沿函数最陡下降方向迭代调整参数。",
}

data["learning rate"] = {
    short = "Step size parameter controlling how much model parameters change per gradient update. Too large causes divergence; too small causes slow convergence.",
    article = "Learning rate",
    aliases = { "step size" },
    es = "Parámetro de tamaño de paso que controla cuánto cambian los parámetros del modelo por actualización de gradiente.",
    zh = "控制每次梯度更新中模型参数变化幅度的步长参数。过大会导致发散，过小会导致收敛缓慢。",
}

data["mini-batch"] = {
    short = "A small subset of training data used to compute a gradient estimate. Balances the noise of single-sample SGD with the cost of full-batch gradient descent.",
    article = nil,
    aliases = { "minibatch", "mini batch" },
    es = "Un subconjunto pequeño de datos de entrenamiento utilizado para calcular una estimación del gradiente.",
    zh = "用于计算梯度估计的训练数据小子集。在单样本SGD的噪声与全批量梯度下降的成本之间取得平衡。",
}

data["backpropagation"] = {
    short = "An algorithm for computing gradients of a loss function with respect to network weights by applying the chain rule layer by layer from output to input.",
    article = "Backpropagation",
    aliases = { "backprop" },
    es = "Algoritmo para calcular gradientes de una función de pérdida respecto a los pesos de la red, aplicando la regla de la cadena capa por capa.",
    zh = "一种通过逐层应用链式法则从输出到输入计算损失函数关于网络权重梯度的算法。",
}

data["loss function"] = {
    short = "A function that measures how far a model's predictions are from the true values. Training minimizes this function.",
    article = nil,
    aliases = { "objective function", "cost function" },
    es = "Función que mide cuán lejos están las predicciones del modelo de los valores reales. El entrenamiento minimiza esta función.",
    zh = "衡量模型预测值与真实值之间差距的函数。训练过程即是最小化此函数。",
}

data["convergence"] = {
    short = "The property of an optimization algorithm approaching a solution (minimum) as iterations increase.",
    article = nil,
    aliases = {},
    es = "La propiedad de un algoritmo de optimización de aproximarse a una solución (mínimo) a medida que aumentan las iteraciones.",
    zh = "优化算法随迭代次数增加而逐渐接近解（最小值）的性质。",
}

data["momentum"] = {
    short = "A technique that accelerates SGD by accumulating an exponentially decaying moving average of past gradients, helping traverse flat regions and dampen oscillations.",
    article = nil,
    aliases = {},
    es = "Técnica que acelera el SGD acumulando un promedio móvil con decaimiento exponencial de gradientes pasados.",
    zh = "一种通过累积过去梯度的指数衰减移动平均来加速SGD的技术，有助于穿越平坦区域并抑制振荡。",
}

data["adam"] = {
    short = "An adaptive learning rate optimizer combining momentum with per-parameter rate scaling. One of the most widely used optimizers in deep learning.",
    article = "Adam (optimiser)",
    aliases = { "Adam optimizer", "Adam optimiser" },
    es = "Optimizador con tasa de aprendizaje adaptativa que combina momentum con escalado de tasa por parámetro.",
    zh = "一种自适应学习率优化器，结合动量与逐参数速率缩放。深度学习中使用最广泛的优化器之一。",
}

data["gradient clipping"] = {
    short = "A technique that caps the gradient norm before each update to prevent exploding gradients, especially in recurrent networks.",
    article = nil,
    aliases = {},
    es = "Técnica que limita la norma del gradiente antes de cada actualización para prevenir gradientes explosivos.",
    zh = "一种在每次更新前限制梯度范数以防止梯度爆炸的技术，尤其适用于循环网络。",
}

data["batch normalization"] = {
    short = "A technique that normalizes layer inputs across a mini-batch, reducing internal covariate shift and allowing higher learning rates.",
    article = nil,
    aliases = { "batch normalisation", "batchnorm" },
    es = "Técnica que normaliza las entradas de cada capa a lo largo de un mini-lote, reduciendo el desplazamiento covariante interno.",
    zh = "一种在小批量上对层输入进行归一化的技术，减少内部协变量偏移，允许使用更高的学习率。",
}

data["convex optimization"] = {
    short = "The study of minimizing convex functions over convex sets, where any local minimum is also a global minimum.",
    article = "Convex optimisation",
    aliases = { "convex optimisation" },
    es = "El estudio de la minimización de funciones convexas sobre conjuntos convexos, donde todo mínimo local es también global.",
    zh = "研究在凸集上最小化凸函数的学科，其中任何局部最小值也是全局最小值。",
}

return data