Module:Glossary/data: Difference between revisions

Latest revision as of 21:32, 27 April 2026

Documentation for this module may be created at Module:Glossary/data/doc
local data = {}

data["stochastic gradient descent"] = {
    short = "An iterative optimization algorithm that estimates gradients from random samples rather than the full dataset, enabling efficient training on large datasets.",
    article = "Stochastic Gradient Descent",
    aliases = { "SGD" },
    es = "Algoritmo de optimización iterativa que estima gradientes a partir de muestras aleatorias en lugar de todo el conjunto de datos.",
    zh = "一种通过随机样本而非完整数据集来估计梯度的迭代优化算法，能够在大规模数据集上高效训练。",
    term_es = "descenso de gradiente estocástico",
    term_zh = "随机梯度下降",
    aliases_es = { "SGD" },
    aliases_zh = { "SGD" },
}

data["gradient descent"] = {
    short = "An optimization algorithm that iteratively moves parameters in the direction of steepest decrease of a function.",
    article = "Gradient Descent",
    aliases = {},
    es = "Algoritmo de optimización que mueve iterativamente los parámetros en la dirección de mayor descenso de una función.",
    zh = "一种优化算法，沿函数最陡下降方向迭代调整参数。",
    term_es = "descenso de gradiente",
    term_zh = "梯度下降",
    aliases_es = {},
    aliases_zh = {},
}

data["learning rate"] = {
    short = "Step size parameter controlling how much model parameters change per gradient update. Too large causes divergence; too small causes slow convergence.",
    article = "Learning Rate",
    aliases = { "step size" },
    es = "Parámetro de tamaño de paso que controla cuánto cambian los parámetros del modelo por actualización de gradiente.",
    zh = "控制每次梯度更新中模型参数变化幅度的步长参数。过大会导致发散，过小会导致收敛缓慢。",
    term_es = "tasa de aprendizaje",
    term_zh = "学习率",
    aliases_es = { "tamaño de paso" },
    aliases_zh = { "步长" },
}

data["mini-batch"] = {
    short = "A small subset of training data used to compute a gradient estimate. Balances the noise of single-sample SGD with the cost of full-batch gradient descent.",
    article = nil,
    aliases = { "minibatch", "mini batch" },
    es = "Un subconjunto pequeño de datos de entrenamiento utilizado para calcular una estimación del gradiente.",
    zh = "用于计算梯度估计的训练数据小子集。在单样本SGD的噪声与全批量梯度下降的成本之间取得平衡。",
    term_es = "mini-lote",
    term_zh = "小批量",
    aliases_es = { "mini-batch" },
    aliases_zh = { "mini-batch", "minibatch" },
}

data["backpropagation"] = {
    short = "An algorithm for computing gradients of a loss function with respect to network weights by applying the chain rule layer by layer from output to input.",
    article = "Backpropagation",
    aliases = { "backprop" },
    es = "Algoritmo para calcular gradientes de una función de pérdida respecto a los pesos de la red, aplicando la regla de la cadena capa por capa.",
    zh = "一种通过逐层应用链式法则从输出到输入计算损失函数关于网络权重梯度的算法。",
    term_es = "retropropagación",
    term_zh = "反向传播",
    aliases_es = { "backprop", "propagación hacia atrás" },
    aliases_zh = { "backprop", "BP" },
}

data["loss function"] = {
    short = "A function that measures how far a model's predictions are from the true values. Training minimizes this function.",
    article = "Loss Functions",
    aliases = { "objective function", "cost function" },
    es = "Función que mide cuán lejos están las predicciones del modelo de los valores reales. El entrenamiento minimiza esta función.",
    zh = "衡量模型预测值与真实值之间差距的函数。训练过程即是最小化此函数。",
    term_es = "función de pérdida",
    term_zh = "损失函数",
    aliases_es = { "función de coste", "función objetivo" },
    aliases_zh = { "代价函数", "目标函数" },
}

data["convergence"] = {
    short = "The property of an optimization algorithm approaching a solution (minimum) as iterations increase.",
    article = nil,
    aliases = {},
    es = "La propiedad de un algoritmo de optimización de aproximarse a una solución (mínimo) a medida que aumentan las iteraciones.",
    zh = "优化算法随迭代次数增加而逐渐接近解（最小值）的性质。",
    term_es = "convergencia",
    term_zh = "收敛",
    aliases_es = {},
    aliases_zh = {},
}

data["momentum"] = {
    short = "A technique that accelerates SGD by accumulating an exponentially decaying moving average of past gradients, helping traverse flat regions and dampen oscillations.",
    article = nil,
    aliases = {},
    es = "Técnica que acelera el SGD acumulando un promedio móvil con decaimiento exponencial de gradientes pasados.",
    zh = "一种通过累积过去梯度的指数衰减移动平均来加速SGD的技术，有助于穿越平坦区域并抑制振荡。",
    term_es = "momento",
    term_zh = "动量",
    aliases_es = { "momentum" },
    aliases_zh = { "momentum" },
}

data["adam"] = {
    short = "An adaptive learning rate optimizer combining momentum with per-parameter rate scaling. One of the most widely used optimizers in deep learning.",
    article = "Adam A Method for Stochastic Optimization",
    aliases = { "Adam optimizer", "Adam optimiser" },
    es = "Optimizador con tasa de aprendizaje adaptativa que combina momentum con escalado de tasa por parámetro.",
    zh = "一种自适应学习率优化器，结合动量与逐参数速率缩放。深度学习中使用最广泛的优化器之一。",
    term_es = "Adam",
    term_zh = "Adam",
    aliases_es = { "optimizador Adam" },
    aliases_zh = { "Adam 优化器" },
}

data["gradient clipping"] = {
    short = "A technique that caps the gradient norm before each update to prevent exploding gradients, especially in recurrent networks.",
    article = nil,
    aliases = {},
    es = "Técnica que limita la norma del gradiente antes de cada actualización para prevenir gradientes explosivos.",
    zh = "一种在每次更新前限制梯度范数以防止梯度爆炸的技术，尤其适用于循环网络。",
    term_es = "recorte de gradiente",
    term_zh = "梯度裁剪",
    aliases_es = {},
    aliases_zh = {},
}

data["batch normalization"] = {
    short = "A technique that normalizes layer inputs across a mini-batch, reducing internal covariate shift and allowing higher learning rates.",
    article = "Batch Normalization",
    aliases = { "batch normalisation", "batchnorm" },
    es = "Técnica que normaliza las entradas de cada capa a lo largo de un mini-lote, reduciendo el desplazamiento covariante interno.",
    zh = "一种在小批量上对层输入进行归一化的技术，减少内部协变量偏移，允许使用更高的学习率。",
    term_es = "normalización por lotes",
    term_zh = "批归一化",
    aliases_es = { "BatchNorm" },
    aliases_zh = { "BatchNorm", "批量归一化" },
}

data["convex optimization"] = {
    short = "The study of minimizing convex functions over convex sets, where any local minimum is also a global minimum.",
    article = "Convex optimisation",
    aliases = { "convex optimisation" },
    es = "El estudio de la minimización de funciones convexas sobre conjuntos convexos, donde todo mínimo local es también global.",
    zh = "研究在凸集上最小化凸函数的学科，其中任何局部最小值也是全局最小值。",
    term_es = "optimización convexa",
    term_zh = "凸优化",
    aliases_es = {},
    aliases_zh = {},
}

-- High-leverage redlinks (added v1.6.0; multilingual fields v1.6.1)

data["logistic regression"] = {
    short = "A statistical model that estimates the probability of a binary outcome by passing a linear combination of features through the sigmoid function. The classic baseline for binary classification.",
    article = "Logistic regression",
    aliases = { "logit regression" },
    es = "Modelo estadístico que estima la probabilidad de un resultado binario aplicando la función sigmoide a una combinación lineal de características.",
    zh = "一种统计模型，通过将特征的线性组合传入 sigmoid 函数来估计二元结果的概率。是二分类的经典基线方法。",
    term_es = "regresión logística",
    term_zh = "逻辑回归",
    aliases_es = {},
    aliases_zh = { "对数几率回归" },
}

data["deep learning"] = {
    short = "A subfield of machine learning that uses neural networks with many layers to learn hierarchical representations directly from data, eliminating the need for hand-crafted features.",
    article = "Deep learning",
    aliases = {},
    es = "Subcampo del aprendizaje automático que utiliza redes neuronales con muchas capas para aprender representaciones jerárquicas directamente de los datos.",
    zh = "机器学习的一个子领域，使用具有多层结构的神经网络直接从数据中学习层次化表示，无需手工设计特征。",
    term_es = "aprendizaje profundo",
    term_zh = "深度学习",
    aliases_es = { "deep learning" },
    aliases_zh = { "deep learning" },
}

data["transformer"] = {
    short = "A neural network architecture based entirely on self-attention, dispensing with recurrence and convolution. Introduced in 'Attention is All You Need' (2017); the foundation of modern language models.",
    article = "Transformer",
    aliases = { "transformer architecture", "transformer model" },
    es = "Arquitectura de red neuronal basada enteramente en autoatención, sin recurrencia ni convolución. Introducida en 'Attention is All You Need' (2017); la base de los modelos de lenguaje modernos.",
    zh = "完全基于自注意力机制的神经网络架构，不使用循环或卷积。由《Attention is All You Need》（2017）提出，是现代语言模型的基础。",
    term_es = "Transformer",
    term_zh = "Transformer",
    aliases_es = { "arquitectura Transformer" },
    aliases_zh = { "Transformer 模型", "变换器" },
}

data["factorization machines"] = {
    short = "A model class that captures interactions between features via low-rank factorization of pairwise interaction terms. Widely used in recommender systems and CTR prediction.",
    article = "Factorization Machines",
    aliases = { "factorization machine", "FM" },
    es = "Clase de modelos que captura interacciones entre características mediante factorización de bajo rango de los términos de interacción por pares. Ampliamente utilizada en sistemas de recomendación y predicción de CTR.",
    zh = "通过对成对交互项进行低秩分解来捕获特征间交互的模型类。广泛用于推荐系统和点击率预测。",
    term_es = "máquinas de factorización",
    term_zh = "因子分解机",
    aliases_es = { "FM", "máquina de factorización" },
    aliases_zh = { "FM" },
}

data["self-supervised learning"] = {
    short = "A learning paradigm where the supervision signal is derived automatically from the structure of unlabeled data (e.g., masked-token prediction, contrastive views), avoiding the need for human labels.",
    article = "Self-supervised learning",
    aliases = { "self supervised learning", "SSL" },
    es = "Paradigma de aprendizaje donde la señal de supervisión se deriva automáticamente de la estructura de datos no etiquetados (por ejemplo, predicción de tokens enmascarados o vistas contrastivas).",
    zh = "一种学习范式，其监督信号从无标签数据的结构中自动派生（如掩码 token 预测、对比视图），无需人工标注。",
    term_es = "aprendizaje autosupervisado",
    term_zh = "自监督学习",
    aliases_es = { "SSL" },
    aliases_zh = { "SSL" },
}

data["mixture of experts"] = {
    short = "An architecture in which multiple specialized subnetworks ('experts') are gated by a learned router that activates only a sparse subset per input, scaling parameter count without proportional compute.",
    article = "Mixture of experts",
    aliases = { "MoE", "mixture-of-experts", "sparsely-gated mixture-of-experts" },
    es = "Arquitectura en la que múltiples subredes especializadas ('expertos') son seleccionadas por un enrutador aprendido que activa solo un subconjunto disperso por entrada, escalando los parámetros sin aumento proporcional de cómputo.",
    zh = "一种架构，多个专门的子网络（\"专家\"）由一个学习到的路由器调控，每个输入仅激活稀疏子集，从而在不按比例增加计算量的情况下扩展参数规模。",
    term_es = "mezcla de expertos",
    term_zh = "专家混合",
    aliases_es = { "MoE" },
    aliases_zh = { "MoE", "混合专家" },
}

data["sequence-to-sequence"] = {
    short = "A class of models that map an input sequence to an output sequence (typically of different length), originally encoder-decoder RNNs and now dominated by transformer architectures.",
    article = nil,
    aliases = { "seq2seq", "sequence to sequence" },
    es = "Clase de modelos que mapean una secuencia de entrada a una secuencia de salida (normalmente de longitud diferente), originalmente codificadores-decodificadores RNN y ahora dominados por arquitecturas transformer.",
    zh = "一类将输入序列映射到输出序列（通常长度不同）的模型，最初是编码器-解码器 RNN，现已被 transformer 架构主导。",
    term_es = "secuencia a secuencia",
    term_zh = "序列到序列",
    aliases_es = { "seq2seq" },
    aliases_zh = { "seq2seq" },
}

data["bayesian deep learning"] = {
    short = "A research direction that places probability distributions over neural network weights to capture predictive uncertainty, drawing on tools from Bayesian inference.",
    article = nil,
    aliases = { "Bayesian neural network", "BNN" },
    es = "Dirección de investigación que coloca distribuciones de probabilidad sobre los pesos de redes neuronales para capturar la incertidumbre predictiva, apoyándose en herramientas de inferencia bayesiana.",
    zh = "一个研究方向，在神经网络权重上放置概率分布以捕获预测不确定性，借鉴贝叶斯推断的工具。",
    term_es = "aprendizaje profundo bayesiano",
    term_zh = "贝叶斯深度学习",
    aliases_es = { "red neuronal bayesiana", "BNN" },
    aliases_zh = { "贝叶斯神经网络", "BNN" },
}

data["long short-term memory"] = {
    short = "A recurrent neural network cell with input, output, and forget gates that mitigate vanishing gradients and enable learning of long-range dependencies in sequence data.",
    article = nil,
    aliases = { "LSTM", "long short term memory" },
    es = "Celda de red neuronal recurrente con compuertas de entrada, salida y olvido que mitiga los gradientes desvanecientes y permite aprender dependencias de largo alcance en datos secuenciales.",
    zh = "一种循环神经网络单元，带有输入门、输出门和遗忘门，可缓解梯度消失并使序列数据中的长距离依赖关系得以学习。",
    term_es = "memoria a largo y corto plazo",
    term_zh = "长短期记忆",
    aliases_es = { "LSTM" },
    aliases_zh = { "LSTM" },
}

data["information theory"] = {
    short = "The mathematical study of quantifying, storing, and communicating information; provides foundational tools (entropy, KL divergence, mutual information) used throughout machine learning.",
    article = "Information theory",
    aliases = {},
    es = "Estudio matemático de la cuantificación, almacenamiento y comunicación de información; provee herramientas fundamentales (entropía, divergencia KL, información mutua) usadas en todo el aprendizaje automático.",
    zh = "关于信息量化、存储与传输的数学研究，为机器学习提供基础工具（熵、KL 散度、互信息）。",
    term_es = "teoría de la información",
    term_zh = "信息论",
    aliases_es = {},
    aliases_zh = {},
}

data["regularization"] = {
    short = "Any technique that constrains model complexity to improve generalization, including L1/L2 penalties, dropout, early stopping, and data augmentation.",
    article = "Overfitting and Regularization",
    aliases = { "regularisation" },
    es = "Cualquier técnica que limita la complejidad del modelo para mejorar la generalización, incluidas las penalizaciones L1/L2, dropout, parada temprana y aumento de datos.",
    zh = "通过约束模型复杂度以提高泛化能力的任何技术，包括 L1/L2 惩罚、dropout、提前停止和数据增强。",
    term_es = "regularización",
    term_zh = "正则化",
    aliases_es = {},
    aliases_zh = {},
}

data["recommender system"] = {
    short = "A system that predicts user preferences over items, typically via collaborative filtering, content-based methods, or hybrid deep models.",
    article = "Wide & Deep Learning for Recommender Systems",
    aliases = { "recommender systems", "recommendation system", "recommendation systems" },
    es = "Sistema que predice las preferencias del usuario sobre elementos, típicamente mediante filtrado colaborativo, métodos basados en contenido o modelos híbridos profundos.",
    zh = "预测用户对项目偏好的系统，通常通过协同过滤、基于内容的方法或混合深度模型实现。",
    term_es = "sistema de recomendación",
    term_zh = "推荐系统",
    aliases_es = { "sistemas de recomendación" },
    aliases_zh = {},
}

-- Term-of-art quick wins (added v1.6.0; multilingual fields v1.6.1)

data["adagrad"] = {
    short = "An adaptive optimizer that scales each parameter's learning rate by the inverse square root of accumulated squared gradients, giving rare features larger updates.",
    article = nil,
    aliases = { "AdaGrad" },
    es = "Optimizador adaptativo que escala la tasa de aprendizaje de cada parámetro por la raíz cuadrada inversa de los gradientes cuadrados acumulados, dando actualizaciones mayores a características poco frecuentes.",
    zh = "一种自适应优化器，通过累积平方梯度的平方根的倒数来缩放每个参数的学习率，对稀有特征赋予较大的更新。",
    term_es = "AdaGrad",
    term_zh = "AdaGrad",
    aliases_es = {},
    aliases_zh = {},
}

data["layer normalization"] = {
    short = "A normalization technique that standardizes the inputs to a layer across feature dimensions per example, commonly used in transformers as a stable alternative to batch normalization.",
    article = nil,
    aliases = { "layer norm", "LayerNorm" },
    es = "Técnica de normalización que estandariza las entradas de una capa a través de las dimensiones de características por ejemplo, comúnmente usada en transformers como alternativa estable a la normalización por lotes.",
    zh = "一种归一化技术，对每个样本的层输入在特征维度上进行标准化，常用于 transformer 中，作为批归一化的稳定替代方案。",
    term_es = "normalización de capa",
    term_zh = "层归一化",
    aliases_es = { "LayerNorm" },
    aliases_zh = { "LayerNorm" },
}

data["click-through rate"] = {
    short = "The fraction of impressions that result in a click; the canonical objective metric in online advertising and recommendation ranking.",
    article = nil,
    aliases = { "CTR", "click through rate" },
    es = "Fracción de impresiones que resultan en un clic; la métrica objetiva canónica en publicidad en línea y clasificación de recomendaciones.",
    zh = "导致点击的展示次数比例；在线广告和推荐排序中的经典目标指标。",
    term_es = "tasa de clics",
    term_zh = "点击率",
    aliases_es = { "CTR" },
    aliases_zh = { "CTR" },
}

data["hyperparameter"] = {
    short = "A configuration parameter set before training (e.g., learning rate, layer count, dropout rate); not learned from data and typically tuned by search or heuristic.",
    article = nil,
    aliases = { "hyperparameters", "hyper-parameter" },
    es = "Parámetro de configuración establecido antes del entrenamiento (por ejemplo, tasa de aprendizaje, número de capas, tasa de dropout); no se aprende de los datos y normalmente se ajusta mediante búsqueda o heurística.",
    zh = "训练之前设置的配置参数（如学习率、层数、dropout 率）；不从数据中学习，通常通过搜索或启发式方法调整。",
    term_es = "hiperparámetro",
    term_zh = "超参数",
    aliases_es = { "hiperparámetros" },
    aliases_zh = {},
}

data["pre-training"] = {
    short = "Training a model on a broad task (often self-supervised) on large data, producing weights that are subsequently adapted to downstream tasks via fine-tuning.",
    article = nil,
    aliases = { "pretraining", "pre training" },
    es = "Entrenamiento de un modelo en una tarea amplia (a menudo autosupervisada) sobre grandes volúmenes de datos, produciendo pesos que luego se adaptan a tareas posteriores mediante fine-tuning.",
    zh = "在大规模数据上对模型进行广泛任务（通常是自监督）的训练，产生的权重随后通过微调适配下游任务。",
    term_es = "preentrenamiento",
    term_zh = "预训练",
    aliases_es = { "pre-entrenamiento" },
    aliases_zh = {},
}

data["fine-tuning"] = {
    short = "The process of continuing training a pre-trained model on a smaller, task-specific dataset, typically with a lower learning rate, to adapt it to the target task.",
    article = nil,
    aliases = { "fine tuning", "finetuning" },
    es = "Proceso de continuar entrenando un modelo preentrenado en un conjunto de datos más pequeño y específico de la tarea, generalmente con una tasa de aprendizaje más baja, para adaptarlo a la tarea objetivo.",
    zh = "在较小的、任务特定的数据集上继续训练预训练模型的过程，通常使用较低的学习率，使其适应目标任务。",
    term_es = "ajuste fino",
    term_zh = "微调",
    aliases_es = { "fine-tuning" },
    aliases_zh = { "fine-tuning" },
}

data["domain adaptation"] = {
    short = "A transfer-learning setting where source and target distributions differ; the goal is to adapt a model trained on the source to perform well on the target despite the shift.",
    article = nil,
    aliases = {},
    es = "Configuración de aprendizaje por transferencia donde las distribuciones de origen y destino difieren; el objetivo es adaptar un modelo entrenado en el origen para que funcione bien en el destino a pesar del cambio.",
    zh = "一种迁移学习场景，源分布与目标分布不同；目标是使在源域上训练的模型在分布偏移的情况下也能在目标域上表现良好。",
    term_es = "adaptación de dominio",
    term_zh = "领域适应",
    aliases_es = {},
    aliases_zh = { "域适应" },
}

-- Standard ML vocabulary (added v1.6.0; multilingual fields v1.6.1)

data["embedding"] = {
    short = "A dense vector representation of a discrete token, item, or symbol learned so that semantic similarity corresponds to vector proximity.",
    article = "Word Embeddings",
    aliases = { "embeddings", "vector embedding" },
    es = "Representación vectorial densa de un token, elemento o símbolo discreto, aprendida de modo que la similitud semántica se corresponda con la proximidad vectorial.",
    zh = "对离散 token、项或符号的稠密向量表示，学习时使语义相似性对应于向量空间中的接近度。",
    term_es = "embedding",
    term_zh = "嵌入",
    aliases_es = { "incrustación", "representación vectorial" },
    aliases_zh = { "embedding", "嵌入向量" },
}

data["tokenization"] = {
    short = "The process of splitting text into discrete units (tokens — words, subwords, or characters) so models can process it as a sequence of integer IDs.",
    article = nil,
    aliases = { "tokenisation", "tokenizer" },
    es = "Proceso de dividir el texto en unidades discretas (tokens — palabras, subpalabras o caracteres) para que los modelos puedan procesarlo como una secuencia de IDs enteros.",
    zh = "将文本分割为离散单元（token——词、子词或字符）的过程，使模型可以将其作为整数 ID 序列处理。",
    term_es = "tokenización",
    term_zh = "分词",
    aliases_es = {},
    aliases_zh = { "tokenization", "符号化" },
}

data["softmax"] = {
    short = "A function that maps a vector of real numbers to a probability distribution by exponentiating and normalizing; the canonical output activation for multi-class classification.",
    article = "Softmax Function",
    aliases = { "softmax function", "normalized exponential" },
    es = "Función que mapea un vector de números reales a una distribución de probabilidad mediante exponenciación y normalización; la activación de salida canónica para la clasificación multiclase.",
    zh = "通过取指数并归一化将实数向量映射到概率分布的函数；多类别分类的标准输出激活函数。",
    term_es = "softmax",
    term_zh = "softmax 函数",
    aliases_es = { "función softmax" },
    aliases_zh = { "softmax" },
}

data["logits"] = {
    short = "The unnormalized real-valued outputs of a classifier's final linear layer, before being passed through softmax (or sigmoid for binary tasks) to produce probabilities.",
    article = nil,
    aliases = { "logit" },
    es = "Las salidas reales no normalizadas de la capa lineal final de un clasificador, antes de pasarlas por softmax (o sigmoide para tareas binarias) para producir probabilidades.",
    zh = "分类器最后线性层的未归一化实值输出，在经过 softmax（或二分类的 sigmoid）转换为概率之前的形式。",
    term_es = "logits",
    term_zh = "logits",
    aliases_es = { "logit" },
    aliases_zh = { "logit" },
}

data["one-hot encoding"] = {
    short = "A representation of a categorical variable as a binary vector where exactly one element is 1 (the active class) and the rest are 0.",
    article = nil,
    aliases = { "one hot", "one-hot" },
    es = "Representación de una variable categórica como un vector binario donde exactamente un elemento es 1 (la clase activa) y el resto son 0.",
    zh = "将类别变量表示为二元向量的方法，其中恰好有一个元素为 1（活动类别），其余为 0。",
    term_es = "codificación one-hot",
    term_zh = "独热编码",
    aliases_es = { "one-hot" },
    aliases_zh = { "one-hot" },
}

data["dropout"] = {
    short = "A regularization technique that randomly zeros a fraction of activations during training, encouraging redundant feature representations and reducing overfitting.",
    article = "Dropout",
    aliases = { "dropout regularization" },
    es = "Técnica de regularización que pone a cero aleatoriamente una fracción de las activaciones durante el entrenamiento, fomentando representaciones de características redundantes y reduciendo el sobreajuste.",
    zh = "一种正则化技术，在训练期间随机将一部分激活值置零，以鼓励冗余的特征表示并减少过拟合。",
    term_es = "dropout",
    term_zh = "dropout",
    aliases_es = { "regularización dropout" },
    aliases_zh = { "丢弃法" },
}

data["activation function"] = {
    short = "A nonlinear function applied element-wise to a layer's outputs (e.g., ReLU, sigmoid, tanh, GELU); enables neural networks to model nonlinear relationships.",
    article = nil,
    aliases = { "activation", "nonlinearity" },
    es = "Función no lineal aplicada elemento por elemento a las salidas de una capa (por ejemplo, ReLU, sigmoide, tanh, GELU); permite que las redes neuronales modelen relaciones no lineales.",
    zh = "应用于层输出每个元素的非线性函数（如 ReLU、sigmoid、tanh、GELU）；使神经网络能够建模非线性关系。",
    term_es = "función de activación",
    term_zh = "激活函数",
    aliases_es = { "activación", "no linealidad" },
    aliases_zh = { "非线性函数" },
}

data["convolution"] = {
    short = "A linear operation that slides a learned filter (kernel) over an input, producing a feature map. The basic building block of convolutional neural networks.",
    article = "Convolutional Neural Networks",
    aliases = { "convolutional layer" },
    es = "Operación lineal que desliza un filtro aprendido (kernel) sobre una entrada, produciendo un mapa de características. El bloque de construcción básico de las redes neuronales convolucionales.",
    zh = "在输入上滑动学习到的滤波器（核）的线性运算，产生特征图。卷积神经网络的基本构建块。",
    term_es = "convolución",
    term_zh = "卷积",
    aliases_es = { "capa convolucional" },
    aliases_zh = { "卷积层" },
}

data["pooling"] = {
    short = "A downsampling operation in CNNs that summarizes a local neighborhood (typically max or average) to reduce spatial resolution and provide translation invariance.",
    article = nil,
    aliases = { "max pooling", "average pooling" },
    es = "Operación de submuestreo en CNNs que resume un vecindario local (típicamente máximo o promedio) para reducir la resolución espacial y proporcionar invariancia a la traslación.",
    zh = "CNN 中的下采样操作，通过总结局部邻域（通常取最大值或平均值）来降低空间分辨率并提供平移不变性。",
    term_es = "pooling",
    term_zh = "池化",
    aliases_es = { "agrupación", "submuestreo" },
    aliases_zh = { "汇聚" },
}

data["attention"] = {
    short = "A mechanism that computes a weighted sum over a set of values, where the weights are derived from compatibility scores between a query and keys; the core building block of transformers.",
    article = "Attention Mechanisms",
    aliases = { "attention mechanism", "self-attention", "scaled dot-product attention" },
    es = "Mecanismo que calcula una suma ponderada sobre un conjunto de valores, donde los pesos se derivan de puntuaciones de compatibilidad entre una consulta y claves; el bloque básico de los transformers.",
    zh = "计算一组值的加权和的机制，其中权重源于查询和键之间的兼容性分数；transformer 的核心构建块。",
    term_es = "atención",
    term_zh = "注意力",
    aliases_es = { "mecanismo de atención", "autoatención" },
    aliases_zh = { "注意力机制", "自注意力" },
}

data["latent space"] = {
    short = "A learned, typically lower-dimensional space in which data is represented by abstract features; semantically related items lie close together.",
    article = nil,
    aliases = { "latent representation", "feature space" },
    es = "Espacio aprendido, típicamente de menor dimensión, en el que los datos se representan mediante características abstractas; los elementos semánticamente relacionados quedan cerca entre sí.",
    zh = "一个学习到的（通常是低维的）空间，其中数据通过抽象特征表示；语义相关的项在该空间中彼此接近。",
    term_es = "espacio latente",
    term_zh = "潜在空间",
    aliases_es = { "representación latente", "espacio de características" },
    aliases_zh = { "潜在表示", "特征空间" },
}

data["weight decay"] = {
    short = "An L2 regularization technique that adds a penalty proportional to the squared magnitude of model weights, encouraging smaller weights and improving generalization.",
    article = "Decoupled Weight Decay Regularization",
    aliases = { "L2 regularization", "L2 penalty" },
    es = "Técnica de regularización L2 que añade una penalización proporcional a la magnitud al cuadrado de los pesos del modelo, fomentando pesos más pequeños y mejorando la generalización.",
    zh = "一种 L2 正则化技术，添加与模型权重平方幅值成比例的惩罚项，以促使权重较小并提高泛化能力。",
    term_es = "decaimiento de pesos",
    term_zh = "权重衰减",
    aliases_es = { "regularización L2", "weight decay" },
    aliases_zh = { "L2 正则化" },
}

data["categorical cross-entropy"] = {
    short = "The loss function for multi-class classification: the negative log likelihood of the correct class under the predicted softmax distribution.",
    article = "Cross-Entropy Loss",
    aliases = { "cross-entropy loss", "cross-entropy", "categorical crossentropy" },
    es = "Función de pérdida para clasificación multiclase: la log-verosimilitud negativa de la clase correcta bajo la distribución softmax predicha.",
    zh = "多类别分类的损失函数：在预测的 softmax 分布下，正确类别的负对数似然。",
    term_es = "entropía cruzada categórica",
    term_zh = "类别交叉熵",
    aliases_es = { "pérdida de entropía cruzada", "entropía cruzada" },
    aliases_zh = { "交叉熵损失", "交叉熵" },
}

data["epoch"] = {
    short = "One full pass through the training dataset; training typically runs for many epochs until convergence or early stopping.",
    article = nil,
    aliases = { "epochs" },
    es = "Una pasada completa por el conjunto de datos de entrenamiento; el entrenamiento normalmente se ejecuta durante muchas épocas hasta la convergencia o la parada temprana.",
    zh = "对训练数据集的一次完整遍历；训练通常运行多个 epoch 直到收敛或提前停止。",
    term_es = "época",
    term_zh = "epoch",
    aliases_es = { "epoch" },
    aliases_zh = { "训练轮", "周期" },
}

data["overfitting"] = {
    short = "A failure mode where a model memorizes training data and fails to generalize, characterized by low training error but high validation/test error.",
    article = "Overfitting and Regularization",
    aliases = {},
    es = "Modo de falla en el que un modelo memoriza los datos de entrenamiento y no generaliza, caracterizado por un error bajo en entrenamiento pero alto en validación/prueba.",
    zh = "一种失效模式，模型记住了训练数据但无法泛化，表现为训练误差低但验证/测试误差高。",
    term_es = "sobreajuste",
    term_zh = "过拟合",
    aliases_es = {},
    aliases_zh = {},
}

return data