Dropout A Simple Way to Prevent Overfitting/es: Difference between revisions

Research Paper
Authors	Nitish Srivastava; Geoffrey Hinton; Alex Krizhevsky; Ilya Sutskever; Ruslan Salakhutdinov
Year	2014
Venue	JMLR
Topic area	Deep Learning
Difficulty	Research
arXiv	1207.0580
PDF	Download PDF

Revision as of 02:51, 27 April 2026

Other languages:

English
Español
中文

Languages: English | Español | 中文

Dropout: A Simple Way to Prevent Neural Networks from Overfitting es un artículo de 2014 de Srivastava et al. publicado en el Journal of Machine Learning Research. El artículo formalizó y evaluó exhaustivamente el dropout, una técnica de regularización en la que neuronas seleccionadas aleatoriamente se eliminan temporalmente durante el entrenamiento. El dropout previene co-adaptaciones complejas entre neuronas, entrenando efectivamente un conjunto exponencialmente grande de subredes dentro de una sola arquitectura, y se convirtió en uno de los métodos de regularización más utilizados en el aprendizaje profundo.

Resumen

Las redes neuronales profundas con muchos parámetros son potentes aproximadores de funciones, pero son propensas al sobreajuste, especialmente cuando los datos de entrenamiento son limitados. Los métodos tradicionales de regularización como la disminución de pesos L2 y la parada temprana proporcionaban algún alivio, pero a menudo eran insuficientes para redes grandes. La combinación de modelos —entrenar múltiples modelos y promediar sus predicciones— era conocida por reducir el sobreajuste, pero resultaba computacionalmente costosa.

El dropout proporciona una aproximación eficiente a la combinación de modelos. Durante cada paso de entrenamiento, cada neurona (incluidas las unidades de entrada) se conserva con una probabilidad $$ p $$ y se descarta (se pone a cero) con probabilidad $$ 1 - p $$ . Esto significa que en cada caso de entrenamiento se muestrea una subred "adelgazada" diferente. En tiempo de prueba se utilizan todas las neuronas pero sus salidas se escalan por $$ p $$ para aproximar la salida esperada del conjunto.

Contribuciones clave

Regularización por dropout: Un procedimiento de entrenamiento que omite aleatoriamente neuronas durante cada paso forward y backward, evitando que las neuronas desarrollen co-adaptaciones excesivamente especializadas.
Interpretación como ensemble: Motivación teórica del dropout como un promedio aproximado de modelos sobre las $$ 2^n $$ redes adelgazadas posibles (donde $$ n $$ es el número de unidades susceptibles de ser descartadas), con pesos compartidos.
Evaluación empírica exhaustiva: Demostración de mejoras consistentes en dominios diversos como visión, reconocimiento de habla, clasificación de texto y biología computacional.
Pautas prácticas: Recomendaciones sobre tasas de dropout ( $$ p = 0.5 $$ para unidades ocultas, $$ p = 0.8 $$ para unidades de entrada) e interacciones con otros hiperparámetros.

Métodos

Durante el entrenamiento, para cada ejemplo de entrenamiento y cada capa, la salida de cada neurona se pone a cero independientemente con probabilidad $$ 1 - p $$ . Si $$ h_i $$ es la salida de la neurona $$ i $$ , la operación de dropout aplica:

$r_i \sim \text{Bernoulli}(p)$

$\tilde{h}_i = r_i \cdot h_i$

donde $$ r_i $$ es una variable aleatoria de máscara. La red resultante tras el dropout se utiliza entonces para el paso forward y la retropropagación en ese caso de entrenamiento. Se muestrean diferentes máscaras aleatorias para cada ejemplo de entrenamiento y cada paso de gradiente.

En tiempo de prueba no se descarta ninguna unidad. En su lugar, la salida de cada neurona se multiplica por $$ p $$ para igualar el valor esperado durante el entrenamiento:

$h_i^{\text{test}} = p \cdot h_i$

Esta regla de inferencia con escalado de pesos garantiza que la salida esperada de cada neurona en tiempo de prueba sea igual a su salida esperada durante el entrenamiento. Una alternativa equivalente, el dropout invertido, escala las activaciones por $$ 1/p $$ durante el entrenamiento de modo que no se necesita ninguna modificación en tiempo de prueba. Este enfoque es más común en las implementaciones modernas.

Los autores demostraron que el dropout puede interpretarse como el entrenamiento de un conjunto de $$ 2^n $$ subredes que comparten pesos. En tiempo de prueba, la red completa escalada proporciona una aproximación por media geométrica a la predicción del conjunto, lo cual los autores demostraron que es exacto para una sola capa con salida softmax.

El artículo también exploró el dropout combinado con otros regularizadores, encontrando que combinar dropout con restricciones de norma máxima (recortar el vector de pesos para que tenga una norma L2 máxima) y tasas de aprendizaje grandes con decaimiento producía los mejores resultados.

Resultados

El dropout fue evaluado en múltiples benchmarks y redujo consistentemente el error de prueba:

MNIST (dígitos manuscritos): error reducido del 1.60% al 1.25% con dropout en una red feedforward estándar.
CIFAR-10/CIFAR-100: reducciones significativas del error en redes convolucionales; mejora relativa de aproximadamente 15-25% en CIFAR-100.
SVHN (Street View House Numbers): error reducido del 2.80% al 2.68%.
ImageNet: el dropout mejoró el error top-1 de una gran red convolucional en aproximadamente 2 puntos porcentuales.
TIMIT (reconocimiento de habla): mejoras consistentes en arquitecturas de varios tamaños.
Reuters (clasificación de texto): rendimiento mejorado en una tarea de clasificación de texto bag-of-words.

El artículo también analizó las características aprendidas por las redes entrenadas con dropout, encontrando que las unidades ocultas desarrollaban características más distintivas e individualmente significativas en comparación con las redes sin dropout, que tendían a aprender características redundantes y co-adaptadas.

Impacto

El dropout se convirtió en práctica estándar del entrenamiento de redes neuronales durante la década de 2010 e incluido por defecto en la mayoría de los marcos de aprendizaje profundo. Su simplicidad conceptual y su eficacia consistente lo convirtieron en uno de los artículos más citados en aprendizaje automático. La idea de regularización estocástica mediante perturbación aleatoria durante el entrenamiento influyó en muchas técnicas posteriores, como DropConnect, DropBlock, profundidad estocástica y estrategias de aumento de datos.

Aunque la normalización por lotes y otras técnicas han reducido la necesidad del dropout en algunas arquitecturas convolucionales, el dropout sigue ampliamente utilizado en capas totalmente conectadas, modelos Transformer y siempre que el sobreajuste sea una preocupación. El artículo estableció la regularización aleatorizada como un principio central de la metodología del aprendizaje profundo.

Véase también

Referencias

Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I., & Salakhutdinov, R. (2014). Dropout: A Simple Way to Prevent Neural Networks from Overfitting. Journal of Machine Learning Research 15, 1929-1958. arXiv:1207.0580
Hinton, G. E., Srivastava, N., Krizhevsky, A., Sutskever, I., & Salakhutdinov, R. (2012). Improving Neural Networks by Preventing Co-adaptation of Feature Detectors. arXiv:1207.0580.
Wan, L., Zeiler, M., Zhang, S., Le Cun, Y., & Fergus, R. (2013). Regularization of Neural Networks using DropConnect. ICML 2013.

@@ Line 5: / Line 5: @@
 | topic_area  = Deep Learning
 | difficulty  = Research
-| authors     = Nitish Srivastava
+| authors     = Nitish Srivastava; Geoffrey Hinton; Alex Krizhevsky; Ilya Sutskever; Ruslan Salakhutdinov
 | year        = 2014
+| venue       = JMLR
+| arxiv_id    = 1207.0580
+| source_url  = https://arxiv.org/abs/1207.0580
+| pdf_url     = https://arxiv.org/pdf/1207.0580
 }}
-{{ContentMeta | generated_by = test}}
+{{ContentMeta | generated_by = claude-opus | model_used = claude-opus-4-6 | generated_date = 2026-03-13}}
-<div lang="en" dir="ltr" class="mw-content-ltr">
+'''Dropout: A Simple Way to Prevent Neural Networks from Overfitting''' es un artículo de 2014 de Srivastava et al. publicado en el Journal of Machine Learning Research. El artículo formalizó y evaluó exhaustivamente el '''dropout''', una técnica de regularización en la que neuronas seleccionadas aleatoriamente se eliminan temporalmente durante el entrenamiento. El dropout previene co-adaptaciones complejas entre neuronas, entrenando efectivamente un conjunto exponencialmente grande de subredes dentro de una sola arquitectura, y se convirtió en uno de los métodos de regularización más utilizados en el aprendizaje profundo.
-'''Dropout: A Simple Way to Prevent Neural Networks from Overfitting''' is a 2014 paper by Srivastava et al. published in the Journal of Machine Learning Research. The paper formalized and extensively evaluated '''dropout''', a regularization technique in which randomly selected neurons are temporarily removed during training. Dropout prevents complex co-adaptations between neurons, effectively training an exponentially large ensemble of sub-networks within a single architecture, and became one of the most widely used regularization methods in deep learning.
-</div>
-Test
+== Resumen ==
-<div lang="en" dir="ltr" class="mw-content-ltr">
+Las redes neuronales profundas con muchos parámetros son potentes aproximadores de funciones, pero son propensas al sobreajuste, especialmente cuando los datos de entrenamiento son limitados. Los métodos tradicionales de regularización como la disminución de pesos L2 y la parada temprana proporcionaban algún alivio, pero a menudo eran insuficientes para redes grandes. La combinación de modelos —entrenar múltiples modelos y promediar sus predicciones— era conocida por reducir el sobreajuste, pero resultaba computacionalmente costosa.
-Deep neural networks with many parameters are powerful function approximators but are prone to overfitting, especially when training data is limited. Traditional regularization methods such as L2 weight decay and early stopping provided some relief, but were often insufficient for large networks. Model combination — training multiple models and averaging their predictions — was known to reduce overfitting but was computationally expensive.
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
+El dropout proporciona una aproximación eficiente a la combinación de modelos. Durante cada paso de entrenamiento, cada neurona (incluidas las unidades de entrada) se conserva con una probabilidad <math>p</math> y se descarta (se pone a cero) con probabilidad <math>1 - p</math>. Esto significa que en cada caso de entrenamiento se muestrea una subred "adelgazada" diferente. En tiempo de prueba se utilizan todas las neuronas pero sus salidas se escalan por <math>p</math> para aproximar la salida esperada del conjunto.
-Dropout provides an efficient approximation to model combination. During each training step, each neuron (including input units) is retained with a probability <math>p</math> and dropped (set to zero) with probability <math>1 - p</math>. This means that on each training case, a different "thinned" sub-network is sampled. At test time, all neurons are used but their outputs are scaled by <math>p</math> to approximate the expected output of the ensemble.
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
+== Contribuciones clave ==
-== Key Contributions ==
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
+* '''Regularización por dropout''': Un procedimiento de entrenamiento que omite aleatoriamente neuronas durante cada paso forward y backward, evitando que las neuronas desarrollen co-adaptaciones excesivamente especializadas.
-* '''Dropout regularization''': A training procedure that randomly omits neurons during each forward and backward pass, preventing neurons from developing overly specialized co-adaptations.
+* '''Interpretación como ensemble''': Motivación teórica del dropout como un promedio aproximado de modelos sobre las <math>2^n</math> redes adelgazadas posibles (donde <math>n</math> es el número de unidades susceptibles de ser descartadas), con pesos compartidos.
-* '''Ensemble interpretation''': Theoretical motivation of dropout as approximate model averaging over <math>2^n</math> possible thinned networks (where <math>n</math> is the number of droppable units), with shared weights.
+* '''Evaluación empírica exhaustiva''': Demostración de mejoras consistentes en dominios diversos como visión, reconocimiento de habla, clasificación de texto y biología computacional.
-* '''Comprehensive empirical evaluation''': Demonstration of consistent improvements across diverse domains including vision, speech recognition, text classification, and computational biology.
+* '''Pautas prácticas''': Recomendaciones sobre tasas de dropout (<math>p = 0.5</math> para unidades ocultas, <math>p = 0.8</math> para unidades de entrada) e interacciones con otros hiperparámetros.
-* '''Practical guidelines''': Recommendations for dropout rates (<math>p = 0.5</math> for hidden units, <math>p = 0.8</math> for input units) and interactions with other hyperparameters.
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
+== Métodos ==
-== Methods ==
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
+Durante el entrenamiento, para cada ejemplo de entrenamiento y cada capa, la salida de cada neurona se pone a cero independientemente con probabilidad <math>1 - p</math>. Si <math>h_i</math> es la salida de la neurona <math>i</math>, la operación de dropout aplica:
-During training, for each training example and each layer, each neuron's output is independently set to zero with probability <math>1 - p</math>. If <math>h_i</math> is the output of neuron <math>i</math>, the dropout operation applies:
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
 <math>r_i \sim \text{Bernoulli}(p)</math>
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
 <math>\tilde{h}_i = r_i \cdot h_i</math>
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
+donde <math>r_i</math> es una variable aleatoria de máscara. La red resultante tras el dropout se utiliza entonces para el paso forward y la retropropagación en ese caso de entrenamiento. Se muestrean diferentes máscaras aleatorias para cada ejemplo de entrenamiento y cada paso de gradiente.
-where <math>r_i</math> is a random mask variable. The dropped-out network is then used for the forward pass and backpropagation on that training case. Different random masks are drawn for each training example and each gradient step.
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
+En tiempo de prueba no se descarta ninguna unidad. En su lugar, la salida de cada neurona se multiplica por <math>p</math> para igualar el valor esperado durante el entrenamiento:
-At test time, no units are dropped. Instead, the output of each neuron is multiplied by <math>p</math> to match the expected value during training:
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
 <math>h_i^{\text{test}} = p \cdot h_i</math>
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
+Esta '''regla de inferencia con escalado de pesos''' garantiza que la salida esperada de cada neurona en tiempo de prueba sea igual a su salida esperada durante el entrenamiento. Una alternativa equivalente, el '''dropout invertido''', escala las activaciones por <math>1/p</math> durante el entrenamiento de modo que no se necesita ninguna modificación en tiempo de prueba. Este enfoque es más común en las implementaciones modernas.
-This '''weight scaling inference rule''' ensures that the expected output of each neuron at test time equals its expected output during training. An equivalent alternative, '''inverted dropout''', scales activations by <math>1/p</math> during training so that no modification is needed at test time. This approach is more common in modern implementations.
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
+Los autores demostraron que el dropout puede interpretarse como el entrenamiento de un conjunto de <math>2^n</math> subredes que comparten pesos. En tiempo de prueba, la red completa escalada proporciona una aproximación por media geométrica a la predicción del conjunto, lo cual los autores demostraron que es exacto para una sola capa con salida softmax.
-The authors showed that dropout can be interpreted as training an ensemble of <math>2^n</math> sub-networks that share weights. At test time, the scaled full network provides a geometric mean approximation to the ensemble prediction, which the authors proved is exact for a single layer with softmax output.
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
+El artículo también exploró el dropout combinado con otros regularizadores, encontrando que combinar dropout con restricciones de norma máxima (recortar el vector de pesos para que tenga una norma L2 máxima) y tasas de aprendizaje grandes con decaimiento producía los mejores resultados.
-The paper also explored dropout with other regularizers, finding that combining dropout with max-norm constraints (clipping the weight vector to have a maximum L2 norm) and large decayed learning rates produced the best results.
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
+== Resultados ==
-== Results ==
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
+El dropout fue evaluado en múltiples benchmarks y redujo consistentemente el error de prueba:
-Dropout was evaluated across multiple benchmarks and consistently reduced test error:
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
+* '''MNIST''' (dígitos manuscritos): error reducido del 1.60% al 1.25% con dropout en una red feedforward estándar.
-* '''MNIST''' (handwritten digits): Error reduced from 1.60% to 1.25% with dropout on a standard feedforward network.
+* '''CIFAR-10/CIFAR-100''': reducciones significativas del error en redes convolucionales; mejora relativa de aproximadamente 15-25% en CIFAR-100.
-* '''CIFAR-10/CIFAR-100''': Significant error reductions on convolutional networks; relative improvement of approximately 15-25% on CIFAR-100.
+* '''SVHN''' (Street View House Numbers): error reducido del 2.80% al 2.68%.
-* '''SVHN''' (Street View House Numbers): Error reduced from 2.80% to 2.68%.
+* '''ImageNet''': el dropout mejoró el error top-1 de una gran red convolucional en aproximadamente 2 puntos porcentuales.
-* '''ImageNet''': Dropout improved the top-1 error of a large convolutional network by approximately 2 percentage points.
+* '''TIMIT''' (reconocimiento de habla): mejoras consistentes en arquitecturas de varios tamaños.
-* '''TIMIT''' (speech recognition): Consistent improvements across various architecture sizes.
+* '''Reuters''' (clasificación de texto): rendimiento mejorado en una tarea de clasificación de texto bag-of-words.
-* '''Reuters''' (text classification): Improved performance on a bag-of-words text classification task.
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
+El artículo también analizó las características aprendidas por las redes entrenadas con dropout, encontrando que las unidades ocultas desarrollaban características más distintivas e individualmente significativas en comparación con las redes sin dropout, que tendían a aprender características redundantes y co-adaptadas.
-The paper also analyzed the features learned by networks trained with dropout, finding that hidden units developed more distinct and individually meaningful features compared to networks without dropout, which tended to learn redundant co-adapted features.
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
+== Impacto ==
-== Impact ==
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
+El dropout se convirtió en práctica estándar del entrenamiento de redes neuronales durante la década de 2010 e incluido por defecto en la mayoría de los marcos de aprendizaje profundo. Su simplicidad conceptual y su eficacia consistente lo convirtieron en uno de los artículos más citados en aprendizaje automático. La idea de regularización estocástica mediante perturbación aleatoria durante el entrenamiento influyó en muchas técnicas posteriores, como DropConnect, DropBlock, profundidad estocástica y estrategias de aumento de datos.
-Dropout became standard practice in neural network training throughout the 2010s, included by default in most deep learning frameworks. Its conceptual simplicity and consistent effectiveness made it one of the most cited papers in machine learning. The idea of stochastic regularization through random perturbation during training influenced many subsequent techniques, including DropConnect, DropBlock, stochastic depth, and data augmentation strategies.
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
+Aunque la normalización por lotes y otras técnicas han reducido la necesidad del dropout en algunas arquitecturas convolucionales, el dropout sigue ampliamente utilizado en capas totalmente conectadas, modelos Transformer y siempre que el sobreajuste sea una preocupación. El artículo estableció la regularización aleatorizada como un principio central de la metodología del aprendizaje profundo.
-While batch normalization and other techniques have reduced the necessity of dropout in some convolutional architectures, dropout remains widely used in fully connected layers, Transformer models, and whenever overfitting is a concern. The paper established randomized regularization as a core principle in deep learning methodology.
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
+== Véase también ==
-== See also ==
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
 * [[ImageNet Classification with Deep CNNs]]
 * [[Batch Normalization Accelerating Deep Network Training]]
 * [[Deep Residual Learning for Image Recognition]]
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
+== Referencias ==
-== References ==
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
 * Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I., & Salakhutdinov, R. (2014). Dropout: A Simple Way to Prevent Neural Networks from Overfitting. ''Journal of Machine Learning Research 15'', 1929-1958. [https://arxiv.org/abs/1207.0580 arXiv:1207.0580]
 * Hinton, G. E., Srivastava, N., Krizhevsky, A., Sutskever, I., & Salakhutdinov, R. (2012). Improving Neural Networks by Preventing Co-adaptation of Feature Detectors. ''arXiv:1207.0580''.
 * Wan, L., Zeiler, M., Zhang, S., Le Cun, Y., & Fergus, R. (2013). Regularization of Neural Networks using DropConnect. ''ICML 2013''.
-</div>
-<div lang="en" dir="ltr" class="mw-content-ltr">
 [[Category:Deep Learning]] [[Category:Research]] [[Category:Research Papers]]
-</div>