Dropout A Simple Way to Prevent Overfitting/es: Difference between revisions
(test) |
(Batch translate Dropout A Simple Way to Prevent Overfitting unit 10 → es) |
||
| Line 5: | Line 5: | ||
| topic_area = Deep Learning | | topic_area = Deep Learning | ||
| difficulty = Research | | difficulty = Research | ||
| authors = Nitish Srivastava | | authors = Nitish Srivastava; Geoffrey Hinton; Alex Krizhevsky; Ilya Sutskever; Ruslan Salakhutdinov | ||
| year = 2014 | | year = 2014 | ||
| venue = JMLR | |||
| arxiv_id = 1207.0580 | |||
| source_url = https://arxiv.org/abs/1207.0580 | |||
| pdf_url = https://arxiv.org/pdf/1207.0580 | |||
}} | }} | ||
{{ContentMeta | generated_by = | {{ContentMeta | generated_by = claude-opus | model_used = claude-opus-4-6 | generated_date = 2026-03-13}} | ||
'''Dropout: A Simple Way to Prevent Neural Networks from Overfitting''' es un artículo de 2014 de Srivastava et al. publicado en el Journal of Machine Learning Research. El artículo formalizó y evaluó exhaustivamente el '''dropout''', una técnica de regularización en la que neuronas seleccionadas aleatoriamente se eliminan temporalmente durante el entrenamiento. El dropout previene co-adaptaciones complejas entre neuronas, entrenando efectivamente un conjunto exponencialmente grande de subredes dentro de una sola arquitectura, y se convirtió en uno de los métodos de regularización más utilizados en el aprendizaje profundo. | |||
'''Dropout: A Simple Way to Prevent Neural Networks from Overfitting''' | |||
== Resumen == | |||
Las redes neuronales profundas con muchos parámetros son potentes aproximadores de funciones, pero son propensas al sobreajuste, especialmente cuando los datos de entrenamiento son limitados. Los métodos tradicionales de regularización como la disminución de pesos L2 y la parada temprana proporcionaban algún alivio, pero a menudo eran insuficientes para redes grandes. La combinación de modelos —entrenar múltiples modelos y promediar sus predicciones— era conocida por reducir el sobreajuste, pero resultaba computacionalmente costosa. | |||
El dropout proporciona una aproximación eficiente a la combinación de modelos. Durante cada paso de entrenamiento, cada neurona (incluidas las unidades de entrada) se conserva con una probabilidad <math>p</math> y se descarta (se pone a cero) con probabilidad <math>1 - p</math>. Esto significa que en cada caso de entrenamiento se muestrea una subred "adelgazada" diferente. En tiempo de prueba se utilizan todas las neuronas pero sus salidas se escalan por <math>p</math> para aproximar la salida esperada del conjunto. | |||
== Contribuciones clave == | |||
= | |||
* '''Regularización por dropout''': Un procedimiento de entrenamiento que omite aleatoriamente neuronas durante cada paso forward y backward, evitando que las neuronas desarrollen co-adaptaciones excesivamente especializadas. | |||
* ''' | * '''Interpretación como ensemble''': Motivación teórica del dropout como un promedio aproximado de modelos sobre las <math>2^n</math> redes adelgazadas posibles (donde <math>n</math> es el número de unidades susceptibles de ser descartadas), con pesos compartidos. | ||
* ''' | * '''Evaluación empírica exhaustiva''': Demostración de mejoras consistentes en dominios diversos como visión, reconocimiento de habla, clasificación de texto y biología computacional. | ||
* ''' | * '''Pautas prácticas''': Recomendaciones sobre tasas de dropout (<math>p = 0.5</math> para unidades ocultas, <math>p = 0.8</math> para unidades de entrada) e interacciones con otros hiperparámetros. | ||
* ''' | |||
== Métodos == | |||
= | |||
Durante el entrenamiento, para cada ejemplo de entrenamiento y cada capa, la salida de cada neurona se pone a cero independientemente con probabilidad <math>1 - p</math>. Si <math>h_i</math> es la salida de la neurona <math>i</math>, la operación de dropout aplica: | |||
<math>r_i \sim \text{Bernoulli}(p)</math> | <math>r_i \sim \text{Bernoulli}(p)</math> | ||
<math>\tilde{h}_i = r_i \cdot h_i</math> | <math>\tilde{h}_i = r_i \cdot h_i</math> | ||
donde <math>r_i</math> es una variable aleatoria de máscara. La red resultante tras el dropout se utiliza entonces para el paso forward y la retropropagación en ese caso de entrenamiento. Se muestrean diferentes máscaras aleatorias para cada ejemplo de entrenamiento y cada paso de gradiente. | |||
En tiempo de prueba no se descarta ninguna unidad. En su lugar, la salida de cada neurona se multiplica por <math>p</math> para igualar el valor esperado durante el entrenamiento: | |||
<math>h_i^{\text{test}} = p \cdot h_i</math> | <math>h_i^{\text{test}} = p \cdot h_i</math> | ||
Esta '''regla de inferencia con escalado de pesos''' garantiza que la salida esperada de cada neurona en tiempo de prueba sea igual a su salida esperada durante el entrenamiento. Una alternativa equivalente, el '''dropout invertido''', escala las activaciones por <math>1/p</math> durante el entrenamiento de modo que no se necesita ninguna modificación en tiempo de prueba. Este enfoque es más común en las implementaciones modernas. | |||
Los autores demostraron que el dropout puede interpretarse como el entrenamiento de un conjunto de <math>2^n</math> subredes que comparten pesos. En tiempo de prueba, la red completa escalada proporciona una aproximación por media geométrica a la predicción del conjunto, lo cual los autores demostraron que es exacto para una sola capa con salida softmax. | |||
El artículo también exploró el dropout combinado con otros regularizadores, encontrando que combinar dropout con restricciones de norma máxima (recortar el vector de pesos para que tenga una norma L2 máxima) y tasas de aprendizaje grandes con decaimiento producía los mejores resultados. | |||
== Resultados == | |||
= | |||
El dropout fue evaluado en múltiples benchmarks y redujo consistentemente el error de prueba: | |||
* '''MNIST''' (dígitos manuscritos): error reducido del 1.60% al 1.25% con dropout en una red feedforward estándar. | |||
* '''MNIST''' ( | * '''CIFAR-10/CIFAR-100''': reducciones significativas del error en redes convolucionales; mejora relativa de aproximadamente 15-25% en CIFAR-100. | ||
* '''CIFAR-10/CIFAR-100''': | * '''SVHN''' (Street View House Numbers): error reducido del 2.80% al 2.68%. | ||
* '''SVHN''' (Street View House Numbers): | * '''ImageNet''': el dropout mejoró el error top-1 de una gran red convolucional en aproximadamente 2 puntos porcentuales. | ||
* '''ImageNet''': | * '''TIMIT''' (reconocimiento de habla): mejoras consistentes en arquitecturas de varios tamaños. | ||
* '''TIMIT''' ( | * '''Reuters''' (clasificación de texto): rendimiento mejorado en una tarea de clasificación de texto bag-of-words. | ||
* '''Reuters''' ( | |||
El artículo también analizó las características aprendidas por las redes entrenadas con dropout, encontrando que las unidades ocultas desarrollaban características más distintivas e individualmente significativas en comparación con las redes sin dropout, que tendían a aprender características redundantes y co-adaptadas. | |||
== Impacto == | |||
= | |||
El dropout se convirtió en práctica estándar del entrenamiento de redes neuronales durante la década de 2010 e incluido por defecto en la mayoría de los marcos de aprendizaje profundo. Su simplicidad conceptual y su eficacia consistente lo convirtieron en uno de los artículos más citados en aprendizaje automático. La idea de regularización estocástica mediante perturbación aleatoria durante el entrenamiento influyó en muchas técnicas posteriores, como DropConnect, DropBlock, profundidad estocástica y estrategias de aumento de datos. | |||
Aunque la normalización por lotes y otras técnicas han reducido la necesidad del dropout en algunas arquitecturas convolucionales, el dropout sigue ampliamente utilizado en capas totalmente conectadas, modelos Transformer y siempre que el sobreajuste sea una preocupación. El artículo estableció la regularización aleatorizada como un principio central de la metodología del aprendizaje profundo. | |||
== Véase también == | |||
= | |||
* [[ImageNet Classification with Deep CNNs]] | * [[ImageNet Classification with Deep CNNs]] | ||
* [[Batch Normalization Accelerating Deep Network Training]] | * [[Batch Normalization Accelerating Deep Network Training]] | ||
* [[Deep Residual Learning for Image Recognition]] | * [[Deep Residual Learning for Image Recognition]] | ||
== Referencias == | |||
= | |||
* Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I., & Salakhutdinov, R. (2014). Dropout: A Simple Way to Prevent Neural Networks from Overfitting. ''Journal of Machine Learning Research 15'', 1929-1958. [https://arxiv.org/abs/1207.0580 arXiv:1207.0580] | * Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I., & Salakhutdinov, R. (2014). Dropout: A Simple Way to Prevent Neural Networks from Overfitting. ''Journal of Machine Learning Research 15'', 1929-1958. [https://arxiv.org/abs/1207.0580 arXiv:1207.0580] | ||
* Hinton, G. E., Srivastava, N., Krizhevsky, A., Sutskever, I., & Salakhutdinov, R. (2012). Improving Neural Networks by Preventing Co-adaptation of Feature Detectors. ''arXiv:1207.0580''. | * Hinton, G. E., Srivastava, N., Krizhevsky, A., Sutskever, I., & Salakhutdinov, R. (2012). Improving Neural Networks by Preventing Co-adaptation of Feature Detectors. ''arXiv:1207.0580''. | ||
* Wan, L., Zeiler, M., Zhang, S., Le Cun, Y., & Fergus, R. (2013). Regularization of Neural Networks using DropConnect. ''ICML 2013''. | * Wan, L., Zeiler, M., Zhang, S., Le Cun, Y., & Fergus, R. (2013). Regularization of Neural Networks using DropConnect. ''ICML 2013''. | ||
[[Category:Deep Learning]] [[Category:Research]] [[Category:Research Papers]] | [[Category:Deep Learning]] [[Category:Research]] [[Category:Research Papers]] | ||
Revision as of 02:51, 27 April 2026
| Research Paper | |
|---|---|
| Authors | Nitish Srivastava; Geoffrey Hinton; Alex Krizhevsky; Ilya Sutskever; Ruslan Salakhutdinov |
| Year | 2014 |
| Venue | JMLR |
| Topic area | Deep Learning |
| Difficulty | Research |
| arXiv | 1207.0580 |
| Download PDF | |
Dropout: A Simple Way to Prevent Neural Networks from Overfitting es un artículo de 2014 de Srivastava et al. publicado en el Journal of Machine Learning Research. El artículo formalizó y evaluó exhaustivamente el dropout, una técnica de regularización en la que neuronas seleccionadas aleatoriamente se eliminan temporalmente durante el entrenamiento. El dropout previene co-adaptaciones complejas entre neuronas, entrenando efectivamente un conjunto exponencialmente grande de subredes dentro de una sola arquitectura, y se convirtió en uno de los métodos de regularización más utilizados en el aprendizaje profundo.
Resumen
Las redes neuronales profundas con muchos parámetros son potentes aproximadores de funciones, pero son propensas al sobreajuste, especialmente cuando los datos de entrenamiento son limitados. Los métodos tradicionales de regularización como la disminución de pesos L2 y la parada temprana proporcionaban algún alivio, pero a menudo eran insuficientes para redes grandes. La combinación de modelos —entrenar múltiples modelos y promediar sus predicciones— era conocida por reducir el sobreajuste, pero resultaba computacionalmente costosa.
El dropout proporciona una aproximación eficiente a la combinación de modelos. Durante cada paso de entrenamiento, cada neurona (incluidas las unidades de entrada) se conserva con una probabilidad $ p $ y se descarta (se pone a cero) con probabilidad $ 1 - p $. Esto significa que en cada caso de entrenamiento se muestrea una subred "adelgazada" diferente. En tiempo de prueba se utilizan todas las neuronas pero sus salidas se escalan por $ p $ para aproximar la salida esperada del conjunto.
Contribuciones clave
- Regularización por dropout: Un procedimiento de entrenamiento que omite aleatoriamente neuronas durante cada paso forward y backward, evitando que las neuronas desarrollen co-adaptaciones excesivamente especializadas.
- Interpretación como ensemble: Motivación teórica del dropout como un promedio aproximado de modelos sobre las $ 2^n $ redes adelgazadas posibles (donde $ n $ es el número de unidades susceptibles de ser descartadas), con pesos compartidos.
- Evaluación empírica exhaustiva: Demostración de mejoras consistentes en dominios diversos como visión, reconocimiento de habla, clasificación de texto y biología computacional.
- Pautas prácticas: Recomendaciones sobre tasas de dropout ($ p = 0.5 $ para unidades ocultas, $ p = 0.8 $ para unidades de entrada) e interacciones con otros hiperparámetros.
Métodos
Durante el entrenamiento, para cada ejemplo de entrenamiento y cada capa, la salida de cada neurona se pone a cero independientemente con probabilidad $ 1 - p $. Si $ h_i $ es la salida de la neurona $ i $, la operación de dropout aplica:
$ r_i \sim \text{Bernoulli}(p) $
$ \tilde{h}_i = r_i \cdot h_i $
donde $ r_i $ es una variable aleatoria de máscara. La red resultante tras el dropout se utiliza entonces para el paso forward y la retropropagación en ese caso de entrenamiento. Se muestrean diferentes máscaras aleatorias para cada ejemplo de entrenamiento y cada paso de gradiente.
En tiempo de prueba no se descarta ninguna unidad. En su lugar, la salida de cada neurona se multiplica por $ p $ para igualar el valor esperado durante el entrenamiento:
$ h_i^{\text{test}} = p \cdot h_i $
Esta regla de inferencia con escalado de pesos garantiza que la salida esperada de cada neurona en tiempo de prueba sea igual a su salida esperada durante el entrenamiento. Una alternativa equivalente, el dropout invertido, escala las activaciones por $ 1/p $ durante el entrenamiento de modo que no se necesita ninguna modificación en tiempo de prueba. Este enfoque es más común en las implementaciones modernas.
Los autores demostraron que el dropout puede interpretarse como el entrenamiento de un conjunto de $ 2^n $ subredes que comparten pesos. En tiempo de prueba, la red completa escalada proporciona una aproximación por media geométrica a la predicción del conjunto, lo cual los autores demostraron que es exacto para una sola capa con salida softmax.
El artículo también exploró el dropout combinado con otros regularizadores, encontrando que combinar dropout con restricciones de norma máxima (recortar el vector de pesos para que tenga una norma L2 máxima) y tasas de aprendizaje grandes con decaimiento producía los mejores resultados.
Resultados
El dropout fue evaluado en múltiples benchmarks y redujo consistentemente el error de prueba:
- MNIST (dígitos manuscritos): error reducido del 1.60% al 1.25% con dropout en una red feedforward estándar.
- CIFAR-10/CIFAR-100: reducciones significativas del error en redes convolucionales; mejora relativa de aproximadamente 15-25% en CIFAR-100.
- SVHN (Street View House Numbers): error reducido del 2.80% al 2.68%.
- ImageNet: el dropout mejoró el error top-1 de una gran red convolucional en aproximadamente 2 puntos porcentuales.
- TIMIT (reconocimiento de habla): mejoras consistentes en arquitecturas de varios tamaños.
- Reuters (clasificación de texto): rendimiento mejorado en una tarea de clasificación de texto bag-of-words.
El artículo también analizó las características aprendidas por las redes entrenadas con dropout, encontrando que las unidades ocultas desarrollaban características más distintivas e individualmente significativas en comparación con las redes sin dropout, que tendían a aprender características redundantes y co-adaptadas.
Impacto
El dropout se convirtió en práctica estándar del entrenamiento de redes neuronales durante la década de 2010 e incluido por defecto en la mayoría de los marcos de aprendizaje profundo. Su simplicidad conceptual y su eficacia consistente lo convirtieron en uno de los artículos más citados en aprendizaje automático. La idea de regularización estocástica mediante perturbación aleatoria durante el entrenamiento influyó en muchas técnicas posteriores, como DropConnect, DropBlock, profundidad estocástica y estrategias de aumento de datos.
Aunque la normalización por lotes y otras técnicas han reducido la necesidad del dropout en algunas arquitecturas convolucionales, el dropout sigue ampliamente utilizado en capas totalmente conectadas, modelos Transformer y siempre que el sobreajuste sea una preocupación. El artículo estableció la regularización aleatorizada como un principio central de la metodología del aprendizaje profundo.
Véase también
- ImageNet Classification with Deep CNNs
- Batch Normalization Accelerating Deep Network Training
- Deep Residual Learning for Image Recognition
Referencias
- Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I., & Salakhutdinov, R. (2014). Dropout: A Simple Way to Prevent Neural Networks from Overfitting. Journal of Machine Learning Research 15, 1929-1958. arXiv:1207.0580
- Hinton, G. E., Srivastava, N., Krizhevsky, A., Sutskever, I., & Salakhutdinov, R. (2012). Improving Neural Networks by Preventing Co-adaptation of Feature Detectors. arXiv:1207.0580.
- Wan, L., Zeiler, M., Zhang, S., Le Cun, Y., & Fergus, R. (2013). Regularization of Neural Networks using DropConnect. ICML 2013.