Dropout: A Simple Way to Prevent Neural Networks from Overfitting/es

Research Paper
Authors	Srivastava, N.; Hinton, G.; Krizhevsky, A.; Sutskever, I.; Salakhutdinov, R.
Year	2014
Venue	Journal of Machine Learning Research
Topic area	Machine Learning
Difficulty	Research
Source	View paper
PDF	Download PDF

This page is a translated version of the page Dropout: A Simple Way to Prevent Neural Networks from Overfitting and the translation is 100% complete.

Other languages:

English
Español
中文

SummarySource

Dropout: A Simple Way to Prevent Neural Networks from Overfitting es un artículo de 2014 de Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever y Ruslan Salakhutdinov, publicado en el Journal of Machine Learning Research. El artículo presenta el dropout, una técnica de regularización en la que las unidades ocultas y visibles se eliminan aleatoriamente de una red neuronal en cada paso de entrenamiento. Al obligar a la red a aprender representaciones redundantes y distribuidas, el dropout reduce drásticamente el sobreajuste y obtiene resultados de vanguardia en tareas de visión, voz, texto y biología computacional. El artículo es uno de los trabajos más citados en aprendizaje profundo y convirtió al dropout en un componente casi universal de los procesos modernos de entrenamiento de redes neuronales.

Resumen

Las redes neuronales profundas con muchos parámetros son poderosos aproximadores de funciones, pero son propensas al sobreajuste, en particular cuando los conjuntos de datos son pequeños en comparación con la capacidad del modelo. El remedio bayesiano clásico —promediar las predicciones sobre la distribución posterior de los parámetros— resulta inviable para redes grandes. El dropout ofrece una aproximación tratable: durante el entrenamiento, cada unidad se conserva de forma independiente con probabilidad $$ p $$ y, en caso contrario, se elimina temporalmente junto con sus conexiones. Cada minibatch entrena en la práctica una sub-red «adelgazada» distinta, muestreada de una familia exponencial de $$ 2^n $$ sub-redes que comparten pesos. En tiempo de prueba se utiliza la red completa con los pesos escalados por $$ p $$ , lo que produce una aproximación eficiente y determinista de la media geométrica de todas las sub-redes muestreadas.

El artículo presenta amplias pruebas empíricas de que el dropout mejora la generalización en MNIST, SVHN, CIFAR-10/100, ImageNet, TIMIT, Reuters-RCV1 y una tarea de empalme alternativo en genética. También extiende el dropout a las máquinas de Boltzmann restringidas, analiza su efecto sobre las características aprendidas y la dispersión de las activaciones, y explora una variante con ruido gaussiano y un equivalente determinista, marginalizado, para la regresión lineal.

Contribuciones clave

Un método de regularización sencillo y de aplicación amplia —el dropout— que escala a redes con decenas de millones de parámetros y funciona en distintas arquitecturas y modalidades.
Una aproximación práctica de escalado de pesos: en tiempo de prueba, se multiplica cada peso por la probabilidad de retención $$ p $$ . Esto permite que una sola pasada hacia adelante aproxime el promedio sobre el conjunto exponencial de sub-redes adelgazadas.
Resultados de vanguardia en el momento de la publicación en MNIST con invariancia a permutaciones (0,79% de error con dropout preentrenado mediante DBM), SVHN, CIFAR-10/100 e ImageNet ILSVRC-2012 (ganando la competición).
Dropout RBMs: una extensión del dropout a las máquinas de Boltzmann restringidas que produce características más dispersas y cualitativamente distintas.
Análisis que muestra que el dropout evita la co-adaptación de las unidades ocultas, induce dispersión de las activaciones como efecto colateral y se comporta de forma predecible al variar la probabilidad de retención $$ p $$ y el tamaño del conjunto de datos.
Una forma marginalizada del dropout para la regresión lineal, equivalente a una penalización ridge dependiente de los datos, que sugiere un equivalente determinista para modelos más complejos.
Una guía práctica de hiperparámetros (escalado del tamaño de la red, tasa de aprendizaje, momentum, restricciones de norma máxima).

Métodos

Sea $y^{(l)}$ el vector de activaciones de la capa $$ l $$ y $r^{(l)}_j \sim \mathrm{Bernoulli}(p)$ una máscara de retención por unidad. La pasada hacia adelante con dropout es:

\tilde{y}^{(l)} = r^{(l)} \ast y^{(l)},\qquad z^{(l+1)}_i = w^{(l+1)}_i\, \tilde{y}^{(l)} + b^{(l+1)}_i,\qquad y^{(l+1)}_i = f(z^{(l+1)}_i),

donde $\ast$ denota la multiplicación elemento a elemento. Se muestrea una nueva máscara para cada caso de entrenamiento en cada minibatch. La retropropagación fluye únicamente por las unidades retenidas. En tiempo de prueba no se elimina ninguna unidad y los pesos se reescalan, $W^{(l)}_{\text{test}} = p\, W^{(l)}$ , de modo que la salida esperada de cada unidad coincide con su promedio durante el entrenamiento.

Los autores combinan el dropout con varias técnicas que resultaron especialmente sinérgicas:

Regularización de norma máxima: el vector de pesos entrantes en cada unidad oculta se restringe a satisfacer $\|w\|_2 \leq c$ , con valores típicos $c \in [3, 4]$ . Esto permite tasas de aprendizaje muy grandes sin que los pesos se disparen.
Tasa de aprendizaje y momentum altos: las redes con dropout toleran (y se benefician de) tasas de aprendizaje 10–100× mayores que las redes estándar y valores de momentum entre 0,95 y 0,99.
Escalado del tamaño de la red: como solo $$ pn $$ unidades están activas en promedio, la heurística es usar aproximadamente $$ n/p $$ unidades al sustituir una capa estándar de tamaño $$ n $$ .
Compatibilidad con preentrenamiento: los pesos preentrenados (a partir de pilas de RBMs, autoencoders o DBMs) se escalan por $$ 1/p $$ antes del ajuste fino con dropout.

Los autores también derivan un equivalente determinista marginalizando el ruido. Para la regresión lineal, eliminar entradas con probabilidad de retención $$ p $$ se reduce, en valor esperado, a:

\underset{w}{\mathrm{minimize}}\; \|y - p X w\|^2 + p(1 - p)\, \|\Gamma w\|^2,\qquad \Gamma = (\mathrm{diag}(X^\top X))^{1/2},

una forma de regularización L2 ponderada por las desviaciones estándar de cada característica. Una variante de dropout gaussiano —que multiplica las activaciones por muestras de $\mathcal{N}(1, \sigma^2)$ con $\sigma^2 = (1 - p)/p$ — iguala o supera ligeramente al dropout de Bernoulli en los primeros experimentos y elimina la necesidad de escalar los pesos en tiempo de prueba.

Resultados

En un conjunto diverso de benchmarks, el dropout produjo mejoras consistentes y a menudo drásticas:

MNIST (invariante a permutaciones): 1,60% de error de referencia → 1,35% con dropout → 1,06% con dropout + ReLU + norma máxima → 0,95% con 2×8192 unidades → 0,79% con dropout preentrenado mediante DBM (estado del arte en el momento de la publicación).
SVHN: red convolucional de referencia con 3,95% → 3,02% con dropout en las capas totalmente conectadas → 2,55% con dropout en todas las capas.
CIFAR-10: 14,98% de referencia → 12,61% con dropout en cada capa.
CIFAR-100: 43,48% → 37,20%.
ImageNet ILSVRC-2012: las redes convolucionales con dropout alcanzaron alrededor del 16% de error top-5 en test, frente a ~26% de los mejores métodos sin aprendizaje profundo, y ganaron la competición.
Reconocimiento de fonemas TIMIT: red de 6 capas 23,4% → 21,8%; red preentrenada de 4 capas 22,7% → 19,7%.
Reuters-RCV1: 31,05% → 29,62% (mejoras menores en conjuntos de entrenamiento ya grandes).
Empalme alternativo (Code Quality, mayor es mejor): NN estándar 440 → NN con dropout 567 → NN bayesiana 623. El dropout cierra gran parte de la brecha respecto a una red bayesiana manteniéndose tratable.

Los análisis de las características aprendidas muestran que el dropout rompe la co-adaptación visible en los autoencoders estándar, dando lugar a unidades ocultas que detectan trazos, bordes y manchas localizados. Las activaciones también se vuelven más dispersas como efecto colateral, con la activación media cayendo de ~2,0 a ~0,7 en autoencoders sobre MNIST. Los barridos sobre la probabilidad de retención $$ p $$ muestran un óptimo plano en el rango 0,4–0,8, con 0,5 como valor por defecto robusto para las capas ocultas y ~0,8 para las capas de entrada. El promedio Monte-Carlo sobre $$ k $$ sub-redes muestreadas iguala la aproximación por escalado de pesos hacia $$ k = 50 $$ , lo que confirma que el procedimiento barato de tiempo de prueba es fiel en la práctica. Las ganancias del dropout frente a la ausencia de regularización crecen con el tamaño del conjunto de datos hasta un punto óptimo, y luego decaen a medida que el sobreajuste deja de ser un problema.

Impacto

El dropout se convirtió en un componente por defecto del aprendizaje profundo poco después de su publicación. Combinado con activaciones ReLU y regularización por norma máxima o por decaimiento de pesos, sustentó muchas de las arquitecturas convolucionales más relevantes de mediados de los 2010, incluido el resultado de AlexNet en ImageNet. Trabajos posteriores generalizaron la idea —dropout gaussiano, DropConnect, dropout variacional, regularizadores estocásticos de tipo Bernoulli en redes neuronales recurrentes y transformers, e interpretaciones teórico-informativas como dropout como aproximación bayesiana. El artículo replanteó el entrenamiento de redes neuronales como una forma de ensamblado implícito sobre un conjunto exponencialmente grande de submodelos que comparten pesos, una idea que sigue inspirando la investigación sobre normalización, optimización estocástica y estimación de la incertidumbre. La desventaja de tiempos de entrenamiento 2–3× más largos se ha mitigado en parte mediante aproximaciones deterministas y por la aparición de arquitecturas (como las redes residuales y los transformers con normalización de capa) que a menudo requieren un dropout menos agresivo.

Véase también

Referencias

Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I., y Salakhutdinov, R. (2014). Dropout: A Simple Way to Prevent Neural Networks from Overfitting. Journal of Machine Learning Research, 15(56):1929–1958.
Hinton, G. E., Srivastava, N., Krizhevsky, A., Sutskever, I., y Salakhutdinov, R. R. (2012). Improving neural networks by preventing co-adaptation of feature detectors. arXiv:1207.0580.
Krizhevsky, A., Sutskever, I., y Hinton, G. E. (2012). ImageNet classification with deep convolutional neural networks. En Advances in Neural Information Processing Systems 25, 1106–1114.
Goodfellow, I. J., Warde-Farley, D., Mirza, M., Courville, A., y Bengio, Y. (2013). Maxout networks. En Proceedings of the 30th International Conference on Machine Learning.
Wang, S. y Manning, C. D. (2013). Fast dropout training. En Proceedings of the 30th International Conference on Machine Learning.
Wager, S., Wang, S., y Liang, P. (2013). Dropout training as adaptive regularization. En Advances in Neural Information Processing Systems 26.