Overfitting and Regularization/es: Difference between revisions

Article
Topic area	Machine Learning
Difficulty	Intermediate
Prerequisites	Loss Functions, Neural Networks

Revision as of 07:01, 24 April 2026

Languages: English | Español | 中文

El sobreajuste (overfitting) ocurre cuando un modelo de aprendizaje automatico aprende los datos de entrenamiento demasiado bien — capturando ruido e idiosincrasias en lugar del patron subyacente — y, en consecuencia, tiene un rendimiento deficiente en datos no vistos. La regularizacion es la familia de tecnicas utilizadas para prevenir el sobreajuste y mejorar la capacidad del modelo para generalizar.

El equilibrio entre sesgo y varianza

El error de prediccion sobre datos no vistos puede descomponerse en tres componentes:

\text{Error} = \text{Bias}^2 + \text{Variance} + \text{Irreducible noise}

El sesgo mide cuan lejos esta la prediccion promedio del modelo del valor verdadero. Un sesgo alto indica que el modelo es demasiado simple para capturar la estructura de los datos (subajuste).
La varianza mide cuanto fluctuan las predicciones entre diferentes conjuntos de entrenamiento. Una varianza alta indica que el modelo es demasiado sensible a los datos de entrenamiento particulares (sobreajuste).

El objetivo es encontrar el punto optimo que minimice el error total. Un modelo con muy pocos parametros subajusta (sesgo alto); un modelo con demasiados parametros sobreajusta (varianza alta). Las tecnicas de regularizacion inclinan el equilibrio restringiendo la complejidad del modelo, aceptando un sesgo ligeramente mayor a cambio de una varianza sustancialmente menor.

Deteccion del sobreajuste

El diagnostico mas claro es comparar el rendimiento en entrenamiento y validacion:

Perdida de entrenamiento decreciente, perdida de validacion tambien decreciente — el modelo aun esta aprendiendo; continuar el entrenamiento.
Perdida de entrenamiento decreciente, perdida de validacion creciente — el modelo esta sobreajustando; aplicar regularizacion o detener el entrenamiento.
Perdida de entrenamiento alta, perdida de validacion alta — el modelo esta subajustando; aumentar la capacidad o entrenar mas tiempo.

Graficar estas curvas de aprendizaje a lo largo de las iteraciones de entrenamiento es una practica esencial. Una gran brecha entre la precision de entrenamiento y la precision de validacion es la marca distintiva del sobreajuste.

Regularizacion L2 (decaimiento de pesos)

La regularizacion L2 anade una penalizacion proporcional a la magnitud al cuadrado de los pesos:

J(\theta) = L(\theta) + \frac{\lambda}{2}\|\theta\|_2^2 = L(\theta) + \frac{\lambda}{2}\sum_j \theta_j^2

El gradiente del termino de regularizacion es $\lambda \theta$ , de modo que cada peso se reduce multiplicativamente hacia cero en cada actualizacion — de ahi el nombre decaimiento de pesos. El hiperparametro $\lambda$ controla la intensidad de la regularizacion.

La regularizacion L2 es equivalente a colocar un prior gaussiano sobre los pesos desde una perspectiva bayesiana. Fomenta pesos pequenos y distribuidos y desalienta que cualquier peso individual se vuelva excesivamente grande.

Regularizacion L1

La regularizacion L1 penaliza la suma de valores absolutos:

J(\theta) = L(\theta) + \lambda \|\theta\|_1 = L(\theta) + \lambda \sum_j |\theta_j|

A diferencia de L2, la penalizacion L1 lleva muchos pesos exactamente a cero, produciendo modelos dispersos. Esto hace que la regularizacion L1 sea util para la seleccion de caracteristicas. LASSO (Least Absolute Shrinkage and Selection Operator) es el ejemplo clasico de regresion lineal con regularizacion L1.

Propiedad	L1	L2
Penalizacion	$\lambda\sum\|\theta_j\|$	$\frac{\lambda}{2}\sum\theta_j^2$
Efecto sobre los pesos	Lleva muchos a exactamente cero	Reduce todos hacia cero
Dispersidad	Si	No
Interpretacion bayesiana	Prior de Laplace	Prior gaussiano
Caso de uso	Seleccion de caracteristicas, interpretabilidad	Regularizacion general

Dropout

Dropout (Srivastava et al., 2014) es una tecnica de regularizacion especifica para redes neuronales. Durante el entrenamiento, cada neurona es aleatoriamente "descartada" (establecida en cero) con probabilidad $$ p $$ en cada pasada hacia adelante. Esto evita que las neuronas se coadapten y obliga a la red a aprender representaciones redundantes.

En el momento de la prueba, todas las neuronas estan activas pero sus salidas se escalan por $$ (1 - p) $$ para compensar el mayor numero de unidades activas (o equivalentemente, las salidas se escalan por $$ 1/(1-p) $$ durante el entrenamiento — dropout invertido).

Dropout puede interpretarse como un metodo de ensamblaje aproximado: cada paso de entrenamiento utiliza una subred diferente, y el modelo final aproxima la prediccion promedio de un numero exponencial de subredes.

Parada temprana

La parada temprana monitoriza la perdida de validacion durante el entrenamiento y detiene la optimizacion cuando la perdida de validacion deja de mejorar. Es una de las estrategias de regularizacion mas simples y efectivas.

En la practica, un parametro de paciencia especifica cuantas epocas esperar despues de la ultima mejora antes de detenerse. Los pesos del modelo se guardan en el punto de menor perdida de validacion y se restauran al final.

La parada temprana actua como una forma implicita de regularizacion: limita el numero efectivo de pasos de entrenamiento, evitando que el modelo memorice completamente los datos de entrenamiento.

Aumento de datos

El aumento de datos incrementa el tamano efectivo y la diversidad del conjunto de entrenamiento aplicando transformaciones que preservan las etiquetas. Para datos de imagenes, las transformaciones comunes incluyen:

Volteos horizontales/verticales aleatorios
Recortes y redimensionamientos aleatorios
Variacion de color (brillo, contraste, saturacion)
Rotacion y transformaciones afines
Mixup (interpolacion lineal de pares de imagenes y sus etiquetas)
Cutout (enmascaramiento de parches aleatorios)

Para datos de texto, las transformaciones incluyen sustitucion de sinonimos, retrotraduccion y parafraseo. El aumento de datos reduce el sobreajuste al exponer al modelo a entradas mas variadas sin recopilar datos adicionales.

Otras tecnicas de regularizacion

Batch normalization — normalizar las entradas de las capas reduce el desplazamiento covariante interno y tiene un leve efecto regularizador.
Suavizado de etiquetas — reemplaza los objetivos one-hot con una mezcla, por ejemplo $y_{\text{smooth}} = (1 - \epsilon)\, y + \epsilon / C$ , previniendo la sobreconfianza.
Inyeccion de ruido — anadir ruido gaussiano a las entradas, pesos o gradientes durante el entrenamiento.

Directrices practicas

Comenzar con un modelo lo suficientemente grande como para sobreajustar los datos de entrenamiento — esto confirma que el modelo tiene capacidad suficiente.
Anadir regularizacion incrementalmente (dropout, decaimiento de pesos, aumento de datos) y monitorizar el rendimiento en validacion.
Utilizar la parada temprana como red de seguridad.
Preferir mas datos de entrenamiento sobre una regularizacion mas fuerte siempre que sea posible — la regularizacion es un sustituto de los datos, no un reemplazo.
Ajustar la intensidad de la regularizacion ( $\lambda$ , tasa de dropout) utilizando un conjunto de validacion, nunca el conjunto de prueba.

Vease tambien

Referencias

Srivastava, N. et al. (2014). "Dropout: A Simple Way to Prevent Neural Networks from Overfitting". JMLR, 15, 1929–1958.
Tibshirani, R. (1996). "Regression Shrinkage and Selection via the Lasso". JRSS Series B, 58(1), 267–288.
Goodfellow, I., Bengio, Y. and Courville, A. (2016). Deep Learning, Chapter 7. MIT Press.
Zhang, C. et al. (2017). "Understanding deep learning requires rethinking generalization". ICLR.
Shorten, C. and Khoshgoftaar, T. M. (2019). "A survey on Image Data Augmentation for Deep Learning". Journal of Big Data.

@@ Line 120: / Line 120: @@
 [[Category:Intermediate]]
 <!--v1.2.0 cache-bust-->
+<!-- pass 2 -->