DeployBot: [deploy-bot] Deploy from CI (8c92aeb)

2026-04-24T07:09:00Z

[deploy-bot] Deploy from CI (8c92aeb)

← Older revision		Revision as of 07:09, 24 April 2026
Line 98:		Line 98:
	[[Category:Intermediate]]		[[Category:Intermediate]]
	[[Category:Neural Networks]]		[[Category:Neural Networks]]
	~~<!--v1.2.0 cache-bust-->~~
	~~<!-- pass 2 -->~~

DeployBot: Pass 2 force re-parse

2026-04-24T07:00:26Z

Pass 2 force re-parse

← Older revision		Revision as of 07:00, 24 April 2026
Line 99:		Line 99:
	[[Category:Neural Networks]]		[[Category:Neural Networks]]
	<!--v1.2.0 cache-bust-->		<!--v1.2.0 cache-bust-->
			<!-- pass 2 -->

DeployBot: Force re-parse after Math source-mode rollout (v1.2.0)

2026-04-24T06:57:50Z

Force re-parse after Math source-mode rollout (v1.2.0)

← Older revision		Revision as of 06:57, 24 April 2026
Line 98:		Line 98:
	[[Category:Intermediate]]		[[Category:Intermediate]]
	[[Category:Neural Networks]]		[[Category:Neural Networks]]
			<!--v1.2.0 cache-bust-->

DeployBot: [deploy-bot] Deploy from CI (775ba6e)

2026-04-24T04:01:46Z

[deploy-bot] Deploy from CI (775ba6e)

New page

{{LanguageBar | page = Batch Normalization}}
{{ArticleInfobox | topic_area = Deep Learning | difficulty = Intermediate | prerequisites = [[Neural Networks]], [[Backpropagation]]}}
{{ContentMeta | generated_by = claude-opus | model_used = claude-opus-4-6 | generated_date = 2026-03-13}}

'''Batch normalization''' (frecuentemente abreviado '''BatchNorm''' o '''BN''') es una tecnica para mejorar la velocidad, estabilidad y rendimiento de las redes neuronales profundas mediante la normalizacion de las entradas a cada capa. Introducida por Ioffe y Szegedy en 2015, se ha convertido en un componente estandar en la mayoria de las arquitecturas modernas de aprendizaje profundo.

== Desplazamiento covariante interno ==

La motivacion original de batch normalization fue abordar el '''desplazamiento covariante interno''' — el fenomeno por el cual la distribucion de las entradas de cada capa cambia durante el entrenamiento a medida que se actualizan los parametros de las capas precedentes. Esta distribucion cambiante obliga a cada capa a adaptarse continuamente, ralentizando la convergencia y requiriendo una inicializacion cuidadosa y tasas de aprendizaje pequenas.

Aunque el papel preciso del desplazamiento covariante interno ha sido debatido (Santurkar et al., 2018, argumentaron que los beneficios de BatchNorm provienen mas del suavizado del paisaje de perdida), la efectividad practica de la tecnica esta bien establecida.

== El algoritmo de batch normalization ==

=== Durante el entrenamiento ===

Para un mini-lote <math>\mathcal{B} = \{x_1, \dots, x_m\}</math> de activaciones en una capa dada, BatchNorm procede de la siguiente manera:

'''Paso 1.''' Calcular la media y varianza del mini-lote:

:<math>\mu_{\mathcal{B}} = \frac{1}{m} \sum_{i=1}^{m} x_i, \qquad \sigma_{\mathcal{B}}^2 = \frac{1}{m} \sum_{i=1}^{m} (x_i - \mu_{\mathcal{B}})^2</math>

'''Paso 2.''' Normalizar:

:<math>\hat{x}_i = \frac{x_i - \mu_{\mathcal{B}}}{\sqrt{\sigma_{\mathcal{B}}^2 + \epsilon}}</math>

donde <math>\epsilon</math> es una constante pequena (por ejemplo, <math>10^{-5}</math>) para estabilidad numerica.

'''Paso 3.''' Escalar y desplazar con parametros aprendidos <math>\gamma</math> y <math>\beta</math>:

:<math>y_i = \gamma \hat{x}_i + \beta</math>

Los parametros <math>\gamma</math> y <math>\beta</math> se aprenden durante el entrenamiento. Restauran la capacidad de la red para representar la transformacion identidad si esta es optima, asegurando que la normalizacion no reduzca la expresividad del modelo.

=== Durante la inferencia ===

En el momento de la inferencia, las estadisticas de mini-lotes individuales no son fiables (la entrada puede ser un unico ejemplo). En su lugar, BatchNorm utiliza estimaciones acumuladas de la media y varianza poblacional acumuladas durante el entrenamiento mediante promedios moviles exponenciales:

:<math>\mu_{\mathrm{running}} \leftarrow (1 - \alpha)\, \mu_{\mathrm{running}} + \alpha\, \mu_{\mathcal{B}}</math>

:<math>\sigma^2_{\mathrm{running}} \leftarrow (1 - \alpha)\, \sigma^2_{\mathrm{running}} + \alpha\, \sigma^2_{\mathcal{B}}</math>

donde <math>\alpha</math> es el parametro de momento (tipicamente 0.1). Estas estadisticas fijas aseguran salidas deterministas en la inferencia.

== Beneficios ==

* '''Tasas de aprendizaje mas altas''': Al restringir las distribuciones de activacion, BatchNorm permite pasos mas grandes sin divergencia.
* '''Menor sensibilidad a la inicializacion''': Las redes con BatchNorm son mas tolerantes a una inicializacion de pesos deficiente.
* '''Efecto regularizador''': El ruido introducido por las estadisticas del mini-lote actua como un regularizador suave, a veces reduciendo la necesidad de [[Dropout]].
* '''Convergencia mas rapida''': El entrenamiento tipicamente requiere menos epocas para alcanzar un nivel dado de rendimiento.

== Ubicacion ==

BatchNorm se aplica tipicamente '''antes''' de la funcion de activacion (como en el articulo original), aunque algunos profesionales lo colocan '''despues''' de la activacion. Para capas convolucionales, la normalizacion se realiza por canal a traves de las dimensiones espaciales y la dimension del lote.

== Alternativas de normalizacion ==

{| class="wikitable"
|-
! Metodo !! Normaliza sobre !! Caso de uso
|-
| '''Batch Norm''' || Dimensiones del lote y espaciales, por canal || CNN con lotes grandes
|-
| '''Layer Norm''' || Todos los canales y dimensiones espaciales, por muestra || Transformers, RNN, lotes pequenos
|-
| '''Instance Norm''' || Solo dimensiones espaciales, por muestra por canal || Transferencia de estilo, generacion de imagenes
|-
| '''Group Norm''' || Grupos de canales, por muestra || Deteccion de objetos, entrenamiento con lotes pequenos
|}

La '''normalizacion de capa''' (Ba et al., 2016) normaliza a traves de todas las caracteristicas dentro de una unica muestra, haciendola independiente del tamano del lote. Es la opcion estandar en las arquitecturas Transformer.

La '''normalizacion de grupo''' (Wu y He, 2018) divide los canales en grupos y normaliza dentro de cada grupo por muestra. Sirve de puente entre Layer Norm e Instance Norm y funciona bien cuando los tamanos de lote son demasiado pequenos para obtener estadisticas de lote fiables.

== Limitaciones ==

* El rendimiento se degrada con tamanos de lote muy pequenos, ya que las estadisticas del lote se vuelven ruidosas.
* Introduce una discrepancia entre el comportamiento de entrenamiento (estadisticas de lote) y el de inferencia (estadisticas acumuladas).
* No es directamente aplicable a secuencias de longitud variable sin relleno o enmascaramiento.
* Las estadisticas acumuladas requieren un manejo cuidadoso cuando se utiliza entrenamiento distribuido en multiples dispositivos.

== Vease tambien ==

* [[Neural Networks]]
* [[Backpropagation]]
* [[Dropout]]
* [[Stochastic Gradient Descent]]
* [[Transformer]]

== Referencias ==

* Ioffe, S. and Szegedy, C. (2015). "Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift". ''ICML''.
* Ba, J. L., Kiros, J. R. and Hinton, G. E. (2016). "Layer Normalization". ''arXiv:1607.06450''.
* Wu, Y. and He, K. (2018). "Group Normalization". ''ECCV''.
* Santurkar, S. et al. (2018). "How Does Batch Normalization Help Optimization?". ''NeurIPS''.

[[Category:Deep Learning]]
[[Category:Intermediate]]
[[Category:Neural Networks]]

Batch Normalization/es - Revision history

DeployBot: [deploy-bot] Deploy from CI (8c92aeb)

DeployBot: Pass 2 force re-parse

DeployBot: Force re-parse after Math source-mode rollout (v1.2.0)

DeployBot: [deploy-bot] Deploy from CI (775ba6e)