Translations:Convolutional Neural Networks/31/es

Utiliza modelos preentrenados (transfer learning) cuando los datos etiquetados son limitados.
Prefiere kernels pequeños ( $3 \times 3$ ) apilados en profundidad — dos capas $3 \times 3$ tienen el mismo campo receptivo que una capa $5 \times 5$ , pero con menos parámetros.
Aplica batch normalisation después de la convolución y antes de la activación.
Utiliza data augmentation con generosidad para reducir el sobreajuste.
Sustituye las capas totalmente conectadas por global average pooling para reducir parámetros.