DeployBot: Batch translate ImageNet Classification with Deep CNNs unit 1 -> es

2026-04-27T04:19:45Z

Batch translate ImageNet Classification with Deep CNNs unit 1 -> es

New page

<languages />

{{PaperInfobox
| topic_area = Deep Learning
| difficulty = Research
| authors = Alex Krizhevsky; Ilya Sutskever; Geoffrey E. Hinton
| year = 2012
| venue = NeurIPS
| source_url = https://papers.nips.cc/paper/2012/hash/c399862d3b9d6b76c8436e924a68c45b-Abstract.html
}}
{{ContentMeta | generated_by = claude-opus | model_used = claude-opus-4-6 | generated_date = 2026-03-13}}

'''ImageNet Classification with Deep Convolutional Neural Networks''' es un artículo de 2012 de Krizhevsky, Sutskever y Hinton que presentó '''AlexNet''', una red neuronal convolucional profunda que ganó el ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 2012 por un margen extraordinario. El artículo se considera ampliamente como el catalizador de la revolución moderna del aprendizaje profundo, al demostrar que las redes neuronales profundas entrenadas en GPU podían superar con creces a los métodos tradicionales de visión por computadora en el reconocimiento de imágenes a gran escala.

== Resumen ==

Antes de AlexNet, los enfoques dominantes en la clasificación de imágenes se basaban en características diseñadas a mano (como SIFT, HOG o vectores de Fisher) que se introducían en clasificadores poco profundos como las SVM. Aunque las redes neuronales habían mostrado resultados prometedores en conjuntos de datos más pequeños como MNIST, no se habían escalado con éxito a tareas de reconocimiento complejas y a gran escala. Muchos investigadores cuestionaban si las redes profundas podrían competir con las cuidadosamente diseñadas tuberías de características.

Krizhevsky et al. desbarataron este supuesto al entrenar una red neuronal convolucional profunda con 60 millones de parámetros sobre el conjunto de datos ImageNet LSVRC-2010 (1,2 millones de imágenes, 1000 clases), alcanzando tasas de error top-5 que eran casi la mitad de las de los mejores métodos competidores. Este resultado demostró que la combinación de grandes conjuntos de datos, computación con GPU e innovaciones arquitectónicas podía liberar el poder representacional de las redes profundas.

== Contribuciones clave ==

* '''Entrenamiento de CNN a gran escala en GPU''': Una de las primeras demostraciones exitosas del entrenamiento de redes convolucionales profundas en GPU, utilizando un modelo dividido entre dos GPU NVIDIA GTX 580 con 3 GB de memoria cada una.
* '''Función de activación ReLU''': Adopción de unidades lineales rectificadas (<math>f(x) = \max(0, x)</math>) en lugar de las activaciones tradicionales sigmoide o tanh, lo que permitió un entrenamiento mucho más rápido de redes profundas.
* '''Aumento de datos''': Uso de traslaciones aleatorias de imágenes, reflexiones horizontales y aumento de color basado en PCA para ampliar artificialmente el conjunto de entrenamiento y reducir el sobreajuste.
* '''Regularización por dropout''': Aplicación de dropout (con probabilidad 0,5) en las capas totalmente conectadas, uno de los primeros usos de esta técnica en una gran red convolucional.
* '''Normalización de respuesta local''': Un esquema de normalización inspirado en la inhibición lateral de las neuronas biológicas, aplicado después de las activaciones ReLU.
* '''Pooling solapado''': Uso de max-pooling con un stride menor que el tamaño del kernel, lo que redujo ligeramente el sobreajuste en comparación con el pooling no solapado.

== Métodos ==

AlexNet consta de ocho capas aprendidas: cinco capas convolucionales seguidas de tres capas totalmente conectadas. La capa final totalmente conectada alimenta un softmax de 1000 vías para producir la distribución de probabilidad de las clases.

La red procesa imágenes RGB de 224x224. La primera capa convolucional aplica 96 kernels de tamaño 11x11 con un stride de 4, reduciendo drásticamente las dimensiones espaciales. Las capas posteriores utilizan kernels más pequeños (5x5 y 3x3). La arquitectura se dividió entre dos GPU, donde cada GPU procesaba la mitad de los mapas de características y la comunicación entre GPU solo se producía en ciertas capas.

La función de activación '''ReLU''' fue una innovación crítica. En comparación con las no linealidades saturantes (sigmoide, tanh) habituales en la época, ReLU permitió que el entrenamiento convergiera aproximadamente seis veces más rápido en la misma arquitectura:

<math>f(x) = \max(0, x)</math>

El '''aumento de datos''' se aplicó de dos formas. La primera extraía parches aleatorios de 224x224 (y sus reflexiones horizontales) de las imágenes de 256x256, aumentando el conjunto de entrenamiento en un factor de 2048. La segunda realizaba una perturbación de color basada en PCA, sumando múltiplos de las componentes principales de los valores de píxeles RGB a cada imagen, reduciendo la tasa de error top-1 en más del 1 %.

El '''dropout''' se aplicó a las salidas de las dos primeras capas totalmente conectadas durante el entrenamiento, poniendo aleatoriamente la salida de cada neurona a cero con probabilidad 0,5. Esto duplicó aproximadamente el número de iteraciones necesarias para converger, pero redujo sustancialmente el sobreajuste.

La red se entrenó utilizando descenso de gradiente estocástico con un tamaño de batch de 128, momento de 0,9 y decaimiento de pesos de 0,0005. La tasa de aprendizaje se inicializó en 0,01 y se redujo manualmente en un factor de 10 cuando el error de validación dejó de mejorar. El entrenamiento tomó aproximadamente entre cinco y seis días en dos GPU NVIDIA GTX 580.

== Resultados ==

En la competición ILSVRC-2012, AlexNet logró:

* '''Tasa de error top-5 del 15,3 %''' en el conjunto de prueba, en comparación con el 26,2 % de la entrada que quedó en segundo lugar (que utilizaba características tradicionales con una SVM). Esta mejora de 10,9 puntos porcentuales no tuvo precedentes en la historia de la competición.
* '''Tasa de error top-1 del 37,5 %''', también sustancialmente por delante de los métodos competidores.

En el conjunto de prueba ILSVRC-2010 (donde las etiquetas eran públicamente disponibles), la red alcanzó tasas de error top-1 y top-5 del 37,5 % y 17,0 % respectivamente, superando los mejores resultados anteriores del 47,1 % y 28,2 %.

El análisis cualitativo de las características aprendidas mostró que la primera capa convolucional aprendió un conjunto de filtros selectivos en frecuencia y orientación, así como filtros específicos de color, que recuerdan a las células simples encontradas en la corteza visual primaria. Las dos rutas de GPU se especializaron de forma diferente: una GPU aprendió en gran medida características independientes del color, mientras que la otra aprendió características específicas de color.

Los autores también demostraron que las características aprendidas por AlexNet se transferían bien a otras tareas, logrando resultados competitivos cuando las características de la última capa se utilizaban con clasificadores simples sobre otros conjuntos de datos.

== Impacto ==

A AlexNet se le atribuye ampliamente el haber encendido la revolución del aprendizaje profundo. Su victoria decisiva en la competición ImageNet de 2012 convenció a la comunidad de visión por computadora —y al campo más amplio de la IA— de que las redes neuronales profundas eran un enfoque viable y poderoso para las tareas de percepción. En menos de dos años, prácticamente todas las entradas competitivas en ImageNet utilizaban redes convolucionales profundas, y la tasa de error top-5 cayó por debajo del rendimiento humano en 2015.

El artículo introdujo o popularizó varias técnicas (ReLU, dropout, entrenamiento en GPU, aumento de datos) que se convirtieron en práctica estándar. Influyó directamente en arquitecturas posteriores como VGGNet, GoogLeNet y ResNet. El uso de GPU para el entrenamiento, pionero en este trabajo, transformó el panorama de hardware para el aprendizaje automático e impulsó el desarrollo de aceleradores de IA especializados.

AlexNet figura sistemáticamente entre los artículos de aprendizaje automático más influyentes jamás publicados y constituye un hito en la historia de la inteligencia artificial.

El éxito del artículo también validó la importancia de los conjuntos de datos etiquetados a gran escala para entrenar redes profundas. El propio conjunto de datos ImageNet, curado por Fei-Fei Li y colaboradores, resultó esencial: sin 1,2 millones de imágenes etiquetadas, no se habría podido aprovechar plenamente la capacidad de la red profunda. Esta percepción impulsó la creación de conjuntos de datos a gran escala en muchos dominios.

La colaboración entre Krizhevsky, Sutskever y Hinton en la Universidad de Toronto ejemplificó los orígenes académicos del renacimiento del aprendizaje profundo, y los tres pasaron a desempeñar papeles centrales en el posterior desarrollo del campo en grandes empresas tecnológicas.

== Véase también ==

* [[Deep Residual Learning for Image Recognition]]
* [[Batch Normalization Accelerating Deep Network Training]]
* [[Dropout A Simple Way to Prevent Overfitting]]

== Referencias ==

* Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). ImageNet Classification with Deep Convolutional Neural Networks. ''Advances in Neural Information Processing Systems 25 (NeurIPS 2012)''.
* Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K., & Fei-Fei, L. (2009). ImageNet: A Large-Scale Hierarchical Image Database. ''CVPR 2009''.
* Simonyan, K. & Zisserman, A. (2015). Very Deep Convolutional Networks for Large-Scale Image Recognition. ''ICLR 2015''.

[[Category:Deep Learning]] [[Category:Research]] [[Category:Research Papers]]

ImageNet Classification with Deep CNNs/es - Revision history

DeployBot: Batch translate ImageNet Classification with Deep CNNs unit 1 -> es