Image Classification/es

Article
Topic area	Computer Vision
Prerequisites	Convolutional Neural Networks, Cross-Entropy Loss, Backpropagation

This page is a translated version of the page Image Classification and the translation is 100% complete.

Other languages:

English
Español
中文

Visión general

La clasificación de imágenes es la tarea de asignar una etiqueta tomada de un conjunto fijo de categorías a una imagen de entrada. Es uno de los problemas canónicos de aprendizaje supervisado en visión por computador y constituye el referente fundacional con el que se mide la mayoría de los métodos de aprendizaje de representaciones para datos visuales. Dada una imagen, un clasificador devuelve una sola categoría (clasificación de etiqueta única) o un conjunto de categorías (clasificación multietiqueta) extraídas de una taxonomía predefinida. La tarea sustenta aplicaciones aguas abajo que incluyen la detección de objetos, la segmentación semántica, el diagnóstico por imagen médica y la moderación de contenido, ya que las redes troncales utilizadas en esos problemas se preentrenan típicamente como clasificadores de imágenes sobre grandes corpus etiquetados.

La era moderna de la clasificación de imágenes comenzó con el éxito de las redes neuronales convolucionales profundas en el ImageNet Large Scale Visual Recognition Challenge de 2012, que desplazó a las canalizaciones de características diseñadas a mano como paradigma dominante. El progreso posterior en arquitecturas, optimización, regularización y escala de datos ha llevado la exactitud top-1 en ImageNet desde aproximadamente el 63% hasta más del 90%, al tiempo que ha extendido el alcance práctico de los clasificadores de imágenes desde puntos de referencia controlados hasta entornos a escala web y multidominio.

Formulación del problema

Sea $\mathcal{X}$ el espacio de imágenes de entrada (típicamente tensores en $\mathbb{R}^{H \times W \times C}$ , donde $$ H $$ es la altura, $$ W $$ el ancho y $$ C $$ el número de canales) y sea $\mathcal{Y} = \{1, 2, \ldots, K\}$ un conjunto finito de etiquetas con $$ K $$ clases. Un clasificador es una función $f_\theta: \mathcal{X} \to \Delta^{K-1}$ parametrizada por $\theta$ que asigna a una imagen una distribución de probabilidad sobre las etiquetas, donde $\Delta^{K-1}$ es el simplex de probabilidad. La etiqueta predicha es

$\hat{y} = \arg\max_{k \in \mathcal{Y}} f_\theta(x)_k.$

Dado un conjunto de datos etiquetados $\mathcal{D} = \{(x_i, y_i)\}_{i=1}^N$ tomado i.i.d. de una distribución desconocida $$ p(x, y) $$ , el entrenamiento minimiza la pérdida esperada, típicamente la entropía cruzada categórica:

$\mathcal{L}(\theta) = -\frac{1}{N} \sum_{i=1}^N \log f_\theta(x_i)_{y_i}.$

La optimización se lleva a cabo mediante variantes estocásticas del descenso por gradiente como SGD con momento o AdamW, con los gradientes calculados por retropropagación a través de la red.

Enfoques clásicos

Antes de la era del aprendizaje profundo, las canalizaciones de clasificación de imágenes estaban dominadas por sistemas en dos etapas. La primera etapa extraía características diseñadas a mano como SIFT, HOG o histogramas de color; la segunda etapa aplicaba un clasificador como una máquina de vectores de soporte o un bosque aleatorio sobre esas características. La representación Bag-of-Visual-Words, que cuantizaba descriptores locales en un vocabulario fijo y producía incrustaciones de imagen en estilo histograma, fue un enfoque previo al aprendizaje profundo particularmente influyente. Estos métodos lograban resultados sólidos en puntos de referencia pequeños y bien curados, pero tenían dificultades para escalar a la diversidad de las imágenes naturales, ya que el diseño de características requería una experiencia de dominio considerable y rara vez se transfería entre dominios.

Enfoques de aprendizaje profundo

Las redes neuronales profundas aprenden conjuntamente el extractor de características y el clasificador a partir de píxeles en bruto, eliminando la necesidad de características diseñadas a mano. Dominan dos familias de arquitecturas.

Las redes neuronales convolucionales explotan la equivarianza ante traslación y la conectividad local mediante pilas de filtros convolucionales aprendidos intercalados con no linealidades puntuales y submuestreo espacial. Diseños influyentes incluyen AlexNet, VGG, ResNet (que introdujo las conexiones residuales para permitir redes muy profundas), Inception y EfficientNet (que escala conjuntamente la profundidad, el ancho y la resolución). El sesgo inductivo convolucional hace que estos modelos sean eficientes en datos y se adapten bien a imágenes de resolución variable.

Los Vision Transformers (ViT) reemplazan las convoluciones con autoatención sobre secuencias de parches de imagen. Cada imagen de entrada se divide en una cuadrícula de parches no superpuestos, se incrusta linealmente, se aumenta con codificaciones posicionales y se procesa mediante una pila de bloques de codificador Transformer. Los ViT suelen requerir conjuntos de datos de preentrenamiento más grandes para igualar a las CNN en ImageNet entrenadas desde cero, pero destacan a muy gran escala y son más fáciles de escalar a entornos multimodales como CLIP. Los diseños híbridos (Swin Transformer, ConvNeXt) combinan componentes convolucionales y basados en atención para recuperar la eficiencia en datos sin renunciar a la escalabilidad.

Entrenamiento

Entrenar en la práctica un clasificador de imágenes competitivo combina varios ingredientes más allá de la pérdida y el optimizador. La aumentación de datos amplía el conjunto de entrenamiento efectivo aplicando transformaciones que preservan la etiqueta, como recorte aleatorio, volteo horizontal, perturbaciones de color, Mixup y CutMix. Las técnicas de regularización que incluyen decaimiento de pesos, Dropout y suavizado de etiquetas reducen el sobreajuste a la distribución de entrenamiento. La normalización por lotes o la normalización por capa estabiliza la optimización de redes profundas. Los planificadores de tasa de aprendizaje como el recocido cosenoidal, a menudo combinados con el calentamiento de la tasa de aprendizaje, son estándar.

El aprendizaje por transferencia es ubicuo: en lugar de entrenar desde una inicialización aleatoria, los profesionales suelen inicializar la red troncal a partir de un modelo preentrenado en un gran conjunto de datos como ImageNet, JFT o LAION, y luego lo ajustan a la tarea objetivo. Esto reduce drásticamente los datos y el cómputo necesarios para alcanzar una buena exactitud en pequeños conjuntos de datos aguas abajo. Los enfoques de aprendizaje autosupervisado, que incluyen los métodos contrastivos (SimCLR, MoCo) y el modelado de imágenes enmascaradas (MAE, BEiT), proporcionan señales de preentrenamiento a partir de imágenes sin etiquetar, reduciendo aún más la dependencia de los datos etiquetados.

Evaluación

La métrica estándar es la exactitud top- $$ k $$ : la fracción de ejemplos de prueba para los que la etiqueta verdadera aparece entre las $$ k $$ clases con mayor puntuación predicha. La exactitud top-1 y la exactitud top-5 se reportan en ImageNet por convención. Para conjuntos de datos desbalanceados, la exactitud balanceada o el puntaje F1 por clase son más informativos. La calibración de las predicciones también se evalúa mediante el error de calibración esperado, dado que se sabe que los clasificadores profundos producen probabilidades sobreconfiadas incluso cuando son precisos.

Los conjuntos de datos de referencia abarcan un rango de dificultad y escala: MNIST y CIFAR-10/100 son puntos de referencia de juguete a pequeña escala; ImageNet-1k (1,28 millones de imágenes, 1000 clases) es el punto de referencia de escala media de facto; ImageNet-21k, JFT-300M/3B y LAION proporcionan corpus a escala de preentrenamiento. Los puntos de referencia de robustez, como ImageNet-C (imágenes corrompidas), ImageNet-A (imágenes naturales filtradas adversarialmente) e ImageNet-R (cambio de rendición), miden la generalización más allá de la distribución de entrenamiento.

Variantes y extensiones

Varias variantes amplían la configuración básica de etiqueta única. La clasificación multietiqueta predice un subconjunto de $\mathcal{Y}$ por imagen, tratando cada etiqueta como un problema binario independiente con la pérdida de entropía cruzada binaria. La clasificación jerárquica aprovecha un árbol de etiquetas (como WordNet para ImageNet) para fomentar errores razonables cuando la etiqueta top-1 es incorrecta. La clasificación de grano fino (especies de aves, modelos de coches) aborda categorías que difieren solo en sutiles rasgos locales, a menudo utilizando mecanismos basados en atención o partes. El aprendizaje con pocos ejemplos y el aprendizaje sin ejemplos se centran en escenarios donde algunas clases tienen muy pocos o ningún ejemplo etiquetado en tiempo de entrenamiento; los modelos de lenguaje-visión modernos como CLIP permiten la clasificación sin ejemplos emparejando incrustaciones de imágenes con descripciones de clase en lenguaje natural.

Limitaciones

Los clasificadores de imágenes heredan varios modos de fallo bien documentados. Son sensibles al cambio de distribución: la exactitud en ImageNet no predice de forma fiable la exactitud en dominios novedosos, condiciones de iluminación o estilos de renderizado distintos. Son vulnerables a los ejemplos adversariales que aplican perturbaciones imperceptibles a nivel de píxel para invertir las predicciones. Correlaciones espurias entre las etiquetas y el contexto del fondo (por ejemplo, vacas sobre hierba, nieve con huskies) pueden dirigir las predicciones aun cuando el primer plano sea poco informativo. El sesgo del conjunto de datos se propaga a través del clasificador y a los sistemas aguas abajo, planteando preocupaciones de equidad, particularmente en tareas de clasificación relacionadas con rostros o personas. Por último, incluso los clasificadores muy precisos suelen estar mal calibrados, requiriendo métodos post hoc como el escalado por temperatura para obtener estimaciones de probabilidad fiables.

Estas limitaciones motivan una investigación activa en entrenamiento robusto, detección fuera de distribución, equidad algorítmica y cuantificación de la incertidumbre, así como en la integración de los clasificadores de imágenes en sistemas multimodales y autosupervisados más amplios que anclen las representaciones visuales en el lenguaje y la estructura.

Referencias

^[1] ^[2] ^[3] ^[4] ^[5]

↑ Krizhevsky, A., Sutskever, I., and Hinton, G. ImageNet Classification with Deep Convolutional Neural Networks. NeurIPS, 2012.
↑ He, K., Zhang, X., Ren, S., and Sun, J. Deep Residual Learning for Image Recognition. CVPR, 2016.
↑ Dosovitskiy, A. et al. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR, 2021.
↑ Russakovsky, O. et al. ImageNet Large Scale Visual Recognition Challenge. International Journal of Computer Vision, 2015.
↑ Radford, A. et al. Learning Transferable Visual Models From Natural Language Supervision. ICML, 2021.

[1] Krizhevsky, A., Sutskever, I., and Hinton, G. ImageNet Classification with Deep Convolutional Neural Networks. NeurIPS, 2012.

[2] He, K., Zhang, X., Ren, S., and Sun, J. Deep Residual Learning for Image Recognition. CVPR, 2016.

[3] Dosovitskiy, A. et al. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR, 2021.

[4] Russakovsky, O. et al. ImageNet Large Scale Visual Recognition Challenge. International Journal of Computer Vision, 2015.

[5] Radford, A. et al. Learning Transferable Visual Models From Natural Language Supervision. ICML, 2021.

[1]

[2]

[3]

[4]

[5]