Deep learning/es

Article
Topic area	Machine Learning
Difficulty	Introductory

This page is a translated version of the page Deep learning and the translation is 100% complete.

Other languages:

English
Español
中文

El aprendizaje profundo es un subcampo del aprendizaje automático que utiliza redes neuronales artificiales con muchas capas — y de millones a miles de millones de parámetros — para aprender representaciones jerárquicas directamente a partir de datos en bruto. Constituye la base de la mayor parte de los avances recientes en visión por computadora, procesamiento del lenguaje natural, reconocimiento de voz y descubrimiento científico.

Resumen

El aprendizaje automático clásico se basaba en características diseñadas a mano: un profesional diseñaba estadísticas de píxeles, recuentos de n-gramas o descriptores acústicos, y un modelo relativamente superficial asignaba esas características a las salidas. El aprendizaje profundo elimina ese cuello de botella. Una red neuronal profunda aprende sus propias características capa por capa, donde cada capa sucesiva compone patrones más simples de la capa inferior en conceptos más abstractos.

El calificativo "profundo" se refiere a la profundidad del grafo de cómputo más que a cualquier fidelidad biológica concreta. Los sistemas modernos apilan habitualmente desde decenas hasta centenares de capas y dependen de tres ingredientes acoplados que se hicieron simultáneamente disponibles a comienzos de la década de 2010: grandes conjuntos de datos etiquetados, hardware masivamente paralelo (GPU y, más tarde, TPU) y técnicas de optimización estables. En conjunto hicieron viable entrenar redes cuya capacidad representacional eclipsa todo lo anteriormente factible.

A menudo se atribuye al aprendizaje profundo el haber desplazado a la IA desde sistemas basados en reglas y en ingeniería de características hacia un paradigma de aprendizaje extremo a extremo, en el que un único modelo diferenciable se entrena de forma conjunta para mapear entradas en bruto a las salidas de la tarea.

Conceptos clave

Aprendizaje jerárquico de representaciones — capas sucesivas transforman la entrada en representaciones de creciente abstracción; la red descubre las características en lugar de recibirlas.
Representaciones distribuidas — los conceptos se codifican como patrones de activación a través de muchas unidades, permitiendo una generalización combinatoria que los esquemas one-hot o simbólicos no pueden igualar.
Cómputo diferenciable — cada operación es (casi en todas partes) diferenciable, por lo que los gradientes fluyen a través de todo el modelo y los parámetros se ajustan mediante optimización basada en gradientes.
Entrenamiento extremo a extremo — toda la canalización, desde la entrada en bruto hasta la predicción final, se optimiza frente a una única pérdida, lo que elimina la necesidad de etapas intermedias ajustadas a mano.
Sesgos inductivos a través de la arquitectura — la convolución codifica la equivariancia ante traslaciones, la recurrencia codifica la localidad temporal y la atención codifica la interacción por pares; la elección de la arquitectura inyecta supuestos apropiados para los datos.
Escala — las leyes empíricas de escalado muestran que la pérdida disminuye de manera predecible como una potencia del tamaño del modelo, del tamaño del conjunto de datos y del cómputo, lo que motiva modelos cada vez más grandes.

Historia

El aprendizaje profundo tiene raíces que preceden con mucho a su dominio actual. El perceptrón (Rosenblatt, 1958) y los primeros modelos multicapa de la década de 1960 establecieron la abstracción básica de neurona, pero estaban limitados por la falta de un procedimiento eficaz para entrenar capas ocultas. La reinvención y popularización de la retropropagación por Rumelhart, Hinton y Williams en 1986 hizo viable el entrenamiento multicapa, y la LeNet de Yann LeCun (1989, refinada a lo largo de los años noventa) demostró el aprendizaje extremo a extremo de dígitos manuscritos con una red convolucional.

Durante la década de 1990 y los primeros años 2000, las redes neuronales quedaron en gran medida eclipsadas por las máquinas de vectores de soporte, los métodos de núcleo y los modelos gráficos probabilísticos. El interés se renovó con los trabajos sobre redes de creencia profundas y preentrenamiento no supervisado (Hinton, Salakhutdinov, Bengio, hacia 2006), que mostraron que la profundidad era manejable si la inicialización se trataba con cuidado.

El punto de inflexión decisivo fue AlexNet (Krizhevsky, Sutskever, Hinton, 2012), que ganó el desafío ImageNet por un amplio margen y demostró la potencia práctica de las redes convolucionales entrenadas en GPU con Dropout y objetivos de entropía cruzada. Los años siguientes vieron un rápido progreso arquitectónico: VGG y GoogLeNet (2014), ResNet (He et al. 2015) y sus conexiones residuales, modelos secuencia a secuencia con atención y el transformer (Vaswani et al. 2017). El transformer, a su vez, posibilitó los grandes modelos de lenguaje (BERT 2018, GPT-2 2019, GPT-3 2020) y los sistemas multimodales modernos.

Enfoques principales

Un modelo profundo típico es una función parametrizada $f_\theta : \mathcal{X} \to \mathcal{Y}$ que se entrena minimizando un riesgo empírico:

\mathcal{L}(\theta) = \frac{1}{N}\sum_{i=1}^{N} \ell\bigl(f_\theta(x_i),\, y_i\bigr) + \lambda\, R(\theta)

donde $\ell$ es una pérdida por ejemplo (p. ej. entropía cruzada para clasificación, error cuadrático para regresión) y $$ R $$ es un regularizador opcional. Los gradientes $\nabla_\theta \mathcal{L}$ se calculan mediante retropropagación y los parámetros se actualizan con descenso de gradiente estocástico o métodos adaptativos como Adam:

\theta_{t+1} = \theta_t - \eta\, \widehat{\nabla}_\theta \mathcal{L}(\theta_t)

Las familias arquitectónicas dominantes son:

Redes convolucionales — extractores de características equivariantes ante traslaciones para datos con estructura de cuadrícula; fundamentales en visión.
Redes recurrentes (LSTM, GRU) — modelos con estado para secuencias, centrales en los primeros trabajos de habla y lenguaje.
Transformers — construidos en torno al mecanismo de atención, donde las salidas se calculan como $\operatorname{Attention}(Q,K,V)=\operatorname{softmax}(QK^\top/\sqrt{d_k})V$ ; hoy son la opción por defecto para el lenguaje y, cada vez más, también para visión y audio.
Redes neuronales sobre grafos — generalizan la convolución a nodos y aristas, y se utilizan para moléculas, redes de citas y grafos sociales.
Autocodificadores y autocodificadores variacionales — pares codificador–decodificador entrenados para comprimir y reconstruir, útiles para el aprendizaje de representaciones y la generación.
Redes generativas adversarias — un generador y un discriminador entrenados en un juego minimax para producir muestras realistas.
Modelos de difusión — modelos generativos que aprenden a invertir un proceso gradual de adición de ruido, dominantes en la síntesis moderna de imagen y vídeo.

Un entrenamiento eficaz depende de técnicas auxiliares: una inicialización cuidadosa (Xavier, He), normalización (por lotes, por capas, por grupos), regularización (Dropout, decaimiento de pesos, aumento de datos) y planificaciones de la tasa de aprendizaje (calentamiento, decaimiento cosenoidal). Cada vez más se utilizan objetivos autosupervisados y de preentrenamiento para aprender representaciones de propósito general a partir de datos no etiquetados, que luego se adaptan a tareas posteriores mediante ajuste fino o aprendizaje por transferencia.

Una taxonomía aproximada de los regímenes de entrenamiento:

Régimen	Señal	Uso típico
Supervisado	pares etiquetados $$ (x, y) $$	clasificación de imágenes, traducción automática
Autosupervisado	tarea pretexto derivada únicamente de $$ x $$	preentrenamiento de modelos de lenguaje y de visión
No supervisado / generativo	verosimilitud de $$ x $$	autocodificadores, difusión, GAN
Por refuerzo	recompensa escalar de un entorno	juegos, robótica, RLHF para alineamiento

Conexiones

El aprendizaje profundo se sitúa en la intersección de varios campos consolidados. Como forma de aprendizaje automático, hereda el equilibrio sesgo–varianza, la teoría de la generalización y las preocupaciones por el sobreajuste. Está construido sobre redes neuronales y depende críticamente de retropropagación para la asignación de crédito y de descenso de gradiente (en particular descenso de gradiente estocástico) para la optimización. Las cabezas de clasificación suelen combinar una salida softmax con una pérdida de entropía cruzada, mientras que otras pérdidas se eligen para ajustarse a la estructura de la tarea.

Arquitectónicamente, las CNN especializan el marco general para datos espaciales, las RNN lo hacen para datos secuenciales, y los Transformers para datos generales con estructura de conjunto y de secuencia mediante atención. En lenguaje y búsqueda, los embeddings de palabras fueron una demostración temprana de que los modelos profundos podían aprender representaciones continuas significativas de símbolos discretos. El aprendizaje por refuerzo moderno, los sistemas de recomendación y muchas áreas de la ciencia computacional dependen hoy de los modelos profundos como aproximadores de funciones intercambiables.

Véase también

Referencias

LeCun, Y., Bengio, Y. and Hinton, G. (2015). "Deep learning". Nature, 521, 436–444.
Goodfellow, I., Bengio, Y. and Courville, A. (2016). Deep Learning. MIT Press.
Rumelhart, D. E., Hinton, G. E. and Williams, R. J. (1986). "Learning representations by back-propagating errors". Nature, 323, 533–536.
Krizhevsky, A., Sutskever, I. and Hinton, G. E. (2012). "ImageNet Classification with Deep Convolutional Neural Networks". NeurIPS.
He, K., Zhang, X., Ren, S. and Sun, J. (2016). "Deep Residual Learning for Image Recognition". CVPR.
Vaswani, A. et al. (2017). "attention Is All You Need". NeurIPS.
Schmidhuber, J. (2015). "Deep Learning in Neural Networks: An Overview". Neural Networks, 61, 85–117.