Gaussian Processes/es

Article
Topic area	Bayesian Methods
Prerequisites	Linear Regression

This page is a translated version of the page Gaussian Processes and the translation is 100% complete.

Other languages:

English
Español
中文

Resumen

Un proceso gaussiano (GP) es una distribución sobre funciones tal que cualquier colección finita de valores de la función tiene una distribución gaussiana conjunta. Los GP proporcionan un enfoque bayesiano no paramétrico y bien fundamentado para tareas de regresión, clasificación y otras tareas de supervised learning: en lugar de ajustar un vector de parámetros de dimensión fija, el modelo coloca una distribución a priori directamente sobre el espacio de funciones y la actualiza a una distribución a posterior condicionada a los datos observados.^[1] Las predicciones vienen acompañadas de estimaciones calibradas de incertidumbre derivadas del posterior, lo que hace que los GP resulten atractivos para aplicaciones como la optimización bayesiana, la geoestadística y el modelado sustituto de simuladores costosos.

Comparado con modelos paramétricos como Linear Regression o las redes neuronales prealimentadas, un GP no se compromete con una forma funcional fija; el inductive bias se codifica en una función núcleo (de covarianza) en lugar de en una base. Esta flexibilidad conlleva un coste computacional cúbico en el número de puntos de entrenamiento, lo que ha motivado un amplio cuerpo de trabajo sobre inferencia dispersa y aproximada.

Intuición

Una distribución gaussiana estándar sobre un vector especifica, para cada coordenada, una media y cómo dicha coordenada covaría con todas las demás. Un proceso gaussiano generaliza esta idea de un vector finito a una colección infinita indexada por entradas $x \in \mathcal{X}$ : coloca una distribución gaussiana sobre los valores de la función en cualquier conjunto finito de puntos. Si se muestrea una función de un GP y se evalúa en $$ n $$ entradas, se obtiene un vector aleatorio gaussiano $$ n $$ -dimensional cuya media y covarianza están determinadas por las funciones de media y de kernel del GP.

El núcleo codifica supuestos sobre suavidad, periodicidad, escalas de longitud y amplitud. Dos entradas cercanas según el núcleo producen salidas altamente correlacionadas; dos entradas alejadas producen salidas casi independientes. El condicionamiento sobre los datos observados fija el posterior en los puntos de entrenamiento y permite que la incertidumbre crezca suavemente al alejarse de ellos, recuperando el prior en regiones sin observaciones cercanas.

Definición formal

Un proceso gaussiano sobre un dominio de entrada $\mathcal{X}$ es un proceso estocástico $\{f(x) : x \in \mathcal{X}\}$ tal que, para cualquier conjunto finito de entradas $x_1, \ldots, x_n \in \mathcal{X}$ , el vector aleatorio $(f(x_1), \ldots, f(x_n))$ es gaussiano multivariado. Un GP queda completamente especificado por una función de media $m(x) = \mathbb{E}[f(x)]$ y una función de covarianza (o núcleo) $k(x, x') = \mathbb{E}[(f(x) - m(x))(f(x') - m(x'))]$ , escrita

$f(\cdot) \sim \mathcal{GP}(m(\cdot), k(\cdot, \cdot)).$

Para que el núcleo defina un GP válido, debe ser simétrico y semidefinido positivo: para cualesquiera entradas y pesos, la matriz de Gram $K_{ij} = k(x_i, x_j)$ debe ser semidefinida positiva. La función de media suele fijarse en cero tras centrar los objetivos, de modo que la expresividad del modelo reside enteramente en el núcleo.

Núcleos

El núcleo determina qué tipo de funciones son a priori plausibles. Las elecciones habituales incluyen:

Exponencial cuadrática (RBF): $k(x, x') = \sigma_f^2 \exp\!\left(-\tfrac{1}{2 \ell^2} \lVert x - x' \rVert^2 \right)$ , que produce funciones infinitamente diferenciables y suaves controladas por una escala de longitud $\ell$ y una amplitud $\sigma_f$ .
Matern: una familia parametrizada por una suavidad $\nu$ , que recupera la RBF cuando $\nu \to \infty$ y produce muestras más rugosas para $\nu$ pequeños (p. ej. $\nu = 3/2$ o $$ 5/2 $$ ). A menudo se prefiere a la RBF al modelar procesos físicos.
Periódico: $k(x, x') = \sigma_f^2 \exp\!\left(-\tfrac{2}{\ell^2} \sin^2(\pi (x - x') / p)\right)$ , usado cuando la función subyacente tiene periodo $$ p $$ .
Lineal: $k(x, x') = \sigma_f^2\, x^\top x'$ , que hace que el GP sea equivalente a la regresión lineal bayesiana en el espacio de características original.
Compuestos: sumas y productos de núcleos base combinan supuestos; por ejemplo, una suma de un núcleo periódico y uno RBF modela estacionalidad más una tendencia lenta.

Elegir un núcleo y sus hiperparámetros es la decisión de modelado central en la regresión con GP, y resulta análoga al diseño de arquitectura y de características en los modelos paramétricos.

Inferencia y predicción

Considérese una regresión con ruido y observaciones $y_i = f(x_i) + \varepsilon_i$ , donde $\varepsilon_i \sim \mathcal{N}(0, \sigma_n^2)$ son i.i.d. gaussianas. Apílense las entradas de entrenamiento en $$ X $$ , los objetivos en $\mathbf{y}$ , y escríbase la matriz de núcleo $$ K = K(X, X) $$ . Colóquese una distribución a priori GP de media cero sobre $$ f $$ e intégrense los valores latentes de la función. La distribución conjunta de los objetivos de entrenamiento y de una predicción de prueba $$ f_* $$ en $$ x_* $$ es gaussiana, por lo que el posterior también es gaussiano con media y varianza de forma cerrada:

$\bar{f}_* = k_*^\top (K + \sigma_n^2 I)^{-1} \mathbf{y},$

$\mathbb{V}[f_*] = k(x_*, x_*) - k_*^\top (K + \sigma_n^2 I)^{-1} k_*,$

donde $$ k_* = K(X, x_*) $$ . La media es un suavizador lineal de los objetivos, y la varianza se reduce cerca de los puntos de entrenamiento y crece al alejarse de ellos. En la práctica, la inversa se reemplaza por una factorización de Cholesky de $K + \sigma_n^2 I$ por estabilidad numérica.

Para verosimilitudes no gaussianas (p. ej. clasificación con una verosimilitud de Bernoulli), el posterior ya no es gaussiano. Aproximaciones como la aproximación de Laplace, la propagación de esperanza o la inferencia variacional reemplazan la forma cerrada exacta.

Aprendizaje de hiperparámetros

Los hiperparámetros del núcleo $\theta$ (escalas de longitud, amplitudes, varianza del ruido) suelen aprenderse maximizando la log-verosimilitud marginal,

$\log p(\mathbf{y} \mid X, \theta) = -\tfrac{1}{2} \mathbf{y}^\top (K_\theta + \sigma_n^2 I)^{-1} \mathbf{y} - \tfrac{1}{2} \log |K_\theta + \sigma_n^2 I| - \tfrac{n}{2} \log 2\pi.$

El primer término recompensa el ajuste a los datos, el segundo penaliza la complejidad del modelo y el tercero es constante. Esta navaja de Occam automática equilibra flexibilidad frente a parsimonia sin necesidad de un conjunto de validación aparte, aunque el objetivo no es convexo y puede tener múltiples óptimos locales. Una alternativa totalmente bayesiana coloca un hiperpriori sobre $\theta$ e integra mediante cadenas de Markov de Monte Carlo, lo cual es más lento pero cuantifica la incertidumbre de los hiperparámetros.

Coste computacional y variantes escalables

La inferencia exacta de un GP requiere almacenar y factorizar una matriz de núcleo $n \times n$ , con un coste de $\mathcal{O}(n^3)$ en tiempo y $\mathcal{O}(n^2)$ en memoria. Esto hace que los GP estándar resulten poco prácticos más allá de unos pocos miles de puntos de entrenamiento. Las variantes escalables reducen el coste explotando estructura o aproximaciones:

Métodos dispersos / de puntos inductores resumen los datos de entrenamiento con $m \ll n$ entradas inductoras, reduciendo el coste a $\mathcal{O}(n m^2)$ . La formulación variacional de Titsias y la variante estocástica SVGP son ampliamente utilizadas.^[2]^[3]
Interpolación estructurada de núcleo (KISS-GP) y trucos de Toeplitz / Kronecker explotan entradas en rejilla para reducir aún más el coste.
Aproximaciones locales y de producto de expertos particionan el espacio de entrada y combinan GP locales.
Características aleatorias de Fourier aproximan núcleos estacionarios mediante mapas de características de dimensión finita, convirtiendo el GP en regresión lineal bayesiana en el espacio de características.
Núcleos profundos componen un extractor de características paramétrico (a menudo una red neuronal) con un núcleo base, combinando la cuantificación de incertidumbre del GP con representaciones aprendidas.

La aproximación adecuada depende del tamaño del conjunto de datos, de la geometría de las entradas y de si se necesita la covarianza posterior además de la media.

Comparaciones con modelos relacionados

Un GP con núcleo lineal recupera la regresión lineal bayesiana; un GP con un núcleo de características fijas $k(x, x') = \phi(x)^\top \Sigma_p \phi(x')$ recupera la regresión lineal bayesiana en el espacio de características $\phi$ . A la inversa, una red neuronal bayesiana con una capa oculta de anchura infinita y priores gaussianos sobre los pesos converge a un GP con un núcleo determinado por la función de activación, una conexión que se extiende mediante el núcleo tangente neuronal para redes profundas. En comparación con la regresión por vectores de soporte, los GP comparten la maquinaria de núcleos pero producen un posterior completo en lugar de una única función de regresión; en comparación con bosques aleatorios y boosting de gradiente, los GP suelen ofrecer una incertidumbre mejor calibrada a cambio de un peor escalado.

Limitaciones

La limitación práctica dominante es el escalado cúbico, que restringe los GP exactos a conjuntos de datos pequeños. Las aproximaciones relajan esta restricción, pero introducen sus propios compromisos sesgo-varianza y carga de ajuste. Los GP son sensibles a la elección del núcleo: un núcleo mal especificado puede llevar a predicciones excesivamente confiadas o mal calibradas, y los núcleos estacionarios estándar tienen dificultades con entradas de alta dimensionalidad porque las escalas de longitud se vuelven difíciles de aprender y la maldición de la dimensionalidad erosiona el prior de suavidad. Las verosimilitudes no gaussianas requieren inferencia aproximada, y restricciones como la monotonicidad o la no negatividad no se manejan de forma nativa. Por último, aunque la verosimilitud marginal ofrece un criterio elegante de selección de modelos, puede favorecer núcleos demasiado flexibles cuando el modelo de ruido está mal especificado.

Referencias

↑ Rasmussen, C. E. and Williams, C. K. I., Gaussian Processes for Machine Learning, MIT Press, 2006.
↑ Titsias, M., "Variational Learning of Inducing Variables in Sparse Gaussian Processes", AISTATS, 2009.
↑ Hensman, J., Fusi, N. and Lawrence, N. D., "Gaussian Processes for Big Data", UAI, 2013.

[1] Rasmussen, C. E. and Williams, C. K. I., Gaussian Processes for Machine Learning, MIT Press, 2006.

[2] Titsias, M., "Variational Learning of Inducing Variables in Sparse Gaussian Processes", AISTATS, 2009.

[3] Hensman, J., Fusi, N. and Lawrence, N. D., "Gaussian Processes for Big Data", UAI, 2013.

[1]

[2]

[3]