LIME Explanations/es

Article
Topic area	Interpretability
Prerequisites	Machine Learning, Linear Regression, Feature Importance

This page is a translated version of the page LIME Explanations and the translation is 100% complete.

Other languages:

English
Español
中文

Resumen

Las Explicaciones Locales Interpretables Independientes del Modelo (LIME) constituyen una técnica para explicar las predicciones de cualquier clasificador o regresor mediante una aproximación local con un modelo subrogado interpretable. Introducido por Ribeiro, Singh y Guestrin en 2016, LIME trata el modelo bajo inspección como una caja negra y lo sondea con muestras perturbadas en torno a una única entrada de interés, ajustando luego un modelo lineal disperso cuyos coeficientes describen qué características impulsaron la predicción hacia una clase determinada o la alejaron de ella. Dado que el subrogado se ajusta únicamente en un pequeño vecindario de la instancia que se explica, LIME no intenta caracterizar el comportamiento global del modelo; produce una explicación por predicción, y predicciones distintas del mismo modelo pueden explicarse mediante subconjuntos diferentes de características.

LIME se ha convertido en uno de los métodos de explicación post hoc más utilizados en Machine Learning aplicado, en particular en ámbitos como la atención sanitaria, la calificación crediticia y la moderación de contenidos, donde las partes interesadas necesitan una justificación por instancia en lugar de un resumen global. Es independiente del modelo, lo que significa que funciona con redes neuronales, árboles potenciados por gradiente, máquinas de vectores de soporte o cualquier predictor expuesto a través de una probabilidad o función de puntuación, y dispone de variantes adaptadas a entradas tabulares, de texto y de imagen.

Intuición

La intuición central detrás de LIME es que incluso los modelos altamente no lineales son aproximadamente lineales en un vecindario suficientemente pequeño. Si extraemos muestras cercanas a la instancia que queremos explicar y observamos cómo cambian las predicciones del modelo, podemos ajustar un modelo lineal simple que imite el comportamiento del modelo de caja negra en ese vecindario. Los coeficientes de este modelo lineal local sirven como explicación: los coeficientes positivos indican características que aumentaron la probabilidad predicha de la clase, y los negativos, características que la disminuyeron.

Una decisión clave de diseño en LIME es la representación utilizada para el subrogado. La entrada original puede ser de alta dimensión y continua, lo que dificulta su interpretación directa, por lo que LIME la asigna a una representación interpretable de características binarias. Para texto, cada característica es la presencia o ausencia de un token; para imágenes, es la presencia o ausencia de un superpíxel; para datos tabulares, es la pertenencia a un intervalo discretizado de una columna. El modelo subrogado opera sobre estas características binarias, garantizando que cada coeficiente se corresponda con algo a lo que un humano pueda dar nombre y sobre lo que pueda razonar.

Formulación

Sea $f : \mathcal{X} \to \mathbb{R}$ el modelo de caja negra, donde $$ f(x) $$ es la probabilidad o puntuación predicha para una clase de interés. Sea $x \in \mathcal{X}$ la instancia que se desea explicar y sea $x' \in \{0,1\}^{d'}$ su representación en el espacio interpretable. LIME define una clase $$ G $$ de modelos interpretables (típicamente modelos lineales dispersos), una medida de proximidad $\pi_x$ que pondera las muestras según su cercanía a $$ x $$ , y una medida de complejidad $\Omega(g)$ que penaliza los modelos demasiado complejos para ser legibles por un humano. La explicación es el modelo

$\xi(x) = \arg\min_{g \in G} \mathcal{L}(f, g, \pi_x) + \Omega(g),$

donde $\mathcal{L}$ es una pérdida sensible a la localidad que mide cuán bien $$ g $$ aproxima a $$ f $$ en el vecindario inducido por $\pi_x$ . En la práctica, $\mathcal{L}$ es un error cuadrático ponderado,

$\mathcal{L}(f, g, \pi_x) = \sum_{z, z'} \pi_x(z) \, \big( f(z) - g(z') \big)^2,$

evaluado sobre muestras perturbadas $$ z' $$ extraídas en torno a $$ x' $$ , siendo $$ z $$ el punto correspondiente en el espacio de entrada original. La proximidad $\pi_x(z) = \exp(-D(x, z)^2 / \sigma^2)$ emplea un núcleo exponencial sobre una distancia $$ D $$ apropiada para la modalidad de entrada (distancia coseno para texto, L2 para características tabulares en un espacio normalizado). El término de complejidad $\Omega(g)$ habitualmente acota el número de coeficientes no nulos mediante L1 Regularization o un presupuesto explícito de características $$ K $$ , a menudo impuesto con la trayectoria del Lasso o un procedimiento de selección hacia adelante.

Algoritmo

El algoritmo estándar de LIME procede como sigue para una instancia $$ x $$ :

Convertir $$ x $$ a su representación interpretable $$ x' $$ .
Muestrear $$ N $$ perturbaciones $z'_i \in \{0,1\}^{d'}$ , cada una obtenida desactivando uniformemente un subconjunto aleatorio de características de $$ x' $$ .
Asignar cada $$ z'_i $$ de vuelta al espacio de características original para producir $$ z_i $$ : para texto, eliminar los tokens correspondientes; para imágenes, sustituir los superpíxeles enmascarados por un color de referencia; para datos tabulares, muestrear valores de reemplazo a partir de la distribución de entrenamiento de cada columna.
Consultar el modelo de caja negra para obtener $$ f(z_i) $$ para cada muestra perturbada.
Calcular los pesos de proximidad $\pi_x(z_i)$ .
Ajustar un modelo lineal disperso ponderado $$ g $$ sobre el conjunto de datos $\{(z'_i, f(z_i), \pi_x(z_i))\}_{i=1}^N$ , seleccionando como máximo $$ K $$ características.
Devolver los coeficientes de $$ g $$ como explicación.

Los valores típicos son $N \in [1000, 5000]$ muestras y $K \in [5, 15]$ características. El número de consultas al modelo escala linealmente con $$ N $$ , que constituye el coste dominante cuando el modelo de caja negra es costoso de evaluar.

Variantes

Varias extensiones de LIME abordan limitaciones de la formulación original. SP-LIME (LIME de selección submodular) elige un pequeño conjunto de instancias representativas de modo que sus explicaciones cubran conjuntamente las características más importantes utilizadas globalmente por el modelo; plantea la selección como un problema de maximización submodular resuelto mediante un algoritmo voraz. Anchors sustituye el subrogado lineal por reglas IF-THEN de alta precisión que se cumplen con una confianza especificada por el usuario en el vecindario local; esto ofrece garantías más nítidas, pero su cómputo es más costoso. KernelSHAP reformula la pérdida de LIME con un núcleo y una regularización específicos que hacen que los coeficientes resultantes sean iguales a los Shapley Values, unificando LIME con la Feature Attribution cooperativa de teoría de juegos bajo un único estimador. ALIME y LIME-SUP proponen una construcción determinista del vecindario o una partición supervisada para reducir la varianza de las explicaciones entre ejecuciones.

Comparación con métodos relacionados

LIME se inscribe en una familia más amplia de métodos de Feature Attribution post hoc a nivel de instancia. Comparado con los métodos basados en gradientes, como Saliency Maps o Integrated Gradients, LIME no requiere acceso a los componentes internos del modelo ni diferenciabilidad, lo que le permite explicar modelos no diferenciables como los bosques aleatorios, a costa de necesitar muchas pasadas hacia adelante por explicación. En comparación con los Shapley Values calculados de forma exacta, LIME es mucho más barato, pero sus coeficientes están sesgados por la elección del núcleo y de la distribución de muestreo, y no satisfacen el axioma de aditividad que define las atribuciones de Shapley. Frente a subrogados globales como la destilación en árboles de decisión, LIME proporciona explicaciones más finas y específicas por instancia, pero no puede resumir el modelo en su conjunto.

Limitaciones

Las explicaciones de LIME pueden ser inestables: dado que las perturbaciones se muestrean al azar y el subrogado se reajusta en cada ocasión, dos ejecuciones sobre la misma instancia pueden devolver conjuntos de características distintos, especialmente cuando $$ N $$ es pequeño o cuando las características están altamente correlacionadas. La elección del ancho de núcleo $\sigma$ define implícitamente qué cuenta como vecindario local e influye fuertemente en qué características aparecen en la explicación; no existe un único valor con base de principios, y pequeños cambios en $\sigma$ pueden invertir el signo de las atribuciones. Muestrear perturbaciones de una distribución binaria uniforme puede generar entradas alejadas de la variedad de los datos (por ejemplo, imágenes con parches aleatorios en blanco), y el comportamiento del modelo de caja negra en estos puntos fuera de la distribución puede no reflejar su comportamiento sobre entradas realistas. También se ha demostrado que LIME es vulnerable a la manipulación adversaria: un atacante que controla el modelo puede construir un clasificador que parezca justo bajo las explicaciones de LIME mientras en realidad se basa en atributos protegidos, aprovechando que LIME consulta puntos fuera de la variedad.

Consideraciones prácticas

En la práctica, los usuarios deberían informar la semilla aleatoria y el número de muestras utilizadas, promediar varias ejecuciones para reducir la varianza y preferir valores mayores de $$ N $$ para entradas de alta dimensión. Para explicaciones de texto e imagen, la elección de la estrategia de perturbación (eliminación frente a sustitución de tokens, color de referencia para el enmascaramiento de superpíxeles) modifica de forma sustancial las atribuciones resultantes y debería documentarse. Cuando la fidelidad es crítica, los Shapley Values o Anchors ofrecen garantías teóricas más sólidas, mientras que LIME sigue siendo atractivo como una primera pasada rápida que produce explicaciones dispersas y legibles por humanos sobre modelos arbitrarios.

Referencias

^[1] ^[2] ^[3] ^[4]

↑ Template:Cite arxiv
↑ Template:Cite arxiv
↑ Template:Cite arxiv
↑ Slack, D., Hilgard, S., Jia, E., Singh, S., and Lakkaraju, H. Fooling LIME and SHAP: Adversarial Attacks on Post Hoc Explanation Methods, AIES 2020.

[1] Template:Cite arxiv

[2] Template:Cite arxiv

[3] Template:Cite arxiv

[4] Slack, D., Hilgard, S., Jia, E., Singh, S., and Lakkaraju, H. Fooling LIME and SHAP: Adversarial Attacks on Post Hoc Explanation Methods, AIES 2020.

[1]

[2]

[3]

[4]