LIME Explanations/zh

    From Marovi AI
    This page is a translated version of the page LIME Explanations and the translation is 100% complete.
    Other languages:
    Article
    Topic area Interpretability
    Prerequisites Machine Learning, Linear Regression, Feature Importance


    概述

    局部可解释的模型无关解释(LIME)是一种通过在局部用可解释的代理模型进行近似来解释任意分类器或回归器预测结果的技术。LIME 由 Ribeiro、Singh 和 Guestrin 于 2016 年提出,它将被检视的模型视为黑盒,在所关注的单个输入周围使用扰动样本对其进行探测,然后拟合一个稀疏线性模型,其系数描述了哪些特征将预测推向或推离某个给定类别。由于代理模型仅在被解释实例的小邻域内进行拟合,LIME 并不试图刻画模型的全局行为;它针对每个预测产生一个解释,同一模型的不同预测可以通过不同的特征子集来解释。

    LIME 已成为应用 Machine Learning 中使用最广泛的事后解释方法之一,尤其在医疗、信用评分和内容审核等领域,相关方需要的是针对单个实例的依据而非全局摘要。它与模型无关,这意味着它适用于神经网络、梯度提升树、支持向量机或任何通过概率或得分函数对外暴露的预测器,并针对表格、文本和图像输入提供了相应的变体。

    直觉

    LIME 背后的核心直觉是:即使是高度非线性的模型,在足够小的邻域内也近似线性。如果在我们想要解释的实例附近抽取样本,并观察模型预测如何变化,就可以拟合一个简单的线性模型,使其在该邻域内模仿黑盒模型的行为。这个局部线性模型的系数即作为解释:正系数表示提高了该类预测概率的特征,负系数表示降低了该类预测概率的特征。

    LIME 的一个关键设计选择是代理模型所采用的表示。原始输入可能是高维且连续的,难以直接解释,因此 LIME 将其映射到由二元特征构成的可解释表示。对于文本,每个特征是某个 token 的存在与否;对于图像,是某个超像素的存在与否;对于表格数据,则是某列离散化区间的归属。代理模型在这些二元特征上运行,从而确保每个系数都对应着人类能够命名和推理的事物。

    形式化

    $ f : \mathcal{X} \to \mathbb{R} $ 为黑盒模型,其中 $ f(x) $ 是某个目标类别的预测概率或得分。设 $ x \in \mathcal{X} $ 为待解释的实例,$ x' \in \{0,1\}^{d'} $ 为其在可解释空间中的表示。LIME 定义了一个可解释模型类 $ G $(通常为稀疏线性模型)、一个根据样本与 $ x $ 的接近程度对其加权的邻近度度量 $ \pi_x $,以及一个惩罚过于复杂、难以为人理解的模型的复杂度度量 $ \Omega(g) $。解释即为如下模型

    $ {\displaystyle \xi(x) = \arg\min_{g \in G} \mathcal{L}(f, g, \pi_x) + \Omega(g),} $

    其中 $ \mathcal{L} $ 是一种关注局部性的损失,用于衡量 $ g $ 在由 $ \pi_x $ 诱导的邻域内对 $ f $ 的近似程度。在实践中,$ \mathcal{L} $ 取为加权平方误差,

    $ {\displaystyle \mathcal{L}(f, g, \pi_x) = \sum_{z, z'} \pi_x(z) \, \big( f(z) - g(z') \big)^2,} $

    在围绕 $ x' $ 抽取的扰动样本 $ z' $ 上进行求值,其中 $ z $ 是原始输入空间中的对应点。邻近度 $ \pi_x(z) = \exp(-D(x, z)^2 / \sigma^2) $ 在与输入模态相适配的距离 $ D $ 上使用指数(文本采用余弦距离,表格特征在归一化空间中采用 L2)。复杂度项 $ \Omega(g) $ 通常通过 L1 Regularization 或显式特征预算 $ K $ 来限制非零系数的数量,常借助 Lasso 路径或前向选择过程加以执行。

    算法

    对于实例 $ x $,标准的 LIME 算法按以下步骤进行:

    1. $ x $ 转换为其可解释表示 $ x' $
    2. 抽取 $ N $ 个扰动 $ z'_i \in \{0,1\}^{d'} $,每个都通过均匀地关闭 $ x' $ 中随机选取的特征子集得到。
    3. 将每个 $ z'_i $ 映射回原始特征空间以得到 $ z_i $:对于文本,丢弃相应的 token;对于图像,将被遮盖的超像素替换为基准颜色;对于表格数据,从每列的训练分布中抽取替换值。
    4. 查询黑盒模型,获得每个扰动样本的 $ f(z_i) $
    5. 计算邻近度权重 $ \pi_x(z_i) $
    6. 在数据集 $ \{(z'_i, f(z_i), \pi_x(z_i))\}_{i=1}^N $ 上拟合稀疏加权线性模型 $ g $,至多选取 $ K $ 个特征。
    7. $ g $ 的系数返回作为解释。

    典型设置为 $ N \in [1000, 5000] $ 个样本和 $ K \in [5, 15] $ 个特征。对模型的查询次数与 $ N $ 成线性关系,当黑盒模型的评估代价较高时,这是主要开销。

    变体

    LIME 的若干扩展旨在克服原始形式化中的局限。SP-LIME(子模选取 LIME)挑选一小组具有代表性的实例,使它们的解释合在一起覆盖该模型在全局上最重要的特征;它将这一选取过程建模为子模最大化问题,并通过贪心算法求解。Anchors 用满足用户指定置信度的高精度 IF-THEN 规则替代线性代理模型;这带来更明确的保证,但计算代价更高。KernelSHAP 用特定的正则化重新表述 LIME 的损失,使得到的系数等于 Shapley Values,从而在单一估计量之下将 LIME 与基于合作博弈论的 Feature Attribution 统一起来。ALIMELIME-SUP 通过确定性的邻域构造或有监督划分来降低不同运行之间解释的方差

    与相关方法的比较

    LIME 属于更广泛的事后、实例级 Feature Attribution 方法家族。与 Saliency MapsIntegrated Gradients基于梯度的方法相比,LIME 不需要访问模型内部,也不要求可微性,因而能够解释随机森林等不可微模型,但代价是每次解释都需要大量前向计算。与精确计算的 Shapley Values 相比,LIME 的开销要小得多,但其系数会受到采样分布选择的影响而产生偏差,并不满足定义 Shapley 归因的可加性公理。与 决策树蒸馏等全局代理相比,LIME 提供的是更细粒度、针对单一实例的解释,但无法对模型作整体性概括。

    局限性

    LIME 的解释可能不稳定:由于扰动是随机抽取的,且代理模型每次都会重新拟合,对同一实例的两次运行可能返回不同的特征集合,尤其是在 $ N $ 较小或特征高度相关时。宽度 $ \sigma $ 的选择隐式地决定了哪些点算作局部邻域,并强烈影响哪些特征出现在解释中;不存在一个有原则的唯一取值,而 $ \sigma $ 的微小变化可能使归因的符号发生翻转。从均匀的二元分布采样扰动可能产生远离数据流形的输入(例如随机遮挡补丁的图像),而黑盒模型在这些分布外点上的行为可能并不反映其在真实输入上的行为。研究还表明 LIME 易受对抗性操控:控制模型的攻击者可以构造一个在 LIME 解释下看似公平、但实际依赖受保护属性的分类器,这正利用了 LIME 会查询流形之外点的特性。

    实践考量

    在实践中,用户应记录所使用的随机种子和样本数量,对多次运行进行平均以降低方差,并对高维输入采用更大的 $ N $。对于文本和图像解释,扰动策略的选择(token 删除 vs. 替换、超像素遮挡的基准颜色)会显著改变所得到的归因,应予以记录。当对忠实度要求很高时,Shapley ValuesAnchors 提供更强的理论保证,而 LIME 仍因可在任意模型上快速产生人类可读的稀疏解释而具有吸引力,适合作为初步分析。

    参考文献

    [1] [2] [3] [4]

    1. Template:Cite arxiv
    2. Template:Cite arxiv
    3. Template:Cite arxiv
    4. Slack, D., Hilgard, S., Jia, E., Singh, S., and Lakkaraju, H. Fooling LIME and SHAP: Adversarial Attacks on Post Hoc Explanation Methods, AIES 2020.