LIME Explanations/zh

    From Marovi AI
    This page is a translated version of the page LIME Explanations and the translation is 100% complete.
    Other languages:
    Article
    Topic area Interpretability
    Prerequisites Machine Learning, Linear Regression, Feature Importance


    概述

    局部可解釋的模型無關解釋(LIME)是一種通過在局部用可解釋的代理模型進行近似來解釋任意分類器或回歸器預測結果的技術。LIME 由 Ribeiro、Singh 和 Guestrin 於 2016 年提出,它將被檢視的模型視為黑盒,在所關注的單個輸入周圍使用擾動樣本對其進行探測,然後擬合一個稀疏線性模型,其係數描述了哪些特徵將預測推向或推離某個給定類別。由於代理模型僅在被解釋實例的小鄰域內進行擬合,LIME 並不試圖刻畫模型的全局行為;它針對每個預測產生一個解釋,同一模型的不同預測可以通過不同的特徵子集來解釋。

    LIME 已成為應用 Machine Learning 中使用最廣泛的事後解釋方法之一,尤其在醫療、信用評分和內容審核等領域,相關方需要的是針對單個實例的依據而非全局摘要。它與模型無關,這意味着它適用於神經網絡、梯度提升樹、支持向量機或任何通過概率或得分函數對外暴露的預測器,並針對表格、文本和圖像輸入提供了相應的變體。

    直覺

    LIME 背後的核心直覺是:即使是高度非線性的模型,在足夠小的鄰域內也近似線性。如果在我們想要解釋的實例附近抽取樣本,並觀察模型預測如何變化,就可以擬合一個簡單的線性模型,使其在該鄰域內模仿黑盒模型的行為。這個局部線性模型的係數即作為解釋:正係數表示提高了該類預測概率的特徵,負係數表示降低了該類預測概率的特徵。

    LIME 的一個關鍵設計選擇是代理模型所採用的表示。原始輸入可能是高維且連續的,難以直接解釋,因此 LIME 將其映射到由二元特徵構成的可解釋表示。對於文本,每個特徵是某個 token 的存在與否;對於圖像,是某個超像素的存在與否;對於表格數據,則是某列離散化區間的歸屬。代理模型在這些二元特徵上運行,從而確保每個係數都對應着人類能夠命名和推理的事物。

    形式化

    $ f : \mathcal{X} \to \mathbb{R} $ 為黑盒模型,其中 $ f(x) $ 是某個目標類別的預測概率或得分。設 $ x \in \mathcal{X} $ 為待解釋的實例,$ x' \in \{0,1\}^{d'} $ 為其在可解釋空間中的表示。LIME 定義了一個可解釋模型類 $ G $(通常為稀疏線性模型)、一個根據樣本與 $ x $ 的接近程度對其加權的鄰近度度量 $ \pi_x $,以及一個懲罰過於複雜、難以為人理解的模型的複雜度度量 $ \Omega(g) $。解釋即為如下模型

    $ {\displaystyle \xi(x) = \arg\min_{g \in G} \mathcal{L}(f, g, \pi_x) + \Omega(g),} $

    其中 $ \mathcal{L} $ 是一種關注局部性的損失,用于衡量 $ g $ 在由 $ \pi_x $ 誘導的鄰域內對 $ f $ 的近似程度。在實踐中,$ \mathcal{L} $ 取為加權平方誤差,

    $ {\displaystyle \mathcal{L}(f, g, \pi_x) = \sum_{z, z'} \pi_x(z) \, \big( f(z) - g(z') \big)^2,} $

    在圍繞 $ x' $ 抽取的擾動樣本 $ z' $ 上進行求值,其中 $ z $ 是原始輸入空間中的對應點。鄰近度 $ \pi_x(z) = \exp(-D(x, z)^2 / \sigma^2) $ 在與輸入模態相適配的距離 $ D $ 上使用指數(文本採用餘弦距離,表格特徵在歸一化空間中採用 L2)。複雜度項 $ \Omega(g) $ 通常通過 L1 Regularization 或顯式特徵預算 $ K $ 來限制非零係數的數量,常藉助 Lasso 路徑或前向選擇過程加以執行。

    算法

    對於實例 $ x $,標準的 LIME 算法按以下步驟進行:

    1. $ x $ 轉換為其可解釋表示 $ x' $
    2. 抽取 $ N $ 個擾動 $ z'_i \in \{0,1\}^{d'} $,每個都通過均勻地關閉 $ x' $ 中隨機選取的特徵子集得到。
    3. 將每個 $ z'_i $ 映射回原始特徵空間以得到 $ z_i $:對於文本,丟棄相應的 token;對於圖像,將被遮蓋的超像素替換為基準顏色;對於表格數據,從每列的訓練分佈中抽取替換值。
    4. 查詢黑盒模型,獲得每個擾動樣本的 $ f(z_i) $
    5. 計算鄰近度權重 $ \pi_x(z_i) $
    6. 在數據集 $ \{(z'_i, f(z_i), \pi_x(z_i))\}_{i=1}^N $ 上擬合稀疏加權線性模型 $ g $,至多選取 $ K $ 個特徵。
    7. $ g $ 的係數返回作為解釋。

    典型設置為 $ N \in [1000, 5000] $ 個樣本和 $ K \in [5, 15] $ 個特徵。對模型的查詢次數與 $ N $ 成線性關係,當黑盒模型的評估代價較高時,這是主要開銷。

    變體

    LIME 的若干擴展旨在克服原始形式化中的局限。SP-LIME(子模選取 LIME)挑選一小組具有代表性的實例,使它們的解釋合在一起覆蓋該模型在全局上最重要的特徵;它將這一選取過程建模為子模最大化問題,並通過貪心算法求解。Anchors 用滿足用戶指定置信度的高精度 IF-THEN 規則替代線性代理模型;這帶來更明確的保證,但計算代價更高。KernelSHAP 用特定的正則化重新表述 LIME 的損失,使得到的係數等於 Shapley Values,從而在單一估計量之下將 LIME 與基於合作博弈論的 Feature Attribution 統一起來。ALIMELIME-SUP 通過確定性的鄰域構造或有監督劃分來降低不同運行之間解釋的方差

    與相關方法的比較

    LIME 屬於更廣泛的事後、實例級 Feature Attribution 方法家族。與 Saliency MapsIntegrated Gradients基於梯度的方法相比,LIME 不需要訪問模型內部,也不要求可微性,因而能夠解釋隨機森林等不可微模型,但代價是每次解釋都需要大量前向計算。與精確計算的 Shapley Values 相比,LIME 的開銷要小得多,但其係數會受到採樣分佈選擇的影響而產生偏差,並不滿足定義 Shapley 歸因的可加性公理。與 決策樹蒸餾等全局代理相比,LIME 提供的是更細粒度、針對單一實例的解釋,但無法對模型作整體性概括。

    局限性

    LIME 的解釋可能不穩定:由於擾動是隨機抽取的,且代理模型每次都會重新擬合,對同一實例的兩次運行可能返回不同的特徵集合,尤其是在 $ N $ 較小或特徵高度相關時。寬度 $ \sigma $ 的選擇隱式地決定了哪些點算作局部鄰域,並強烈影響哪些特徵出現在解釋中;不存在一個有原則的唯一取值,而 $ \sigma $ 的微小變化可能使歸因的符號發生翻轉。從均勻的二元分佈採樣擾動可能產生遠離數據流形的輸入(例如隨機遮擋補丁的圖像),而黑盒模型在這些分佈外點上的行為可能並不反映其在真實輸入上的行為。研究還表明 LIME 易受對抗性操控:控制模型的攻擊者可以構造一個在 LIME 解釋下看似公平、但實際依賴受保護屬性的分類器,這正利用了 LIME 會查詢流形之外點的特性。

    實踐考量

    在實踐中,用戶應記錄所使用的隨機種子和樣本數量,對多次運行進行平均以降低方差,並對高維輸入採用更大的 $ N $。對於文本和圖像解釋,擾動策略的選擇(token 刪除 vs. 替換、超像素遮擋的基準顏色)會顯著改變所得到的歸因,應予以記錄。當對忠實度要求很高時,Shapley ValuesAnchors 提供更強的理論保證,而 LIME 仍因可在任意模型上快速產生人類可讀的稀疏解釋而具有吸引力,適合作為初步分析。

    參考文獻

    [1] [2] [3] [4]

    1. Template:Cite arxiv
    2. Template:Cite arxiv
    3. Template:Cite arxiv
    4. Slack, D., Hilgard, S., Jia, E., Singh, S., and Lakkaraju, H. Fooling LIME and SHAP: Adversarial Attacks on Post Hoc Explanation Methods, AIES 2020.