Bias in Machine Learning/zh
| Article | |
|---|---|
| Topic area | Machine Learning |
| Prerequisites | Supervised Learning, Loss Function, Generalization |
概述
在機器學習中,偏差指的是系統性誤差:學習得到的模型的預測以一致的、非隨機的方式偏離真實值。該術語涵蓋兩個相關但不同的概念。第一個是統計意義上的:學習算法的預測與其試圖恢復的目標函數之間的期望差距,通過在不同樣本上的假設性重新訓練來衡量。第二個是社會意義上的:模型在不同群體之間表現不均、編碼刻板印象,或放大其訓練數據中存在的歷史不平等。這兩種含義共享一種共同結構——它們都描述不會因收集更多同類數據而消失的誤差——但它們使用不同的工具進行研究,並出於不同的關切。
偏差不可避免。每個學習算法都會編碼關於哪些函數更可能出現、哪些特徵重要、以及樣本應如何加權的假設;正是這種歸納偏置使得泛化成為可能。因此,實際問題並非如何消除偏差,而是如何選擇、衡量並披露它。本文梳理了構成這一主題框架的統計分解、內置於常見模型族中的歸納偏置、扭曲監督學習的數據偏差和標註偏差、由此在下游產生的算法偏差和社會偏差,以及用於診斷和緩解每種偏差的技術。
偏差-方差分解
對於以 $ y = f(x) + \varepsilon $ 為目標、以 $ \hat{f} $ 為學習得到的預測器的平方誤差回歸,點 $ x $ 處的期望誤差分解為
$ {\displaystyle \mathbb{E}\bigl[(y - \hat{f}(x))^2\bigr] = \underbrace{\bigl(\mathbb{E}[\hat{f}(x)] - f(x)\bigr)^2}_{\text{Bias}^2} + \underbrace{\mathbb{E}\bigl[(\hat{f}(x) - \mathbb{E}[\hat{f}(x)])^2\bigr]}_{\text{Variance}} + \sigma^2,} $
其中期望是在從同一分佈中抽取的訓練集上取得的,$ \sigma^2 $ 是不可約噪聲。偏差衡量平均學習模型與真實值的距離;方差衡量單個模型在該平均值附近波動的程度。高偏差是欠擬合的標誌——假設類過於受限,無法捕獲 $ f $。高方差是過擬合的標誌——該類足夠靈活,會去追逐噪聲。
經典的偏差-方差權衡認為,減少其中一個往往會增大另一個,模型容量是控制旋鈕。這一圖景對低容量的經典模型而言是清晰的,但只能部分刻畫現代過參數化網絡,其中雙重下降現象表明,測試誤差越過插值閾值後還會再次下降。偏差-方差框架仍是正確的出發點,但對深度模型而言並非完整圖景。
歸納偏置
每個算法都偏好某些假設而非其他——若無這種偏好,任何有限的訓練集都無法挑出唯一的函數。這種偏好稱為歸納偏置,正是它使泛化成為可能。例子包括 $ k $-最近鄰的平滑性假設、線性回歸的線性性、卷積神經網絡的局部性與平移等變性、圖神經網絡的置換等變性,以及循環模型的近因衰減。架構選擇、正則項、先驗、優化器幾何,乃至訓練數據的順序,都會有所貢獻。
強歸納偏置會在與偏置一致的任務上提升樣本效率,而在不一致的任務上有損效率。現代深度學習向更弱的結構性先驗和更大數據集的轉向——最明顯的是在許多領域中Transformer取代了卷積和遞歸——是一種有意的權衡:先驗更少有用,轉而以更多數據和算力來彌補。
數據集與標註偏差
統計學習理論假設訓練分佈與部署分佈一致。實際中這很少成立,這種差距常被稱為數據偏差。常見形式包括:
- 選擇偏差。訓練樣本是從感興趣的總體中非均勻抽取的。問卷不應答、自願加入式數據收集和便利抽樣都會產生這種偏差。
- 抽樣偏差。某些子群相對於部署時的頻率被系統性地過度或不足代表。
- 倖存者偏差。只觀察到堅持留在數據集中的實體;失敗者缺席。
- 報告與測量偏差。記錄的標籤反映的是被測量或被主動報告的內容,而非潛在構念——例如,登記的犯罪與警力強度相關,而非與犯罪本身相關。
- 標籤噪聲與標註者偏差。人類標註者意見不一致、遵循不一致的指南,或帶入自己的假設;匯聚可能掩蓋系統性的分歧。
- 歷史偏差。即使一個完全抽樣、完全標註的數據集,也可能編碼用戶不希望延續的世界中的模式,例如歷史上的招聘或信貸決策。
- 分佈偏移。協變量偏移、標籤偏移和概念漂移描述了違反 i.i.d. 假設的訓練-部署間變化。
這些是數據流水線的屬性,而非優化器的屬性,因此無法通過訓練更久或擴大模型來修復。它們表現為對數據所代表不足的人群作出過於自信的錯誤預測。
算法偏差與社會偏見
當一個用有偏差數據訓練的模型被部署到具有重大後果的場景中——信貸、招聘、醫療、內容審核、搜索排序——統計上的不對稱就變成了社會上的不對稱。一個被廣泛引用的例子是COMPAS累犯風險工具,研究發現其在某基準數據集上對黑人被告分配的假陽性率高於白人被告。類似的不對等也已在商業人臉識別錯誤率、臨床決策支持以及廣告投放中被記錄。
研究者通過諸如人口統計奇偶性(各群體正預測率相等)、均等幾率(各群體真陽性率與假陽性率均相等)以及校準(預測概率與各群體內實際比率相符)等群體公平性準則來形式化這些關切。一個基礎性的不可能性結果表明,除退化情形外,當各群體基率不同時,沒有任何單一分類器能同時滿足校準與均等幾率。[1][2] 因此,在各種公平性定義之間進行選擇是一種價值判斷,而非純粹的技術決定。
兩個緊密相關的問題是捷徑學習——模型抓住了在訓練中恰好與標籤相關的虛假特徵,例如圖像背景或醫院特定的像素偽影——以及偏差放大,其中模型的預測比訓練分佈更加傾斜,因為對多數類作出自信預測能最有效地最小化損失。
診斷
診斷偏差需要超越聚合的準確率進行考察。常見做法:
- 在按敏感屬性、地域、時間或輸入特徵定義的子群上對指標進行切片。
- 比較錯誤率,而不僅僅是準確率,因為基率較低的類別可能在整體高準確率下掩蓋失敗。
- 使用反事實擾動——改變姓名、性別詞或口音,檢查預測是否發生變化。
- 對敏感屬性進行表徵探測;移除某屬性後探測精度仍高,表明該屬性以間接方式被編碼。
- 檢查每個群體的校準曲線,而非僅看整體。
- 直接審計訓練語料:詞元頻率、人群覆蓋度、各切片的標籤比例。
更困難的診斷問題是未知的未知:審計者未曾想到要切片的子群或場景。諸如模型卡、數據手冊和外部紅隊演練等工具可以將其暴露出來,但沒有任何流程是完備的。
緩解
緩解策略通常按照其在流水線中的介入位置進行分類:
- 預處理作用於數據:重加權、重採樣、擴充代表不足的子群、移除或轉換敏感特徵,以及合成平衡樣本。便宜且模塊化,但有限——因為模型仍可能從相關特徵中恢復出受保護屬性。
- 過程中處理修改損失函數或約束:對抗式去偏、帶公平性約束的優化、朝向錯誤率均等的正則化,或不變性懲罰以阻止表徵編碼受保護屬性。
- 後處理調整輸出:按群體校準的閾值、帶拒絕選項的分類,或將分數變換為均衡所選指標的形式。
對於社會偏見,技術性緩解是必要但不充分的。它必須與部署期監控、對受影響用戶的申訴機制以及治理——包括不部署的選項——相結合。對於偏差-方差意義上的統計偏差,緩解方式則不同:增加容量、添加特徵,或放鬆正則化,以方差為代價降低偏差。
比較與局限
統計偏差與社會偏見在非正式使用中常被混淆,但它們回答的是不同的問題。統計偏差問的是:隨着樣本增大,平均模型是否收斂於真實函數;社會偏見問的是:被部署的模型是否對人們一視同仁。一個模型可以在統計上無偏卻在社會上有害(它忠實地復現了不公正的現狀),也可以在某個所選指標上社會公平卻在統計上不一致。對其中一個的緩解可能加重另一個:強制均等幾率可能降低校準;通過強正則化來降低方差可能進一步固化多數群體的模式。
當前文獻的重要局限:大多數公平性指標預設了可觀測、準確且穩定的離散敏感屬性,而事實往往並非如此。因果框架有望彌補部分缺口,但要求強且常常無法驗證的假設。最後,公平性準則局限於單次決策;系統層面的效應——如預測與未來訓練數據之間的反饋迴路——不會被任何按預測計算的指標所捕獲。