Logistic regression/zh

    From Marovi AI
    This page is a translated version of the page Logistic regression and the translation is 100% complete.
    Other languages:
    Article
    Topic area Machine Learning
    Difficulty Introductory

    邏輯回歸是一種用於二分類的基礎統計模型,它通過將特徵的線性組合傳入邏輯(sigmoid)函數來預測類別結果的概率。儘管名稱中帶有「回歸」,它實際上是一種分類方法而非回歸方法,並且仍然是統計學、流行病學和機器學習中使用最廣泛、可解釋性最強的模型之一。

    概述

    邏輯回歸將觀測樣本屬於正類的概率建模為輸入特徵的函數。給定特徵向量 $ \mathbf{x} \in \mathbb{R}^d $ 和二元標籤 $ y \in \{0, 1\} $,模型假設正類的對數機率(log-odds)是 $ \mathbf{x} $ 的線性函數。輸出被限制在單位區間內,因此可以直接解釋為概率,非常適合用於後續決策、校準和風險評分。

    邏輯回歸的流行源於一組罕見的優良性質:它是一種具有凸損失的概率分類器,參數容易解釋為對數機率比,訓練可以通過隨機梯度下降擴展到海量數據集,並且它還充當了大多數用於二分類的現代神經網絡的最後一層。

    核心概念

    • Sigmoid(邏輯)函數:壓縮非線性函數 $ \sigma(z) = 1/(1 + e^{-z}) $,將任意實數映射到 $ (0, 1) $
    • 線性決策邊界:在特徵空間中,$ \mathbf{w}^{\!\top}\mathbf{x} + b = 0 $ 所定義的點集將兩個類別分開;因此邏輯回歸是一種線性分類器
    • 對數機率(logit:sigmoid 的反函數 $ \mathrm{logit}(p) = \log\frac{p}{1-p} $;邏輯回歸假設 logit 是特徵的線性函數。
    • 極大似然估計:通過最大化模型下觀測標籤的概率來擬合參數。
    • 交叉熵損失:Bernoulli 模型的負對數似然,等同於深度學習中使用的交叉熵損失
    • 凸優化:損失關於參數是凸的,因此任何局部極小值即為全局極小值。

    歷史

    邏輯函數由比利時數學家 Pierre François Verhulst 於 1838 年提出,用於建模資源受限條件下的種群增長。在 20 世紀初,它作為統計工具在化學和生物學中得到廣泛應用,被用來描述自催化反應和劑量-反應曲線。

    現代統計學形式在 20 世紀中葉定型。Joseph Berkson 於 1944 年推廣了術語 logit,作為 Chester Bliss 和 R. A. Fisher 所青睞的 probit 模型的替代方案。David Cox 在 1958 年的論文《The Regression Analysis of Binary Sequences》將邏輯回歸確立為統計學中處理二元結果的標準工具,Walker 和 Duncan(1967)則將其擴展到多協變量情形。

    在 1970 和 1980 年代,邏輯回歸成為流行病學中病例對照研究的默認模型,部分原因是它產生的機率比對基於結果的抽樣具有不變性。隨著機器學習的興起,該模型作為基線分類器以及神經網絡的輸出層獲得了第二次生命。多項邏輯回歸通過softmax 函數將模型推廣到兩類以上,是幾乎所有現代深度分類系統背後的核心分類器。

    主要方法

    模型設定

    對於二元標籤 $ y \in \{0, 1\} $,邏輯回歸建模為

    $ P(y = 1 \mid \mathbf{x}) = \sigma(\mathbf{w}^{\!\top}\mathbf{x} + b) = \frac{1}{1 + e^{-(\mathbf{w}^{\!\top}\mathbf{x} + b)}} $

    等價地,對數機率是線性的:

    $ \log \frac{P(y=1 \mid \mathbf{x})}{P(y=0 \mid \mathbf{x})} = \mathbf{w}^{\!\top}\mathbf{x} + b $

    在保持其他特徵不變的情況下,$ x_j $ 每增加一個單位,正類的機率就會乘以 $ e^{w_j} $。將係數直接解釋為對數機率比是該模型最具特色的優勢之一。

    極大似然與交叉熵

    給定數據集 $ \{(\mathbf{x}_i, y_i)\}_{i=1}^{N} $,Bernoulli 模型下的似然為

    $ \mathcal{L}(\mathbf{w}, b) = \prod_{i=1}^{N} p_i^{y_i}(1 - p_i)^{1 - y_i}, \quad p_i = \sigma(\mathbf{w}^{\!\top}\mathbf{x}_i + b) $

    取負對數即得到二元交叉熵損失:

    $ \mathcal{J}(\mathbf{w}, b) = -\frac{1}{N}\sum_{i=1}^{N} \big[y_i \log p_i + (1 - y_i)\log(1 - p_i)\big] $

    該損失是凸的,其梯度具有簡潔的形式

    $ \nabla_{\mathbf{w}} \mathcal{J} = \frac{1}{N} \sum_{i=1}^{N} (p_i - y_i)\,\mathbf{x}_i $

    即特徵向量按預測誤差加權後的平均值。

    優化

    與線性回歸不同,邏輯回歸沒有閉式解。常見的優化方法包括:

    • 迭代重加權最小二乘(IRLS):經典的統計算法,等價於在對數似然上應用牛頓法;在小規模問題上只需少數幾次迭代即可收斂。
    • 梯度下降與 L-BFGS:適用於 IRLS 內存開銷過大的中等規模問題。
    • 隨機梯度下降:大規模和在線場景的默認方法,其梯度形式與單層神經網絡完全相同。

    正則化

    為了防止過擬合並在特徵相關或數量眾多時穩定估計,在損失函數中加入懲罰項:

    $ \mathcal{J}_{\mathrm{reg}}(\mathbf{w}) = \mathcal{J}(\mathbf{w}) + \lambda\, R(\mathbf{w}) $

    L2(ridge)正則化 $ R(\mathbf{w}) = \tfrac{1}{2}\|\mathbf{w}\|_2^2 $ 將權重收縮至零,對應於高斯先驗。L1(lasso)正則化 $ R(\mathbf{w}) = \|\mathbf{w}\|_1 $ 促使權重稀疏,並起到特徵選擇的作用。Elastic Net 同時結合了這兩種懲罰。更全面的討論參見Overfitting and Regularization

    多項式擴展

    當類別數 $ K > 2 $ 時,邏輯回歸推廣為多項邏輯回歸(也稱為 softmax 回歸):

    $ P(y = k \mid \mathbf{x}) = \frac{\exp(\mathbf{w}_k^{\!\top}\mathbf{x} + b_k)}{\sum_{j=1}^{K} \exp(\mathbf{w}_j^{\!\top}\mathbf{x} + b_j)} $

    這正是將softmax 函數作用於線性得分,它構成了幾乎所有基於神經網絡構建的現代多類分類器的輸出層。

    關聯

    邏輯回歸處於統計學與機器學習若干核心主題的交匯處。從結構上看,它是神經網絡最簡單的情形:一個帶有 sigmoid 激活函數的單神經元。其損失函數正是用於訓練深度分類器的交叉熵,而梯度計算則是反向傳播的單步實例。現代實踐中最受青睞的優化器——隨機梯度下降——最初正是在此類廣義線性模型的背景下被開發和分析的。

    邏輯回歸同時也是一種採用 Bernoulli 響應和典型 logit 連結函數的廣義線性模型(GLM),與 Poisson 回歸及線性回歸(採用高斯響應和恆等連結)屬於同一族。它與線性判別分析(LDA)密切相關:兩者都產生線性決策邊界,但 LDA 對 $ P(\mathbf{x} \mid y) $ 建模,而邏輯回歸直接對 $ P(y \mid \mathbf{x}) $ 建模,因此是判別式分類器而非生成式分類器。其多項形式直接對應於softmax 函數,是作用於詞嵌入注意力機制輸出之上的分類器的標準最終層。

    參見

    參考文獻

    • Cox, D. R. (1958). "The Regression Analysis of Binary Sequences". Journal of the Royal Statistical Society, Series B, 20(2), 215–242.
    • Berkson, J. (1944). "Application of the Logistic Function to Bio-Assay". Journal of the American Statistical Association, 39(227), 357–365.
    • Hosmer, D. W., Lemeshow, S. 與 Sturdivant, R. X. (2013). Applied Logistic Regression(第 3 版). Wiley.
    • McCullagh, P. 與 Nelder, J. A. (1989). Generalized Linear Models(第 2 版). Chapman and Hall.
    • Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer,第 4 章。
    • Hastie, T., Tibshirani, R. 與 Friedman, J. (2009). The Elements of Statistical Learning(第 2 版). Springer,第 4 章。