Logistic regression/zh

Article
Topic area	Machine Learning
Difficulty	Introductory

This page is a translated version of the page Logistic regression and the translation is 100% complete.

Other languages:

English
Español
中文

邏輯回歸是一種用於二分類的基礎統計模型，它通過將特徵的線性組合傳入邏輯（sigmoid）函數來預測類別結果的概率。儘管名稱中帶有「回歸」，它實際上是一種分類方法而非回歸方法，並且仍然是統計學、流行病學和機器學習中使用最廣泛、可解釋性最強的模型之一。

概述

邏輯回歸將觀測樣本屬於正類的概率建模為輸入特徵的函數。給定特徵向量 $\mathbf{x} \in \mathbb{R}^d$ 和二元標籤 $y \in \{0, 1\}$ ，模型假設正類的對數機率（log-odds）是 $\mathbf{x}$ 的線性函數。輸出被限制在單位區間內，因此可以直接解釋為概率，非常適合用於後續決策、校準和風險評分。

邏輯回歸的流行源於一組罕見的優良性質：它是一種具有凸損失的概率分類器，參數容易解釋為對數機率比，訓練可以通過隨機梯度下降擴展到海量數據集，並且它還充當了大多數用於二分類的現代神經網絡的最後一層。

核心概念

Sigmoid（邏輯）函數：壓縮非線性函數 $\sigma(z) = 1/(1 + e^{-z})$ ，將任意實數映射到 $$ (0, 1) $$ 。
線性決策邊界：在特徵空間中， $\mathbf{w}^{\!\top}\mathbf{x} + b = 0$ 所定義的點集將兩個類別分開；因此邏輯回歸是一種線性分類器。
對數機率（logit）：sigmoid 的反函數 $\mathrm{logit}(p) = \log\frac{p}{1-p}$ ；邏輯回歸假設 logit 是特徵的線性函數。
極大似然估計：通過最大化模型下觀測標籤的概率來擬合參數。
交叉熵損失：Bernoulli 模型的負對數似然，等同於深度學習中使用的交叉熵損失。
凸優化：損失關於參數是凸的，因此任何局部極小值即為全局極小值。

歷史

邏輯函數由比利時數學家 Pierre François Verhulst 於 1838 年提出，用於建模資源受限條件下的種群增長。在 20 世紀初，它作為統計工具在化學和生物學中得到廣泛應用，被用來描述自催化反應和劑量-反應曲線。

現代統計學形式在 20 世紀中葉定型。Joseph Berkson 於 1944 年推廣了術語 logit，作為 Chester Bliss 和 R. A. Fisher 所青睞的 probit 模型的替代方案。David Cox 在 1958 年的論文《The Regression Analysis of Binary Sequences》將邏輯回歸確立為統計學中處理二元結果的標準工具，Walker 和 Duncan（1967）則將其擴展到多協變量情形。

在 1970 和 1980 年代，邏輯回歸成為流行病學中病例對照研究的默認模型，部分原因是它產生的機率比對基於結果的抽樣具有不變性。隨著機器學習的興起，該模型作為基線分類器以及神經網絡的輸出層獲得了第二次生命。多項邏輯回歸通過softmax 函數將模型推廣到兩類以上，是幾乎所有現代深度分類系統背後的核心分類器。

主要方法

模型設定

對於二元標籤 $y \in \{0, 1\}$ ，邏輯回歸建模為

P(y = 1 \mid \mathbf{x}) = \sigma(\mathbf{w}^{\!\top}\mathbf{x} + b) = \frac{1}{1 + e^{-(\mathbf{w}^{\!\top}\mathbf{x} + b)}}

等價地，對數機率是線性的：

\log \frac{P(y=1 \mid \mathbf{x})}{P(y=0 \mid \mathbf{x})} = \mathbf{w}^{\!\top}\mathbf{x} + b

在保持其他特徵不變的情況下， $$ x_j $$ 每增加一個單位，正類的機率就會乘以 $e^{w_j}$ 。將係數直接解釋為對數機率比是該模型最具特色的優勢之一。

極大似然與交叉熵

給定數據集 $\{(\mathbf{x}_i, y_i)\}_{i=1}^{N}$ ，Bernoulli 模型下的似然為

\mathcal{L}(\mathbf{w}, b) = \prod_{i=1}^{N} p_i^{y_i}(1 - p_i)^{1 - y_i}, \quad p_i = \sigma(\mathbf{w}^{\!\top}\mathbf{x}_i + b)

取負對數即得到二元交叉熵損失：

\mathcal{J}(\mathbf{w}, b) = -\frac{1}{N}\sum_{i=1}^{N} \big[y_i \log p_i + (1 - y_i)\log(1 - p_i)\big]

該損失是凸的，其梯度具有簡潔的形式

\nabla_{\mathbf{w}} \mathcal{J} = \frac{1}{N} \sum_{i=1}^{N} (p_i - y_i)\,\mathbf{x}_i

即特徵向量按預測誤差加權後的平均值。

優化

與線性回歸不同，邏輯回歸沒有閉式解。常見的優化方法包括：

迭代重加權最小二乘（IRLS）：經典的統計算法，等價於在對數似然上應用牛頓法；在小規模問題上只需少數幾次迭代即可收斂。
梯度下降與 L-BFGS：適用於 IRLS 內存開銷過大的中等規模問題。
隨機梯度下降：大規模和在線場景的默認方法，其梯度形式與單層神經網絡完全相同。

正則化

為了防止過擬合並在特徵相關或數量眾多時穩定估計，在損失函數中加入懲罰項：

\mathcal{J}_{\mathrm{reg}}(\mathbf{w}) = \mathcal{J}(\mathbf{w}) + \lambda\, R(\mathbf{w})

L2（ridge）正則化 $R(\mathbf{w}) = \tfrac{1}{2}\|\mathbf{w}\|_2^2$ 將權重收縮至零，對應於高斯先驗。L1（lasso）正則化 $R(\mathbf{w}) = \|\mathbf{w}\|_1$ 促使權重稀疏，並起到特徵選擇的作用。Elastic Net 同時結合了這兩種懲罰。更全面的討論參見Overfitting and Regularization。

多項式擴展

當類別數 $$ K > 2 $$ 時，邏輯回歸推廣為多項邏輯回歸（也稱為 softmax 回歸）：

P(y = k \mid \mathbf{x}) = \frac{\exp(\mathbf{w}_k^{\!\top}\mathbf{x} + b_k)}{\sum_{j=1}^{K} \exp(\mathbf{w}_j^{\!\top}\mathbf{x} + b_j)}

這正是將softmax 函數作用於線性得分，它構成了幾乎所有基於神經網絡構建的現代多類分類器的輸出層。

關聯

邏輯回歸處於統計學與機器學習若干核心主題的交匯處。從結構上看，它是神經網絡最簡單的情形：一個帶有 sigmoid 激活函數的單神經元。其損失函數正是用於訓練深度分類器的交叉熵，而梯度計算則是反向傳播的單步實例。現代實踐中最受青睞的優化器——隨機梯度下降——最初正是在此類廣義線性模型的背景下被開發和分析的。

邏輯回歸同時也是一種採用 Bernoulli 響應和典型 logit 連結函數的廣義線性模型（GLM），與 Poisson 回歸及線性回歸（採用高斯響應和恆等連結）屬於同一族。它與線性判別分析（LDA）密切相關：兩者都產生線性決策邊界，但 LDA 對 $P(\mathbf{x} \mid y)$ 建模，而邏輯回歸直接對 $P(y \mid \mathbf{x})$ 建模，因此是判別式分類器而非生成式分類器。其多項形式直接對應於softmax 函數，是作用於詞嵌入和注意力機制輸出之上的分類器的標準最終層。

參見

參考文獻

Cox, D. R. (1958). "The Regression Analysis of Binary Sequences". Journal of the Royal Statistical Society, Series B, 20(2), 215–242.
Berkson, J. (1944). "Application of the Logistic Function to Bio-Assay". Journal of the American Statistical Association, 39(227), 357–365.
Hosmer, D. W., Lemeshow, S. 與 Sturdivant, R. X. (2013). Applied Logistic Regression（第 3 版）. Wiley.
McCullagh, P. 與 Nelder, J. A. (1989). Generalized Linear Models（第 2 版）. Chapman and Hall.
Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer，第 4 章。
Hastie, T., Tibshirani, R. 與 Friedman, J. (2009). The Elements of Statistical Learning（第 2 版）. Springer，第 4 章。