Logistic regression/zh

Article
Topic area	Machine Learning
Difficulty	Introductory

This page is a translated version of the page Logistic regression and the translation is 100% complete.

Other languages:

English
Español
中文

逻辑回归是一种用于二分类的基础统计模型，它通过将特征的线性组合传入逻辑（sigmoid）函数来预测类别结果的概率。尽管名称中带有“回归”，它实际上是一种分类方法而非回归方法，并且仍然是统计学、流行病学和机器学习中使用最广泛、可解释性最强的模型之一。

概述

逻辑回归将观测样本属于正类的概率建模为输入特征的函数。给定特征向量 $\mathbf{x} \in \mathbb{R}^d$ 和二元标签 $y \in \{0, 1\}$ ，模型假设正类的对数几率（log-odds）是 $\mathbf{x}$ 的线性函数。输出被限制在单位区间内，因此可以直接解释为概率，非常适合用于后续决策、校准和风险评分。

逻辑回归的流行源于一组罕见的优良性质：它是一种具有凸损失的概率分类器，参数容易解释为对数几率比，训练可以通过随机梯度下降扩展到海量数据集，并且它还充当了大多数用于二分类的现代神经网络的最后一层。

核心概念

Sigmoid（逻辑）函数：压缩非线性函数 $\sigma(z) = 1/(1 + e^{-z})$ ，将任意实数映射到 $$ (0, 1) $$ 。
线性决策边界：在特征空间中， $\mathbf{w}^{\!\top}\mathbf{x} + b = 0$ 所定义的点集将两个类别分开；因此逻辑回归是一种线性分类器。
对数几率（logit）：sigmoid 的反函数 $\mathrm{logit}(p) = \log\frac{p}{1-p}$ ；逻辑回归假设 logit 是特征的线性函数。
极大似然估计：通过最大化模型下观测标签的概率来拟合参数。
交叉熵损失：Bernoulli 模型的负对数似然，等同于深度学习中使用的交叉熵损失。
凸优化：损失关于参数是凸的，因此任何局部极小值即为全局极小值。

历史

逻辑函数由比利时数学家 Pierre François Verhulst 于 1838 年提出，用于建模资源受限条件下的种群增长。在 20 世纪初，它作为统计工具在化学和生物学中得到广泛应用，被用来描述自催化反应和剂量-反应曲线。

现代统计学形式在 20 世纪中叶定型。Joseph Berkson 于 1944 年推广了术语 logit，作为 Chester Bliss 和 R. A. Fisher 所青睐的 probit 模型的替代方案。David Cox 在 1958 年的论文《The Regression Analysis of Binary Sequences》将逻辑回归确立为统计学中处理二元结果的标准工具，Walker 和 Duncan（1967）则将其扩展到多协变量情形。

在 1970 和 1980 年代，逻辑回归成为流行病学中病例对照研究的默认模型，部分原因是它产生的几率比对基于结果的抽样具有不变性。随着机器学习的兴起，该模型作为基线分类器以及神经网络的输出层获得了第二次生命。多项逻辑回归通过softmax 函数将模型推广到两类以上，是几乎所有现代深度分类系统背后的核心分类器。

主要方法

模型设定

对于二元标签 $y \in \{0, 1\}$ ，逻辑回归建模为

P(y = 1 \mid \mathbf{x}) = \sigma(\mathbf{w}^{\!\top}\mathbf{x} + b) = \frac{1}{1 + e^{-(\mathbf{w}^{\!\top}\mathbf{x} + b)}}

等价地，对数几率是线性的：

\log \frac{P(y=1 \mid \mathbf{x})}{P(y=0 \mid \mathbf{x})} = \mathbf{w}^{\!\top}\mathbf{x} + b

在保持其他特征不变的情况下， $$ x_j $$ 每增加一个单位，正类的几率就会乘以 $e^{w_j}$ 。将系数直接解释为对数几率比是该模型最具特色的优势之一。

极大似然与交叉熵

给定数据集 $\{(\mathbf{x}_i, y_i)\}_{i=1}^{N}$ ，Bernoulli 模型下的似然为

\mathcal{L}(\mathbf{w}, b) = \prod_{i=1}^{N} p_i^{y_i}(1 - p_i)^{1 - y_i}, \quad p_i = \sigma(\mathbf{w}^{\!\top}\mathbf{x}_i + b)

取负对数即得到二元交叉熵损失：

\mathcal{J}(\mathbf{w}, b) = -\frac{1}{N}\sum_{i=1}^{N} \big[y_i \log p_i + (1 - y_i)\log(1 - p_i)\big]

该损失是凸的，其梯度具有简洁的形式

\nabla_{\mathbf{w}} \mathcal{J} = \frac{1}{N} \sum_{i=1}^{N} (p_i - y_i)\,\mathbf{x}_i

即特征向量按预测误差加权后的平均值。

优化

与线性回归不同，逻辑回归没有闭式解。常见的优化方法包括：

迭代重加权最小二乘（IRLS）：经典的统计算法，等价于在对数似然上应用牛顿法；在小规模问题上只需少数几次迭代即可收敛。
梯度下降与 L-BFGS：适用于 IRLS 内存开销过大的中等规模问题。
随机梯度下降：大规模和在线场景的默认方法，其梯度形式与单层神经网络完全相同。

正则化

为了防止过拟合并在特征相关或数量众多时稳定估计，在损失函数中加入惩罚项：

\mathcal{J}_{\mathrm{reg}}(\mathbf{w}) = \mathcal{J}(\mathbf{w}) + \lambda\, R(\mathbf{w})

L2（ridge）正则化 $R(\mathbf{w}) = \tfrac{1}{2}\|\mathbf{w}\|_2^2$ 将权重收缩至零，对应于高斯先验。L1（lasso）正则化 $R(\mathbf{w}) = \|\mathbf{w}\|_1$ 促使权重稀疏，并起到特征选择的作用。Elastic Net 同时结合了这两种惩罚。更全面的讨论参见Overfitting and Regularization。

多项式扩展

当类别数 $$ K > 2 $$ 时，逻辑回归推广为多项逻辑回归（也称为 softmax 回归）：

P(y = k \mid \mathbf{x}) = \frac{\exp(\mathbf{w}_k^{\!\top}\mathbf{x} + b_k)}{\sum_{j=1}^{K} \exp(\mathbf{w}_j^{\!\top}\mathbf{x} + b_j)}

这正是将softmax 函数作用于线性得分，它构成了几乎所有基于神经网络构建的现代多类分类器的输出层。

关联

逻辑回归处于统计学与机器学习若干核心主题的交汇处。从结构上看，它是神经网络最简单的情形：一个带有 sigmoid 激活函数的单神经元。其损失函数正是用于训练深度分类器的交叉熵，而梯度计算则是反向传播的单步实例。现代实践中最受青睐的优化器——随机梯度下降——最初正是在此类广义线性模型的背景下被开发和分析的。

逻辑回归同时也是一种采用 Bernoulli 响应和典型 logit 链接函数的广义线性模型（GLM），与 Poisson 回归及线性回归（采用高斯响应和恒等链接）属于同一族。它与线性判别分析（LDA）密切相关：两者都产生线性决策边界，但 LDA 对 $P(\mathbf{x} \mid y)$ 建模，而逻辑回归直接对 $P(y \mid \mathbf{x})$ 建模，因此是判别式分类器而非生成式分类器。其多项形式直接对应于softmax 函数，是作用于词嵌入和注意力机制输出之上的分类器的标准最终层。

参见

参考文献

Cox, D. R. (1958). "The Regression Analysis of Binary Sequences". Journal of the Royal Statistical Society, Series B, 20(2), 215–242.
Berkson, J. (1944). "Application of the Logistic Function to Bio-Assay". Journal of the American Statistical Association, 39(227), 357–365.
Hosmer, D. W., Lemeshow, S. 与 Sturdivant, R. X. (2013). Applied Logistic Regression（第 3 版）. Wiley.
McCullagh, P. 与 Nelder, J. A. (1989). Generalized Linear Models（第 2 版）. Chapman and Hall.
Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer，第 4 章。
Hastie, T., Tibshirani, R. 与 Friedman, J. (2009). The Elements of Statistical Learning（第 2 版）. Springer，第 4 章。