Logistic regression/zh

    From Marovi AI
    This page is a translated version of the page Logistic regression and the translation is 100% complete.
    Other languages:
    Article
    Topic area Machine Learning
    Difficulty Introductory

    逻辑回归是一种用于二分类的基础统计模型,它通过将特征的线性组合传入逻辑(sigmoid)函数来预测类别结果的概率。尽管名称中带有“回归”,它实际上是一种分类方法而非回归方法,并且仍然是统计学、流行病学和机器学习中使用最广泛、可解释性最强的模型之一。

    概述

    逻辑回归将观测样本属于正类的概率建模为输入特征的函数。给定特征向量 $ \mathbf{x} \in \mathbb{R}^d $ 和二元标签 $ y \in \{0, 1\} $,模型假设正类的对数几率(log-odds)是 $ \mathbf{x} $ 的线性函数。输出被限制在单位区间内,因此可以直接解释为概率,非常适合用于后续决策、校准和风险评分。

    逻辑回归的流行源于一组罕见的优良性质:它是一种具有凸损失的概率分类器,参数容易解释为对数几率比,训练可以通过随机梯度下降扩展到海量数据集,并且它还充当了大多数用于二分类的现代神经网络的最后一层。

    核心概念

    • Sigmoid(逻辑)函数:压缩非线性函数 $ \sigma(z) = 1/(1 + e^{-z}) $,将任意实数映射到 $ (0, 1) $
    • 线性决策边界:在特征空间中,$ \mathbf{w}^{\!\top}\mathbf{x} + b = 0 $ 所定义的点集将两个类别分开;因此逻辑回归是一种线性分类器
    • 对数几率(logit:sigmoid 的反函数 $ \mathrm{logit}(p) = \log\frac{p}{1-p} $;逻辑回归假设 logit 是特征的线性函数。
    • 极大似然估计:通过最大化模型下观测标签的概率来拟合参数。
    • 交叉熵损失:Bernoulli 模型的负对数似然,等同于深度学习中使用的交叉熵损失
    • 凸优化:损失关于参数是凸的,因此任何局部极小值即为全局极小值。

    历史

    逻辑函数由比利时数学家 Pierre François Verhulst 于 1838 年提出,用于建模资源受限条件下的种群增长。在 20 世纪初,它作为统计工具在化学和生物学中得到广泛应用,被用来描述自催化反应和剂量-反应曲线。

    现代统计学形式在 20 世纪中叶定型。Joseph Berkson 于 1944 年推广了术语 logit,作为 Chester Bliss 和 R. A. Fisher 所青睐的 probit 模型的替代方案。David Cox 在 1958 年的论文《The Regression Analysis of Binary Sequences》将逻辑回归确立为统计学中处理二元结果的标准工具,Walker 和 Duncan(1967)则将其扩展到多协变量情形。

    在 1970 和 1980 年代,逻辑回归成为流行病学中病例对照研究的默认模型,部分原因是它产生的几率比对基于结果的抽样具有不变性。随着机器学习的兴起,该模型作为基线分类器以及神经网络的输出层获得了第二次生命。多项逻辑回归通过softmax 函数将模型推广到两类以上,是几乎所有现代深度分类系统背后的核心分类器。

    主要方法

    模型设定

    对于二元标签 $ y \in \{0, 1\} $,逻辑回归建模为

    $ P(y = 1 \mid \mathbf{x}) = \sigma(\mathbf{w}^{\!\top}\mathbf{x} + b) = \frac{1}{1 + e^{-(\mathbf{w}^{\!\top}\mathbf{x} + b)}} $

    等价地,对数几率是线性的:

    $ \log \frac{P(y=1 \mid \mathbf{x})}{P(y=0 \mid \mathbf{x})} = \mathbf{w}^{\!\top}\mathbf{x} + b $

    在保持其他特征不变的情况下,$ x_j $ 每增加一个单位,正类的几率就会乘以 $ e^{w_j} $。将系数直接解释为对数几率比是该模型最具特色的优势之一。

    极大似然与交叉熵

    给定数据集 $ \{(\mathbf{x}_i, y_i)\}_{i=1}^{N} $,Bernoulli 模型下的似然为

    $ \mathcal{L}(\mathbf{w}, b) = \prod_{i=1}^{N} p_i^{y_i}(1 - p_i)^{1 - y_i}, \quad p_i = \sigma(\mathbf{w}^{\!\top}\mathbf{x}_i + b) $

    取负对数即得到二元交叉熵损失:

    $ \mathcal{J}(\mathbf{w}, b) = -\frac{1}{N}\sum_{i=1}^{N} \big[y_i \log p_i + (1 - y_i)\log(1 - p_i)\big] $

    该损失是凸的,其梯度具有简洁的形式

    $ \nabla_{\mathbf{w}} \mathcal{J} = \frac{1}{N} \sum_{i=1}^{N} (p_i - y_i)\,\mathbf{x}_i $

    即特征向量按预测误差加权后的平均值。

    优化

    与线性回归不同,逻辑回归没有闭式解。常见的优化方法包括:

    • 迭代重加权最小二乘(IRLS):经典的统计算法,等价于在对数似然上应用牛顿法;在小规模问题上只需少数几次迭代即可收敛。
    • 梯度下降与 L-BFGS:适用于 IRLS 内存开销过大的中等规模问题。
    • 随机梯度下降:大规模和在线场景的默认方法,其梯度形式与单层神经网络完全相同。

    正则化

    为了防止过拟合并在特征相关或数量众多时稳定估计,在损失函数中加入惩罚项:

    $ \mathcal{J}_{\mathrm{reg}}(\mathbf{w}) = \mathcal{J}(\mathbf{w}) + \lambda\, R(\mathbf{w}) $

    L2(ridge)正则化 $ R(\mathbf{w}) = \tfrac{1}{2}\|\mathbf{w}\|_2^2 $ 将权重收缩至零,对应于高斯先验。L1(lasso)正则化 $ R(\mathbf{w}) = \|\mathbf{w}\|_1 $ 促使权重稀疏,并起到特征选择的作用。Elastic Net 同时结合了这两种惩罚。更全面的讨论参见Overfitting and Regularization

    多项式扩展

    当类别数 $ K > 2 $ 时,逻辑回归推广为多项逻辑回归(也称为 softmax 回归):

    $ P(y = k \mid \mathbf{x}) = \frac{\exp(\mathbf{w}_k^{\!\top}\mathbf{x} + b_k)}{\sum_{j=1}^{K} \exp(\mathbf{w}_j^{\!\top}\mathbf{x} + b_j)} $

    这正是将softmax 函数作用于线性得分,它构成了几乎所有基于神经网络构建的现代多类分类器的输出层。

    关联

    逻辑回归处于统计学与机器学习若干核心主题的交汇处。从结构上看,它是神经网络最简单的情形:一个带有 sigmoid 激活函数的单神经元。其损失函数正是用于训练深度分类器的交叉熵,而梯度计算则是反向传播的单步实例。现代实践中最受青睐的优化器——随机梯度下降——最初正是在此类广义线性模型的背景下被开发和分析的。

    逻辑回归同时也是一种采用 Bernoulli 响应和典型 logit 链接函数的广义线性模型(GLM),与 Poisson 回归及线性回归(采用高斯响应和恒等链接)属于同一族。它与线性判别分析(LDA)密切相关:两者都产生线性决策边界,但 LDA 对 $ P(\mathbf{x} \mid y) $ 建模,而逻辑回归直接对 $ P(y \mid \mathbf{x}) $ 建模,因此是判别式分类器而非生成式分类器。其多项形式直接对应于softmax 函数,是作用于词嵌入注意力机制输出之上的分类器的标准最终层。

    参见

    参考文献

    • Cox, D. R. (1958). "The Regression Analysis of Binary Sequences". Journal of the Royal Statistical Society, Series B, 20(2), 215–242.
    • Berkson, J. (1944). "Application of the Logistic Function to Bio-Assay". Journal of the American Statistical Association, 39(227), 357–365.
    • Hosmer, D. W., Lemeshow, S. 与 Sturdivant, R. X. (2013). Applied Logistic Regression(第 3 版). Wiley.
    • McCullagh, P. 与 Nelder, J. A. (1989). Generalized Linear Models(第 2 版). Chapman and Hall.
    • Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer,第 4 章。
    • Hastie, T., Tibshirani, R. 与 Friedman, J. (2009). The Elements of Statistical Learning(第 2 版). Springer,第 4 章。