Neural Networks/zh

    From Marovi AI
    < Neural Networks
    Revision as of 07:01, 24 April 2026 by DeployBot (talk | contribs) (Pass 2 force re-parse)
    Languages: English | Español | 中文
    Article
    Topic area Deep Learning
    Difficulty Introductory

    神经网络(Neural Networks)(也称为人工神经网络,即ANN)是受生物神经系统结构启发的计算模型。它们由称为神经元(Neuron)(或节点)的简单处理单元组成的互连层构成,是现代深度学习(Deep Learning)的基础。

    生物学启发

    生物神经元通过其树突(Dendrite)接收电信号,在细胞体中进行整合,如果综合信号超过阈值,则沿其轴突(Axon)向下游神经元发送输出信号。人工神经网络对这一过程进行了抽象:每个人工神经元计算其输入的加权和,加上一个偏置项,然后通过一个非线性的激活函数(Activation Function)传递结果。

    虽然与生物学的类比激发了早期研究,但现代神经网络最好被理解为灵活的参数化函数逼近器,而非忠实的大脑模拟。

    感知机

    感知机(Perceptron)由Frank Rosenblatt于1958年提出,是最简单的神经网络。它计算:

    $ y = \sigma\!\left(\sum_{i=1}^{n} w_i x_i + b\right) = \sigma(\mathbf{w}^\top \mathbf{x} + b) $

    其中 $ \mathbf{x} $ 是输入向量,$ \mathbf{w} $ 是可学习的权重,$ b $ 是偏置,$ \sigma $ 是一个阶跃函数,当参数为正时输出1,否则输出0。感知机可以学习任何线性可分函数,但众所周知无法表示异或(XOR)函数——这一局限性使神经网络研究停滞了十多年。

    前馈网络

    前馈神经网络(Feedforward Neural Network)(也称为多层感知机,即MLP)将多层神经元堆叠在一起。信息单向流动——从输入层经过一个或多个隐藏层(Hidden Layer)到达输出层

    对于具有一个隐藏层的网络,计算过程为:

    $ \mathbf{h} = g(\mathbf{W}_1 \mathbf{x} + \mathbf{b}_1) $
    $ \mathbf{y} = f(\mathbf{W}_2 \mathbf{h} + \mathbf{b}_2) $

    其中 $ g $$ f $ 是激活函数,$ \mathbf{W}_1, \mathbf{W}_2 $ 是权重矩阵,$ \mathbf{b}_1, \mathbf{b}_2 $ 是偏置向量。隐藏层使网络能够学习单个感知机无法捕捉的非线性关系。

    具有多个隐藏层的网络称为深度神经网络,训练它们是深度学习的研究主题。

    激活函数

    激活函数引入了非线性;没有它,多层网络将退化为单个线性变换。常见的选择包括:

    函数 公式 值域 备注
    Sigmoid $ \sigma(z) = \frac{1}{1+e^{-z}} $ (0, 1) 历史上广泛使用;存在梯度消失问题
    Tanh $ \tanh(z) = \frac{e^z - e^{-z}}{e^z + e^{-z}} $ (−1, 1) 以零为中心;对于大输入仍会饱和
    ReLU $ \max(0, z) $ [0, ∞) 现代网络的默认选择;可能导致"死亡神经元"
    Leaky ReLU $ \max(\alpha z, z) $,其中 $ \alpha > 0 $ 较小 (−∞, ∞) 解决了死亡神经元问题
    Softmax $ \frac{e^{z_i}}{\sum_j e^{z_j}} $ (0, 1) 用于多分类任务的输出层

    万能近似定理

    万能近似定理(Universal Approximation Theorem)(Cybenko 1989,Hornik 1991)指出,一个包含有限个神经元的单隐藏层前馈网络,在激活函数满足温和条件(例如非常数、有界、连续)的前提下,可以在 $ \mathbb{R}^n $ 的紧子集上以任意精度逼近任何连续函数。

    该定理保证了良好近似的存在性,但没有说明如何找到它——在实践中,训练具有多层的深度网络比使用单个宽层要有效得多。

    训练概述

    训练神经网络包括以下步骤:

    1. 定义损失函数(Loss Function) — 衡量网络预测与真实目标之间差距的指标(参见Loss Functions)。
    2. 前向传播 — 逐层传播数值,计算给定输入的网络输出。
    3. 反向传播(Backpropagation) — 通过在网络中反向应用链式法则,计算损失相对于每个权重的梯度(参见Backpropagation)。
    4. 参数更新 — 使用梯度下降等优化算法调整权重。
    5. 迭代 — 在训练数据上重复步骤2-4多次遍历(轮次/Epoch)。

    成功的训练还需要注意初始化(例如Xavier或He方案)、正则化(Regularization)(以防止过拟合)以及超参数调优(学习率、批量大小、网络架构)。

    常见架构

    除了基本的前馈网络,还发展出了几种专门的架构:

    • 卷积神经网络(CNN)— 专为图像等网格结构数据设计,使用局部连接和权重共享。
    • 循环神经网络(RNN)— 专为序列数据设计,具有形成循环的连接以维持隐藏状态。
    • Transformer — 基于注意力机制的架构,已在自然语言处理中占据主导地位,并越来越多地应用于视觉领域。
    • 自编码器(Autoencoder) — 训练重建其输入的网络,用于降维和生成建模。
    • 生成对抗网络(GAN) — 一对网络(生成器和判别器)通过竞争训练来生成逼真的数据。

    应用

    神经网络被应用于广泛的领域:

    • 计算机视觉(图像分类、目标检测、语义分割)
    • 自然语言处理(翻译、摘要、问答)
    • 语音识别与合成
    • 游戏博弈(AlphaGo、Atari智能体)
    • 科学发现(蛋白质折叠、药物设计、天气预测)
    • 自动驾驶与机器人

    参见

    参考文献

    • Rosenblatt, F. (1958). "The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain". Psychological Review.
    • Cybenko, G. (1989). "Approximation by Superpositions of a Sigmoidal Function". Mathematics of Control, Signals, and Systems.
    • Hornik, K. (1991). "Approximation Capabilities of Multilayer Feedforward Networks". Neural Networks.
    • LeCun, Y., Bengio, Y. and Hinton, G. (2015). "Deep learning". Nature, 521, 436–444.
    • Goodfellow, I., Bengio, Y. and Courville, A. (2016). Deep Learning. MIT Press.