Neural Networks/zh: Difference between revisions
(Force re-parse after Math source-mode rollout (v1.2.0)) Tags: ci-deploy Reverted |
([deploy-bot] Deploy from CI (8c92aeb)) Tags: ci-deploy Manual revert |
||
| (One intermediate revision by the same user not shown) | |||
| Line 111: | Line 111: | ||
[[Category:Introductory]] | [[Category:Introductory]] | ||
[[Category:Neural Networks]] | [[Category:Neural Networks]] | ||
Latest revision as of 07:09, 24 April 2026
| Article | |
|---|---|
| Topic area | Deep Learning |
| Difficulty | Introductory |
神经网络(Neural Networks)(也称为人工神经网络,即ANN)是受生物神经系统结构启发的计算模型。它们由称为神经元(Neuron)(或节点)的简单处理单元组成的互连层构成,是现代深度学习(Deep Learning)的基础。
生物学启发
生物神经元通过其树突(Dendrite)接收电信号,在细胞体中进行整合,如果综合信号超过阈值,则沿其轴突(Axon)向下游神经元发送输出信号。人工神经网络对这一过程进行了抽象:每个人工神经元计算其输入的加权和,加上一个偏置项,然后通过一个非线性的激活函数(Activation Function)传递结果。
虽然与生物学的类比激发了早期研究,但现代神经网络最好被理解为灵活的参数化函数逼近器,而非忠实的大脑模拟。
感知机
感知机(Perceptron)由Frank Rosenblatt于1958年提出,是最简单的神经网络。它计算:
- $ y = \sigma\!\left(\sum_{i=1}^{n} w_i x_i + b\right) = \sigma(\mathbf{w}^\top \mathbf{x} + b) $
其中 $ \mathbf{x} $ 是输入向量,$ \mathbf{w} $ 是可学习的权重,$ b $ 是偏置,$ \sigma $ 是一个阶跃函数,当参数为正时输出1,否则输出0。感知机可以学习任何线性可分函数,但众所周知无法表示异或(XOR)函数——这一局限性使神经网络研究停滞了十多年。
前馈网络
前馈神经网络(Feedforward Neural Network)(也称为多层感知机,即MLP)将多层神经元堆叠在一起。信息单向流动——从输入层经过一个或多个隐藏层(Hidden Layer)到达输出层。
对于具有一个隐藏层的网络,计算过程为:
- $ \mathbf{h} = g(\mathbf{W}_1 \mathbf{x} + \mathbf{b}_1) $
- $ \mathbf{y} = f(\mathbf{W}_2 \mathbf{h} + \mathbf{b}_2) $
其中 $ g $ 和 $ f $ 是激活函数,$ \mathbf{W}_1, \mathbf{W}_2 $ 是权重矩阵,$ \mathbf{b}_1, \mathbf{b}_2 $ 是偏置向量。隐藏层使网络能够学习单个感知机无法捕捉的非线性关系。
具有多个隐藏层的网络称为深度神经网络,训练它们是深度学习的研究主题。
激活函数
激活函数引入了非线性;没有它,多层网络将退化为单个线性变换。常见的选择包括:
| 函数 | 公式 | 值域 | 备注 |
|---|---|---|---|
| Sigmoid | $ \sigma(z) = \frac{1}{1+e^{-z}} $ | (0, 1) | 历史上广泛使用;存在梯度消失问题 |
| Tanh | $ \tanh(z) = \frac{e^z - e^{-z}}{e^z + e^{-z}} $ | (−1, 1) | 以零为中心;对于大输入仍会饱和 |
| ReLU | $ \max(0, z) $ | [0, ∞) | 现代网络的默认选择;可能导致"死亡神经元" |
| Leaky ReLU | $ \max(\alpha z, z) $,其中 $ \alpha > 0 $ 较小 | (−∞, ∞) | 解决了死亡神经元问题 |
| Softmax | $ \frac{e^{z_i}}{\sum_j e^{z_j}} $ | (0, 1) | 用于多分类任务的输出层 |
万能近似定理
万能近似定理(Universal Approximation Theorem)(Cybenko 1989,Hornik 1991)指出,一个包含有限个神经元的单隐藏层前馈网络,在激活函数满足温和条件(例如非常数、有界、连续)的前提下,可以在 $ \mathbb{R}^n $ 的紧子集上以任意精度逼近任何连续函数。
该定理保证了良好近似的存在性,但没有说明如何找到它——在实践中,训练具有多层的深度网络比使用单个宽层要有效得多。
训练概述
训练神经网络包括以下步骤:
- 定义损失函数(Loss Function) — 衡量网络预测与真实目标之间差距的指标(参见Loss Functions)。
- 前向传播 — 逐层传播数值,计算给定输入的网络输出。
- 反向传播(Backpropagation) — 通过在网络中反向应用链式法则,计算损失相对于每个权重的梯度(参见Backpropagation)。
- 参数更新 — 使用梯度下降等优化算法调整权重。
- 迭代 — 在训练数据上重复步骤2-4多次遍历(轮次/Epoch)。
成功的训练还需要注意初始化(例如Xavier或He方案)、正则化(Regularization)(以防止过拟合)以及超参数调优(学习率、批量大小、网络架构)。
常见架构
除了基本的前馈网络,还发展出了几种专门的架构:
- 卷积神经网络(CNN)— 专为图像等网格结构数据设计,使用局部连接和权重共享。
- 循环神经网络(RNN)— 专为序列数据设计,具有形成循环的连接以维持隐藏状态。
- Transformer — 基于注意力机制的架构,已在自然语言处理中占据主导地位,并越来越多地应用于视觉领域。
- 自编码器(Autoencoder) — 训练重建其输入的网络,用于降维和生成建模。
- 生成对抗网络(GAN) — 一对网络(生成器和判别器)通过竞争训练来生成逼真的数据。
应用
神经网络被应用于广泛的领域:
- 计算机视觉(图像分类、目标检测、语义分割)
- 自然语言处理(翻译、摘要、问答)
- 语音识别与合成
- 游戏博弈(AlphaGo、Atari智能体)
- 科学发现(蛋白质折叠、药物设计、天气预测)
- 自动驾驶与机器人
参见
- Gradient Descent
- Backpropagation
- Loss Functions
- Convolutional Neural Networks
- Recurrent Neural Networks
- Overfitting and Regularization
参考文献
- Rosenblatt, F. (1958). "The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain". Psychological Review.
- Cybenko, G. (1989). "Approximation by Superpositions of a Sigmoidal Function". Mathematics of Control, Signals, and Systems.
- Hornik, K. (1991). "Approximation Capabilities of Multilayer Feedforward Networks". Neural Networks.
- LeCun, Y., Bengio, Y. and Hinton, G. (2015). "Deep learning". Nature, 521, 436–444.
- Goodfellow, I., Bengio, Y. and Courville, A. (2016). Deep Learning. MIT Press.