Neural Networks/zh

Article
Topic area	Deep Learning
Difficulty	Introductory

Languages: English | Español | 中文

神经网络（Neural Networks）（也称为人工神经网络，即ANN）是受生物神经系统结构启发的计算模型。它们由称为神经元（Neuron）（或节点）的简单处理单元组成的互连层构成，是现代深度学习（Deep Learning）的基础。

生物学启发

生物神经元通过其树突（Dendrite）接收电信号，在细胞体中进行整合，如果综合信号超过阈值，则沿其轴突（Axon）向下游神经元发送输出信号。人工神经网络对这一过程进行了抽象：每个人工神经元计算其输入的加权和，加上一个偏置项，然后通过一个非线性的激活函数（Activation Function）传递结果。

虽然与生物学的类比激发了早期研究，但现代神经网络最好被理解为灵活的参数化函数逼近器，而非忠实的大脑模拟。

感知机

感知机（Perceptron）由Frank Rosenblatt于1958年提出，是最简单的神经网络。它计算：

y = \sigma\!\left(\sum_{i=1}^{n} w_i x_i + b\right) = \sigma(\mathbf{w}^\top \mathbf{x} + b)

其中 $\mathbf{x}$ 是输入向量， $\mathbf{w}$ 是可学习的权重， $$ b $$ 是偏置， $\sigma$ 是一个阶跃函数，当参数为正时输出1，否则输出0。感知机可以学习任何线性可分函数，但众所周知无法表示异或（XOR）函数——这一局限性使神经网络研究停滞了十多年。

前馈网络

前馈神经网络（Feedforward Neural Network）（也称为多层感知机，即MLP）将多层神经元堆叠在一起。信息单向流动——从输入层经过一个或多个隐藏层（Hidden Layer）到达输出层。

对于具有一个隐藏层的网络，计算过程为：

\mathbf{h} = g(\mathbf{W}_1 \mathbf{x} + \mathbf{b}_1)

\mathbf{y} = f(\mathbf{W}_2 \mathbf{h} + \mathbf{b}_2)

其中 $$ g $$ 和 $$ f $$ 是激活函数， $\mathbf{W}_1, \mathbf{W}_2$ 是权重矩阵， $\mathbf{b}_1, \mathbf{b}_2$ 是偏置向量。隐藏层使网络能够学习单个感知机无法捕捉的非线性关系。

具有多个隐藏层的网络称为深度神经网络，训练它们是深度学习的研究主题。

激活函数

激活函数引入了非线性；没有它，多层网络将退化为单个线性变换。常见的选择包括：

函数	公式	值域	备注
Sigmoid	$\sigma(z) = \frac{1}{1+e^{-z}}$	(0, 1)	历史上广泛使用；存在梯度消失问题
Tanh	$\tanh(z) = \frac{e^z - e^{-z}}{e^z + e^{-z}}$	(−1, 1)	以零为中心；对于大输入仍会饱和
ReLU	$\max(0, z)$	[0, ∞)	现代网络的默认选择；可能导致"死亡神经元"
Leaky ReLU	$\max(\alpha z, z)$ ，其中 $\alpha > 0$ 较小	(−∞, ∞)	解决了死亡神经元问题
Softmax	$\frac{e^{z_i}}{\sum_j e^{z_j}}$	(0, 1)	用于多分类任务的输出层

万能近似定理

万能近似定理（Universal Approximation Theorem）（Cybenko 1989，Hornik 1991）指出，一个包含有限个神经元的单隐藏层前馈网络，在激活函数满足温和条件（例如非常数、有界、连续）的前提下，可以在 $\mathbb{R}^n$ 的紧子集上以任意精度逼近任何连续函数。

该定理保证了良好近似的存在性，但没有说明如何找到它——在实践中，训练具有多层的深度网络比使用单个宽层要有效得多。

训练概述

训练神经网络包括以下步骤：

定义损失函数（Loss Function） — 衡量网络预测与真实目标之间差距的指标（参见Loss Functions）。
前向传播 — 逐层传播数值，计算给定输入的网络输出。
反向传播（Backpropagation） — 通过在网络中反向应用链式法则，计算损失相对于每个权重的梯度（参见Backpropagation）。
参数更新 — 使用梯度下降等优化算法调整权重。
迭代 — 在训练数据上重复步骤2-4多次遍历（轮次/Epoch）。

成功的训练还需要注意初始化（例如Xavier或He方案）、正则化（Regularization）（以防止过拟合）以及超参数调优（学习率、批量大小、网络架构）。

常见架构

除了基本的前馈网络，还发展出了几种专门的架构：

卷积神经网络（CNN）— 专为图像等网格结构数据设计，使用局部连接和权重共享。
循环神经网络（RNN）— 专为序列数据设计，具有形成循环的连接以维持隐藏状态。
Transformer — 基于注意力机制的架构，已在自然语言处理中占据主导地位，并越来越多地应用于视觉领域。
自编码器（Autoencoder） — 训练重建其输入的网络，用于降维和生成建模。
生成对抗网络（GAN） — 一对网络（生成器和判别器）通过竞争训练来生成逼真的数据。

应用

神经网络被应用于广泛的领域：

计算机视觉（图像分类、目标检测、语义分割）
自然语言处理（翻译、摘要、问答）
语音识别与合成
游戏博弈（AlphaGo、Atari智能体）
科学发现（蛋白质折叠、药物设计、天气预测）
自动驾驶与机器人

参见

参考文献

Rosenblatt, F. (1958). "The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain". Psychological Review.
Cybenko, G. (1989). "Approximation by Superpositions of a Sigmoidal Function". Mathematics of Control, Signals, and Systems.
Hornik, K. (1991). "Approximation Capabilities of Multilayer Feedforward Networks". Neural Networks.
LeCun, Y., Bengio, Y. and Hinton, G. (2015). "Deep learning". Nature, 521, 436–444.
Goodfellow, I., Bengio, Y. and Courville, A. (2016). Deep Learning. MIT Press.