DeployBot: [deploy-bot] Deploy from CI (8c92aeb)

2026-04-24T07:09:02Z

[deploy-bot] Deploy from CI (8c92aeb)

← Older revision		Revision as of 07:09, 24 April 2026
Line 111:		Line 111:
	[[Category:Introductory]]		[[Category:Introductory]]
	[[Category:Neural Networks]]		[[Category:Neural Networks]]
	~~<!--v1.2.0 cache-bust-->~~
	~~<!-- pass 2 -->~~

DeployBot: Pass 2 force re-parse

2026-04-24T07:01:06Z

Pass 2 force re-parse

← Older revision		Revision as of 07:01, 24 April 2026
Line 112:		Line 112:
	[[Category:Neural Networks]]		[[Category:Neural Networks]]
	<!--v1.2.0 cache-bust-->		<!--v1.2.0 cache-bust-->
			<!-- pass 2 -->

DeployBot: Force re-parse after Math source-mode rollout (v1.2.0)

2026-04-24T06:58:28Z

Force re-parse after Math source-mode rollout (v1.2.0)

← Older revision		Revision as of 06:58, 24 April 2026
Line 111:		Line 111:
	[[Category:Introductory]]		[[Category:Introductory]]
	[[Category:Neural Networks]]		[[Category:Neural Networks]]
			<!--v1.2.0 cache-bust-->

DeployBot: [deploy-bot] Deploy from CI (775ba6e)

2026-04-24T04:01:53Z

[deploy-bot] Deploy from CI (775ba6e)

New page

{{LanguageBar | page = Neural Networks}}
{{ArticleInfobox | topic_area = Deep Learning | difficulty = Introductory | prerequisites = }}
{{ContentMeta | generated_by = claude-opus | model_used = claude-opus-4-6 | generated_date = 2026-03-13}}

'''神经网络（Neural Networks）'''（也称为'''人工神经网络'''，即ANN）是受生物神经系统结构启发的计算模型。它们由称为'''神经元（Neuron）'''（或节点）的简单处理单元组成的互连层构成，是现代深度学习（Deep Learning）的基础。

== 生物学启发 ==

生物神经元通过其'''树突（Dendrite）'''接收电信号，在'''细胞体'''中进行整合，如果综合信号超过阈值，则沿其'''轴突（Axon）'''向下游神经元发送输出信号。人工神经网络对这一过程进行了抽象：每个人工神经元计算其输入的加权和，加上一个偏置项，然后通过一个非线性的'''激活函数（Activation Function）'''传递结果。

虽然与生物学的类比激发了早期研究，但现代神经网络最好被理解为灵活的参数化函数逼近器，而非忠实的大脑模拟。

== 感知机 ==

'''感知机（Perceptron）'''由Frank Rosenblatt于1958年提出，是最简单的神经网络。它计算：

:<math>y = \sigma\!\left(\sum_{i=1}^{n} w_i x_i + b\right) = \sigma(\mathbf{w}^\top \mathbf{x} + b)</math>

其中 <math>\mathbf{x}</math> 是输入向量，<math>\mathbf{w}</math> 是可学习的权重，<math>b</math> 是偏置，<math>\sigma</math> 是一个阶跃函数，当参数为正时输出1，否则输出0。感知机可以学习任何线性可分函数，但众所周知无法表示异或（XOR）函数——这一局限性使神经网络研究停滞了十多年。

== 前馈网络 ==

'''前馈神经网络（Feedforward Neural Network）'''（也称为'''多层感知机'''，即MLP）将多层神经元堆叠在一起。信息单向流动——从'''输入层'''经过一个或多个'''隐藏层（Hidden Layer）'''到达'''输出层'''。

对于具有一个隐藏层的网络，计算过程为：

:<math>\mathbf{h} = g(\mathbf{W}_1 \mathbf{x} + \mathbf{b}_1)</math>

:<math>\mathbf{y} = f(\mathbf{W}_2 \mathbf{h} + \mathbf{b}_2)</math>

其中 <math>g</math> 和 <math>f</math> 是激活函数，<math>\mathbf{W}_1, \mathbf{W}_2</math> 是权重矩阵，<math>\mathbf{b}_1, \mathbf{b}_2</math> 是偏置向量。隐藏层使网络能够学习单个感知机无法捕捉的非线性关系。

具有多个隐藏层的网络称为'''深度'''神经网络，训练它们是'''深度学习'''的研究主题。

== 激活函数 ==

激活函数引入了非线性；没有它，多层网络将退化为单个线性变换。常见的选择包括：

{| class="wikitable"
|-
! 函数 !! 公式 !! 值域 !! 备注
|-
| '''Sigmoid''' || <math>\sigma(z) = \frac{1}{1+e^{-z}}</math> || (0, 1) || 历史上广泛使用；存在梯度消失问题
|-
| '''Tanh''' || <math>\tanh(z) = \frac{e^z - e^{-z}}{e^z + e^{-z}}</math> || (−1, 1) || 以零为中心；对于大输入仍会饱和
|-
| '''ReLU''' || <math>\max(0, z)</math> || [0, ∞) || 现代网络的默认选择；可能导致"死亡神经元"
|-
| '''Leaky ReLU''' || <math>\max(\alpha z, z)</math>，其中 <math>\alpha > 0</math> 较小 || (−∞, ∞) || 解决了死亡神经元问题
|-
| '''Softmax''' || <math>\frac{e^{z_i}}{\sum_j e^{z_j}}</math> || (0, 1) || 用于多分类任务的输出层
|}

== 万能近似定理 ==

'''万能近似定理（Universal Approximation Theorem）'''（Cybenko 1989，Hornik 1991）指出，一个包含有限个神经元的单隐藏层前馈网络，在激活函数满足温和条件（例如非常数、有界、连续）的前提下，可以在 <math>\mathbb{R}^n</math> 的紧子集上以任意精度逼近任何连续函数。

该定理保证了良好近似的''存在性''，但没有说明如何''找到''它——在实践中，训练具有多层的深度网络比使用单个宽层要有效得多。

== 训练概述 ==

训练神经网络包括以下步骤：

# '''定义损失函数（Loss Function）''' — 衡量网络预测与真实目标之间差距的指标（参见[[Loss Functions]]）。
# '''前向传播''' — 逐层传播数值，计算给定输入的网络输出。
# '''反向传播（Backpropagation）''' — 通过在网络中反向应用链式法则，计算损失相对于每个权重的梯度（参见[[Backpropagation]]）。
# '''参数更新''' — 使用[[Gradient Descent|梯度下降]]等优化算法调整权重。
# '''迭代''' — 在训练数据上重复步骤2-4多次遍历（轮次/Epoch）。

成功的训练还需要注意'''初始化'''（例如Xavier或He方案）、'''正则化（Regularization）'''（以防止[[Overfitting and Regularization|过拟合]]）以及'''超参数调优'''（学习率、批量大小、网络架构）。

== 常见架构 ==

除了基本的前馈网络，还发展出了几种专门的架构：

* '''[[Convolutional Neural Networks|卷积神经网络]]'''（CNN）— 专为图像等网格结构数据设计，使用局部连接和权重共享。
* '''[[Recurrent Neural Networks|循环神经网络]]'''（RNN）— 专为序列数据设计，具有形成循环的连接以维持隐藏状态。
* '''Transformer''' — 基于注意力机制的架构，已在自然语言处理中占据主导地位，并越来越多地应用于视觉领域。
* '''自编码器（Autoencoder）''' — 训练重建其输入的网络，用于降维和生成建模。
* '''生成对抗网络（GAN）''' — 一对网络（生成器和判别器）通过竞争训练来生成逼真的数据。

== 应用 ==

神经网络被应用于广泛的领域：

* 计算机视觉（图像分类、目标检测、语义分割）
* 自然语言处理（翻译、摘要、问答）
* 语音识别与合成
* 游戏博弈（AlphaGo、Atari智能体）
* 科学发现（蛋白质折叠、药物设计、天气预测）
* 自动驾驶与机器人

== 参见 ==

* [[Gradient Descent]]
* [[Backpropagation]]
* [[Loss Functions]]
* [[Convolutional Neural Networks]]
* [[Recurrent Neural Networks]]
* [[Overfitting and Regularization]]

== 参考文献 ==

* Rosenblatt, F. (1958). "The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain". ''Psychological Review''.
* Cybenko, G. (1989). "Approximation by Superpositions of a Sigmoidal Function". ''Mathematics of Control, Signals, and Systems''.
* Hornik, K. (1991). "Approximation Capabilities of Multilayer Feedforward Networks". ''Neural Networks''.
* LeCun, Y., Bengio, Y. and Hinton, G. (2015). "Deep learning". ''Nature'', 521, 436–444.
* Goodfellow, I., Bengio, Y. and Courville, A. (2016). ''Deep Learning''. MIT Press.

[[Category:Deep Learning]]
[[Category:Introductory]]
[[Category:Neural Networks]]

Neural Networks/zh - Revision history

DeployBot: [deploy-bot] Deploy from CI (8c92aeb)

DeployBot: Pass 2 force re-parse

DeployBot: Force re-parse after Math source-mode rollout (v1.2.0)

DeployBot: [deploy-bot] Deploy from CI (775ba6e)