其中 $ g $ 和 $ f $ 是激活函数,$ \mathbf{W}_1, \mathbf{W}_2 $ 是权重矩阵,$ \mathbf{b}_1, \mathbf{b}_2 $ 是偏置向量。隐藏层使网络能够学习单个感知机无法捕捉的非线性关系。